Scene Understanding Meets Realistic Scene Synthesis: Novel Learning-based Technologies for Scene Digitization, Analysis and Editing
Promotion von Saptarshi Neil Sinha
Herzlichen Glückwunsch! Saptarshi Neil Sinha, Mitarbeiter in der Abteilung »Virtuelle und Erweiterte Realität« in Darmstadt, hat am 24. November 2025 seine Dissertation »Scene Understanding Meets Realistic Scene Synthesis: Novel Learning-based Technologies for Scene Digitization, Analysis and Editing« erfolgreich verteidigt.
Zusammenfassung
Das Verständnis einer bildhaften Szene auf der Grundlage gesammelter visueller Daten ist eines der primären Ziele der Computer Vision und dient als Grundlage zur Lösung komplexer Problemstellungen wie der semantischen Segmentierung, der Extrapolation und Interpolation unvollständiger Szenenerfassungen in Echtzeitsystemen wie dem autonomen Fahren, der Fehlererkennung oder Objektverfolgung, der materialbasierten Segmentierung sowie der Schätzung physikalischer Merkmale wie Beleuchtung und Materialeigenschaften. Dieser Prozess umfasst die Erkennung, Klassifizierung, realistische Rekonstruktion und Interpretation physischer Objekte und ihrer Beziehungen innerhalb einer visuellen Umgebung, um eine aussagekräftige Analyse und fundierte Entscheidungsfindung zu ermöglichen.
Während Menschen mühelos Erkenntnisse aus visuellen Daten gewinnen können, stehen neuronale Bildverarbeitungssysteme vor der Herausforderung, Informationen aus mehreren sensorischen Quellen zu integrieren – beispielsweise aus Audio-, Beschleunigungs- und 3D-Tiefensensoren wie LiDAR, RADAR oder Kinect. Ein multimodales Szenenverständnis, das semantische Verbindungen zwischen unterschiedlichen Sensorsystemen herstellt, ist unerlässlich, um eine umfassende Darstellung und ein tiefes Verständnis der Szene zu erreichen. Diese Aufgabe wird durch inhärente Mehrdeutigkeiten der Daten erschwert, die häufig auf physikalische Eigenschaften der Szene wie unterschiedliche Materialien oder Lichtverhältnisse zurückzuführen sind.
Bei Aufgaben wie der Digitalisierung von Szenen im Hinblick auf die Ableitung von Geometrie, Materialeigenschaften und Beleuchtung, der Szenenanalyse und der Szenenbearbeitung ist eine präzise Darstellung dieser Daten entscheidend – insbesondere in Bereichen wie virtuellem Prototyping, Werbung, digitaler Konservierung von Artefakten, autonomem Fahren, Überwachung, Architekturdesign, der Erstellung digitaler Zwillinge, der Entwicklung immersiver Medien sowie in interaktiven Spielen oder der Produktbewertung.
Die vorliegende Arbeit stellt Technologien vor, die das Verständnis von Szenen verbessern, indem sie lernbasierte Ansätze für die Digitalisierung, Analyse und Bearbeitung visueller Umgebungen nutzen. Wir beginnen mit einer Einführung in die Szenendigitalisierung zur Ableitung von Geometrie, Materialeigenschaften und Beleuchtung aus RGB- und spärlichen Spektraldaten. Unser neuartiger lernbasierter Ansatz zur spektralen Szenendigitalisierung nutzt 3D Gaussian Splatting (3DGS), um einen umfassenden, multispektralen und eindeutigen Rahmen der Szenendarstellung bereitzustellen. Dieser Rahmen steigert die Genauigkeit und den Realismus der gerenderten Ergebnisse durch verbesserte physikalisch basierte Rendering-Techniken, die Reflexion und Beleuchtung für jedes Spektrum schätzen. Darüber hinaus ermöglicht er eine verbesserte Szenenanalyse durch semantische Segmentierung pro Spektrum.
Ebenso stellen wir Technologien zur Szenendigitalisierung auf der Grundlage spärlicher Beobachtungen vor, wie beispielsweise die Visualisierung fragiler historischer Artefakte in der virtuellen Realität. Durch den Einsatz einer kalibrierten Messarm-Kamera-Konfiguration (MAC) steigern wir zusätzlich die Genauigkeit und Ausrichtung rekonstruierter Modelle unter Verwendung von 3D Gaussian Splatting (3DGS) aus einer begrenzten Anzahl von Ansichten.
Darüber hinaus führen wir zur verbesserten Verwaltung digitalisierter Materialien einen Rahmen zur Generierung digitaler Materialien ein, der auf lernbasierten Ansätzen beruht und die Verfügbarkeit dieser Materialien in standardisierten Formaten gewährleistet.
Die Arbeit untersucht außerdem Methoden der Szenenbearbeitung, einschließlich segmentweiser Stil- und Materialübertragung sowie Ansätzen für die semantische 3D-Stilübertragung. Durch die Integration semantischer Informationen in den Stilübertragungsprozess wird eine hohe Wiedergabetreue und Konsistenz der Stilisierung aus verschiedenen Blickwinkeln erreicht. Zusätzlich wird eine neuartige hybride Pipeline vorgestellt, die eine lernbasierte Analyse von Szenen ermöglicht, die mithilfe lernbasierter, hochwertiger Scanner digitalisiert wurden. Gleichfalls wird ein Anwendungsfall für steuerbaren Stiltransfer zwischen Porträts und Büsten präsentiert.
Schließlich befasst sich die Arbeit mit Szenenbearbeitung im Hinblick auf Datenwiederherstellung auf der Grundlage rein synthetischer Daten. Es wird eine Methode vorgestellt, mit der Defekte in der bildenden Kunst synthetisch erzeugt und Deep-Learning-Modelle anschließend darauf trainiert werden können, beschädigte Kunstwerke zu restaurieren. Diese Technik begegnet der unzureichenden Verfügbarkeit von Ground-Truth-Daten bei der Restaurierung und zeigt das Potenzial synthetischer Daten zur Verbesserung restauratorischer Verfahren auf.
Die Wirksamkeit der vorgeschlagenen Lösungen wird durch umfangreiche Bewertungen belegt, die deutliche Verbesserungen hinsichtlich der Genauigkeit und des Realismus rekonstruierter Szenen sowie eine optimierte Benutzererfahrung auf interaktiven Plattformen auf der Grundlage virtueller Realität zeigen. Zusammenfassend liefern die entwickelten Techniken – darunter die multispektrale, lernbasierte Szenendigitalisierung, die Digitalisierung aus spärlichen Beobachtungen, fortschrittliche Stil- und Materialübertragungsmethoden sowie datengetriebene Restaurierungsprozesse – eine solide Grundlage für zukünftige Anwendungen. Diese Beiträge sind besonders wertvoll für Projekte, die lernbasierte Ansätze zur Szenendigitalisierung, -analyse und -bearbeitung nutzen, um die Herausforderungen vielfältiger Datensätze effektiv zu bewältigen und die Qualität visueller Darstellungen in unterschiedlichen Anwendungsbereichen zu steigern. Die vorgeschlagenen Methoden besitzen nicht nur ästhetische, sondern auch funktionale Relevanz in Branchen wie Automobilbau, visueller Inspektion, medizinischer Bildverarbeitung und intelligenter Landwirtschaft, in denen präzise Materialdarstellungen und ein tiefes Szenenverständnis essenziell sind.