Forschungsfeld Scene Understanding

Scene Acquisition
Training Data Synthesis
Feature and Semantics Based Techniques
Image Retrieval
Object Recognition, Tracking and Localization
Learning 6D Object Pose Estimation Using 3D Object Coordinates

Ansprechpartner: Marcel Spehr, Eric Brachmann

Making Machines See

Die meisten Menschen nehmen ihre Umwelt zu einem großen Teil visuell wahr. Mit der massenhaften Verbreitung von günstigen Digital-Kameras schlägt sich dieser Fakt auch in einer großen Menge von visuellen Daten wieder. Menschen dokumentieren und teilen ihr Leben auf Facebook, Tumblr oder Flickr in Bildern. Schon seit Jahrhunderten sind bildgebende Verfahren auch aus der Wissenschaft nicht wegzudenken. Mikroskopische Aufnahmen, Röntgen- und CRT-Bilder helfen beispielsweise bei der medizinischen Diagnostik.

Für den Menschen sind Bilder leicht zugänglich und können eine Vielzahl von Informationen transportieren. Allerdings wird die schiere Masse an Bildern für den Menschen zunehmend zum Problem. Es wächst der Bedarf an automatischen Verfahren die verschiedenste Informationen aus Bilddaten extrahieren und dem Menschen strukturiert zu Verfügung stellen. Damit beschäftigt sich dieser Forschungszweig.

Diese Aufgabe ist allerdings sehr schwierig. Menschen können Szenen und Objekte auf Bildern ohne Probleme erkennen. Sie können Farben unabhängig von der Beleuchtung wahrnehmen, Formen auch unter Verdeckung interpretieren und komplexe Szenen über Kontext-Informationen entschlüsseln. Aktuellen Algorithmen fällt dies alles schwer. Ein umfassendes Bildverständnis durch Computer ist eng geknüpft an das Problem der künstlichen Intelligenz und dessen Lösung ist im Moment nicht in Sicht.

Trotzdem kann man schon heute durch die geschickte Ausnutzung diverser Bildeigenschaften Beeindruckendes leisten und praxistaugliche Systeme für bestimmte Anwendungsfelder erschaffen. Im Zentrum der aktuellen Forschung stehen lern-basierte Verfahren die versuchen die Zusammenhänge zwischen Bilddaten und den gewünschten Informationen anhand von vorgegebenen Beispielen allgemeingültig zu extrahieren. Im Forschungsprojekts VICCI enstand so zum Beispiel ein System welches anhand von 3D-Scans das Aussehen von vorgegebenen Objekten erlernt und diese dann in beliebigen Aufnahmen identifizieren und tracken kann. Es liefert dabei exakte Objekt-Posen die im Rahmen von Augmented-Reality oder Roboter-Interaktion genutzt werden können. Die Ergebnisse der Arbeit sind im verlinkten Video zu sehen.

Weitere Arbeiten im Forschungsschwerpunkt beschäftigen sich mit Image-Retrieval, also der Suche in großen, unannotierten Bilddatenbanken. Ein besonderer Fokus liegt dabei auf der effizienten Evaluierung von der Vielzahl an Retrievel-Pipelines die die Forschung hervorgebracht hat, oder die sich durch diverse Komponenten- und Parameterkonfigurationen ergeben.

Ergebnisbilder

Amplitudenspektren natürlicher Bilder können durch eine summative Überlagerung von Superellipsen so beschrieben werden, dass semantisch relevante Bildinformationen repräsentiert und intuitiv abgelesen werden können.

Eine Nachbarschaftsstruktur zwischen Bildern wird zur Propagierung bildspezifischer Informationen verwendet.

Die Web-basierte Software für Bildsuchmaschinen (Wifbs) ermöglicht die Optimierung von Bilddeskriptoren und ihre weitere Verarbeitung im Zuge der Erkennung semantischer Inhalte.

Die Einbettung von Bildern in einen hochdimensionalen Merkmalsraum ermöglicht eine merkmalsgeführte Suche von Bildinhalten. Die einzelnen Richtungen in den Merkmalsräumen sind jedoch oft unintuitiv. Die Abb. zeigt examplarisch zwei Visualisierungskomponenten zur Einbettung von Bildern in Merkmalsräumen für Suchsysteme.

Rigide Objekte können relativ zu einer Beobachterposition mittels 6 Freitheitsgraden positioniert werden. Der Quader im Bild zeigt diese relative Rotation und Verschiebung des Elefanten bezüglich des Beobachters.

Die Bilder links und rechts stellen Momentaufnahmen in der Entwicklung einer Drosophila Larve dar. Die drei dazwischen liegenden Bilder sind rekonstruierte Zwischenaufnahmen, welche mit einem Morphingansatz erzeugt wurden.

Webseiten zu Projekten in diesem Forschungsfeld

ESF-Nachwuchsforschergruppe VICCI
http://cgv.inf.tu-dresden.de/ZoomableCell – DFG-Forschungsprojekt, SPP Scalable Visual Analytics

Forschungsfeld Scene Understanding