Diplomarbeit Armin Lange
Titel der Arbeit:
Verfahren zur Eliminiation von bewegten Objekten in Bildsequenzen bewegter Kameras
Betreuer: Prof. Dr. Hans-Gerd Maas, Dr.-Ing.
Patrick Westfeld
Beschreibung:
Für Fotografen und Photogrammeter ist bei der Aufnahme von
architektonischen Bauwerken oft der Wunsch gegeben, die
Aufnahme frei von störenden Einflüssen wie Autos, Passanten
oder anderen überlagernden Objekten zu befreien. Da dieser
Wunsch in Einzelaufnahmen im Allgemeinen nicht immer (zum
passenden Zeitpunkt) realisierbar ist, sollen Bildsequenzen als
Basis dienen.
Dabei geht man davon aus, dass bewegte Objekte in jedem Bild
einer Sequenz eine andere Position einnehmen und die
akkumulierten Informationen über den Hintergrund jedes
Einzelbildes zur Extraktion eines Hintergrundbildes aus der
Summe dieser Informationen führen. Um diesem Ziel näher zu
kommen werden in dieser Arbeit existierende Verfahren der
Elimination bewegter Objekte aus Bildsequenzen diskutiert und
hinsichtlich ihrer Anwendbarkeit beurteilt. Die Zielsetzung
liegt dabei auf der Minimierung der verwendeten Bildern bei
gleichzeitiger Qualitätsmaximierung des extrahierten
Hintergrundes.
Eine weitere Aufgabe dieser Arbeit ergibt sich aus dem Umstand,
dass sich die Kamera selbst, mit der die Bildaufnahmen gemacht
werden minimalen Orientierungsschwanken unterliegt (Abb. 1).
D.h. die Einzelbilder müssen im Rahmen der Lösung des
Gesamtproblems zuerst mit, für den Eliminationsprozess,
genügender Qualität orientiert werden damit die anschließende
Elimination bewegter Objekte auch realisierbar ist.
In einem 1. Schritt gilt es markante Punkte mit Hilfe von Interest- Operatoren zu finden (Abb. 2), um über diese im anschließenden 2. Schritt einer Korrespondenzanalyse homologe Punktepaare zu ermitteln. Da in jedem Bild bewegte Objekte als Störfaktor auch die Detektion markanter Punkte beeinflussen, musste für die Korrespondenzanalyse ein robustes Verfahren implementiert werden. Die Wahl dafür fiel auf RANSAC (random sample consensus) und eine 5-Punkte Ähnlichkeitstransformation.
Die korrespondierenden Punktepaare aus Schritt zwei besitzen
nur eine grobe Orientierungsqualität, das es in erster Linie
nur um das finden einer größtmöglichen Punktewolke homologer
Punktepaare ging. Der Verlust möglichst aller markanten Punkte
an bewegten Objekten oder nicht korrespondierter Punkte ist der
Analysegewinn mit Hilfe von RANSAC.
Im anschließenden 3. Schritt der Auswertung werden diese
korrespondierenden Paare mit Hilfe der "Kleinste Quadrate
Anpassung" (adaptive least squares matching (LSM))
zueinander orientiert, indem Bildausschnitte subpixel-genau
zueinander orientiert und die transformierten Koordinaten
abgespeichert werden. Dabei kam die Affintransformation in
Kombination eines Signifikanztestes zum Einsatz. Die innere
Genauigkeit (Standardabweichung der Parameter a0, b0) des
LSM-Verfahrens lag im Durchschnitt bei 0.0017 bis 0.0025
Pixeln.
Ein Beispiel der iterativen Annäherung eines
Musterbildausschnitts zu einem Suchbild ist in Abbildung 3
dargestellt. Die Iteration terminierte, sobald jeder Einzeltest
für die Beträge der Zuschläge zu den unbekannten
Transformationsparametern unter dem Schwellwert von e=0.001 lag
(|xdach| < e).
Diese hohe Genauigkeit ist Vorrausetzung dafür, dass bei der
finalen Netzausgleichung, vor der geometrischen Umbildung des
Suchbildes zum Musterbild, Standardabweichungen von 0.01 <=
{s[x], s[y]} <= 0.04 für die Parameter a0, b0 erreicht
werden können. Damit wird eine der Objektelimination genügende
Orientierungsgenauigkeit geschaffen. Zum erreichen dieses
Güteanspruchs musste, mit der Affintransformation beginnend,
das funtionale Modell zur Bilinearen Transformation und
schließlich zur Polynomtransformation erweitert werden. Ein
Signifikanztest der unbekannten Parameter sicherte deren
Relevanz im Ausgleichungsmodell ab. War diese nicht gesichert,
wurden die entsprechenden Parameter aus dem Ausgleichungsmodell
entfernt und die Ausgleichung wiederholt.
Die so orientierte Bildsequenz wurde in einem abschließenden 4.
Schritt dem Algorithmus zur Elimination von bewegten
Objekten zugeführt. Die Konzentration auf die Realisierung
dieses einen Algorithmuses resultierte aus der Auswertung und
Verwerfung der meisten in der Literatur zu findenden Ansätze
zur Elimination bewegter Objekte aus Bildsequenzen.
Diese bauten in erster Linie auf statistischen Verfahren auf,
deren Grundlage die Annahme von Verteilungsmodellen sind, die
in Bezug auf die Zielsetzung sowie Genauigkeitsgrenzen dieser
Arbeit nicht anwendbar sind. Bei dem implementierten Ansatz
handelt es sich um ein Konturmaskierungsverfahren, welches
durch Ausführungen von [1] inspiriert wurde. Das vorgehen bei
der Objektelimination ist als Übersicht in Abbildung 4
dargestellt.
Dabei wurden zuerst die Konturbilder der Einzelbilder der
Sequenz mit Hilfe des geeigneten LoG (Laplace-of-Gaussian)
Kantenfilters extrahiert. Auf die Differenzbilder innerhalb der
Sequenz wurde ein Schwellwert-Operator angewendet um eine
Binärisierung der verbleibenden Kanten zu erreichen. Durch die
Anwendung von morphologischen Operationen wurden die bewegten
Objektkanten rekonstruiert, aufgefüllt und mit einer
Toleranzkante nach außen versehen. Die so über ihre Kontur
extrahierten und maskierten bewegten Objekte bilden die
Grundlage zur Rekonstruktion des Hintergrundbildes aus den
unmaskierten Stellen jedes Einzelbildes der Sequenz. Die
Termination erfolgt sobald keine ungelöste Stelle im
Hintergrundbild verbleibt oder alle Bilder der Sequenz
durchlaufen wurden.
Idealierweise ist ein Bild nach diesem Ansatz durch die
Auswertung weniger Bilder von bewegten Objekten befreit. Ist
dies nicht der Fall, weil die Bilder der Sequenz nicht
ausreichten bzw. die Bilder immer wieder in denselben Bereichen
verdeckt sind, gibt ein Bild der verbleibend zu lösenden
Stellen hinweise auf die Lokalisierung und damit die Lösung
durch weitere Aufnahmen, welche der Sequenz hinzugefügt werden
können. Hier ist als Ausblick hinzuzufügen, dass mögliche
radiometrische Anpassungen vorgenommen werden müssen.
Eine Erweiterung des Algorithmus hinsichtlich mehr Flexibilität
bei Standpunktwahl ist ein Thema für fortführende Arbeiten. Das
Interesse liegt dabei auch auf der möglichen Elimination
stationärer Objekte, welche dem eigentlich abzubildendem Objekt
(z.B. Martin-Luther Statue vor der Fassade der Frauenkirche)
vorgelagert sind und sich somit nie bewegen.
Das Konturmaskierungsverfahrens wie es in dieser Arbeit
implementiert wurde, kann durch eine noch bessere
Kantenextraktion sehr kleiner bewegter Objekte und die
Behandlung von Ausnahmefällen weiter verbessert werden. Gerade
für Bildsequenzen schlechter Aufnahmekonfiguration, die von
unerfahrenen Fotografen, Photogrammetern oder auch
Hobbyfotografen gemacht wurden, kann dies lösungsunterstützend
sein.
Die objektorientierte Implementation und gezielt realisierte
Vollautomatisierung des Orientierungs- und
Eliminationsprozesses unterstützen die Eignung der
Programmimplementation für einen web-basierten Service. Wird
von dem Anwender doch nur noch das hochladen der Bilder und die
Angabe einer E-mail Adresse erwartet um später mitteilen zu
können, dass das Hintergrundbild heruntergeladen werden
kann.
[1]
Yokoyama, M. Poggio, T. (2005):
A Contour-based Moving Object Detection and Tracking.
Visual Surveillance and Performance Evaluation of Tracking and
Surveillance, 2005. 2nd Joint IEEE International Workshop, pp.
271-276, on 15-16 Oct. 2005.