Fokus Forschung: Erfolg mit der Auswertung von Videodaten

Fokus Forschung: Erfolg mit der Auswertung von Videodaten

Forschung, Nachwuchsforschung, Fördermittel / Wettbewerbe

Rico Thomanek erreicht 2. Platz beim internationalen TRECVID-Wettbewerb

Schematische Darstellung von Aktivitätserkennung in einer Strassenszene
Aktivitätserkennung (Grafik erstellt mittels Computer Vision

Rico Thomanek, wissenschaftlicher Mitarbeiter der Hochschule Mittweida, hat im Kontext seiner Dissertation und in Zusammenarbeit mit Professor Christian Roschke von der Fakultät CB an der diesjährigen internationalen Evaluationskampagne TRECVID teilgenommen. Organisiert vom National Institute of Standards and Technology (NIST) in den USA, zielt die Kampagne darauf ab, neue Technologien zur Analyse großer multimedialer Videodaten zu evaluieren und zu fördern. TRECVID bringt weltweit führende Teams aus Forschungseinrichtungen, Universitäten und Industrieunternehmen zusammen, um Innovationen in den Bereichen Video-Retrieval, Videoanalyse und maschinelles Lernen voranzutreiben. Zu den Teilnehmern gehören renommierte Teams aus den USA, Europa und Asien.

Rico Thomanek nahm am Activity Detection in Extended Video (ActEV)-Task teil. Dieser Wettbewerb fordert die Entwicklung von Systemen, die menschliche Aktivitäten in langen und komplexen Videodaten präzise erkennen und zeitlich genau lokalisieren können.

In diesem Jahr mussten 20 verschiedene Aktivitäten in 200 Videos von jeweils 15 Minuten Länge erkannt werden. Zu diesen Aktivitäten gehörten unter anderem:

  • person_closes_vehicle_door (Person schließt Fahrzeugtür)
  • person_reads_document (Person liest ein Dokument)
  • person_enters_scene_through_structure (Person betritt die Szene durch eine Struktur)
  • person_sits_down (Person setzt sich hin)
  • person_enters_vehicle (Person steigt in ein Fahrzeug ein)
  • person_stands_up (Person steht auf)
  • person_exits_scene_through_structure (Person verlässt die Szene durch eine Struktur)
  • person_talks_to_person (Person spricht mit einer anderen Person)
  • person_exits_vehicle (Person steigt aus einem Fahrzeug aus)
  • person_texts_on_phone (Person schreibt auf dem Handy)
  • person_interacts_with_laptop (Person interagiert mit einem Laptop)
  • person_transfers_object (Person übergibt einen Gegenstand)
  • person_opens_facility_door (Person öffnet eine Gebäudetür)
  • vehicle_starts (Fahrzeug startet)
  • person_opens_vehicle_door (Person öffnet Fahrzeugtür)
  • vehicle_stops (Fahrzeug stoppt)
  • person_picks_up_object (Person hebt einen Gegenstand auf)
  • vehicle_turns_left (Fahrzeug biegt links ab)
  • person_puts_down_object (Person legt einen Gegenstand ab)
  • vehicle_turns_right (Fahrzeug biegt rechts ab)

Mit vielfältiger Unterstützung durch das CSMRT (Computer Science and Media in Research and Transfer) und der Fakultät CB, ohne die diese Arbeit nicht möglich gewesen wäre, entwickelte Rico Thomanek ein modulares Framework, das große Videodatensätze effizient durchsucht, relevante menschliche Aktivitäten identifiziert und deren zeitliche Position im Video ermittelt. Eine besondere Stärke des Systems ist seine Flexibilität: Neue Algorithmen zur computergestützten Bildanalyse lassen sich problemlos in den Verarbeitungsprozess integrieren, was kontinuierliche Verbesserungen ermöglicht.

Im ActEV-Task erzielte Rico Thomanek überzeugende Ergebnisse und belegte den zweiten Platz mit einem AOD Mean Pmiss@0.1RFA-Wert von 0,8330, nur knapp hinter dem erstplatzierten Team mit 0,8232. Doch was bedeutet dieser Wert genau? Der AOD Mean Pmiss@0.1RFA-Wert ist ein Maß dafür, wie gut ein System Aktivitäten und Objekte in Videos erkennen kann. Einfach ausgedrückt:

  • AOD steht für Aktivitäts- und Objektdetektion.
  • Pmiss ist die Wahrscheinlichkeit, dass das System eine relevante Aktivität übersieht.
  • 0.1RFA bedeutet, dass das System durchschnittlich 0,1 Falschalarme pro Minute erzeugt—also etwa einen Fehlalarm alle zehn Minuten.

Ein niedrigerer Pmiss-Wert ist besser, weil das System dann weniger wichtige Aktivitäten verpasst. Die Bewertung zeigt also, wie zuverlässig das System relevante Ereignisse erkennt, ohne zu viele Fehlalarme zu produzieren. Das Ziel ist es, möglichst viele relevante Aktivitäten zu finden und dabei so wenig falsche Warnungen wie möglich auszugeben.

Besonders bemerkenswert ist, dass Thomaneks System in bestimmten Aktivitäten wie „person_closes_vehicle_door“ oder „person_texts_on_phone“ sogar deutlich bessere Ergebnisse erzielte als das erstplatzierte Team. Dies unterstreicht die hohe Qualität und Effizienz des entwickelten Frameworks.

Anwendung finden solche Frameworks beispielsweise bei der Sicherheitsüberwachung zur Erkennung verdächtiger Aktivitäten sowie bei der Verkehrsplanung zur Analyse von Verkehrsströmen und Optimierung öffentlicher Bereiche.

Ein Beispiel eines solchen Videos inklusive Auswertung ist unter folgendem Link abrufbar: https://www.staff.hs-mittweida.de/~rthomane/trecvid/resultsExample/results.html

Aufgrund dieser Leistungen wurden Professor Christian Roschke und Rico Thomanek von den Organisatoren der TRECVID-Konferenz eingeladen, ihre Forschungsergebnisse auf der diesjährigen Konferenz Mitte November in Maryland, USA, in einem wissenschaftlichen Beitrag zu präsentieren. Diese Einladung bietet die Gelegenheit, die Entwicklungen und Erkenntnisse einem internationalen Fachpublikum vorzustellen.

Dieser Erfolg zeigt die Kompetenz der Hochschule Mittweida im Bereich der Video- und Bilddatenanalyse und trägt zur internationalen Sichtbarkeit der Hochschule und ihrer Forschungsprojekte bei.

Text und Abbildungen: Rico Thomanek