Fokus Forschung: Automatisierte Datensatzerstellung und Verbesserung des Objekterkennungsmodells in einer benutzerdefinierten Umgebung

Fokus Forschung: Automatisierte Datensatzerstellung und Verbesserung des Objekterkennungsmodells in einer benutzerdefinierten Umgebung

Forschung, Nachwuchsforschung, Veranstaltungen, NWK

Forscher Nachwuchs | NWK 2025 | Shivakrishna Karnati forscht zur Optimierung von Bilderkennungssoftware

Portrait Shivakrishna Karnati in gewölbtem Raum
Shivakrishna Karnati forscht am Training von Bilderkennungssoftware

English version below

Deep-Learning-Modelle haben in den letzten Jahren an Popularität gewonnen, insbesondere in der Robotik und bei autonomen Systemen [1]. Diese Modelle erzielten gute Leistungen bei Aufgaben wie der Objekterkennung (OD) und Segmentierung von Bilddaten. Die OD-Modelle benötigen jedoch in der Regel eine große Menge an beschrifteten (oder kommentierten) Bilddaten für das Training. Der manuelle Beschriftungsprozess von benutzerdefinierten Umgebungsdaten ist zeitaufwändig und erfordert erhebliche personelle Ressourcen [2]. Es gibt zwar Methoden wie Semi-supervised Learning (SSL) und Active Learning zur Vorhersage von Beschriftungen aus weniger beschrifteten, trainierten Daten, aber sie erfordern immer noch menschliche Hilfe bei der manuellen Überprüfung des generierten Datensatzes, da das Modell falsch-positive Ergebnisse erkennt.

Zielsetzungen

  1. Verbesserung der Leistung des Objekterkennungsmodells unter Verwendung benutzerdefinierter Umgebungsdaten
  2. Beseitigung der falsch-positiven Erkennungen mit Hilfe einer Clustering-basierten Methodik zur Automatisierung des Prozesses

Methodik

Um die Leistung von OD-Modellen zu verbessern, ist es von entscheidender Bedeutung, Falsch-Positive (FPs) aus dem Trainingsdatensatz zu entfernen, was bei großen Datensätzen manuell schwierig ist. Um dieses Problem zu lösen, wird eine Clustering-basierte Methode zur automatischen FP-Entfernung vorgeschlagen. Die Umgebungsdaten werden zunächst mit einer Kamera und einem 2D-LiDAR-Sensor erfasst und in einer MCAP-Datei (Multi-Channel Audio Pack) gespeichert. Die Objekterkennung wird mit Hilfe eines YOLO-Modells auf den Bilddaten durchgeführt. Durch die Kombination von bildbasierten Bounding Boxes mit entsprechenden LiDAR-Punkten werden die 3D-Positionen der erkannten Objekte geschätzt. Zur Eliminierung von Fehlalarmen wird der DBSCAN-Clusteralgorithmus auf diese Positionen angewendet, wobei davon ausgegangen wird, dass der größte Cluster dem tatsächlichen Objekt entspricht, während Ausreißerpunkte verworfen werden. Dieser gefilterte und verfeinerte Datensatz wird dann zum Trainieren des OD-Modells verwendet, was zu einer genaueren und robusteren Erkennungsleistung führt.

Experimentelle Validierung

Zur Veranschaulichung des Ansatzes wird ein Serviceroboter namens „Double 3“ von Double Robotics betrachtet, der in der gegebenen Umgebung fährt, und das Objekt von Interesse für die Erkennung ist ein anderer Double 3-Roboter. Das YOLOv5n-Objekterkennungsmodell wurde aufgrund seiner Effizienz auf kleinen Geräten für das Training ausgewählt. Zu Beginn sammelt der Roboter während jeder Fahrt (Job“ genannt) Daten, einschließlich Position, Orientierung und Video, die mit Zeitstempeln gespeichert werden. Die aufgezeichneten Daten werden nach der ersten Fahrt manuell kommentiert und für das Training des OD-Modells verwendet. Sobald das Modell trainiert ist, kann es verwendet werden, um die Datensätze aus dem nächsten Fahrauftrag zu extrahieren. Der vorgestellte Ansatz erkennt die wahre Position des Objekts in der Umgebung, indem er sein Erscheinen in aufeinanderfolgenden Bildern überprüft. Mit anderen Worten, um die Anwesenheit des Objekts festzustellen, kann man die Anzahl der Erkennungen am geschätzten Ort überprüfen. Um das zu verdeutlichen, wird das YOLOv5n-Netzwerk verwendet, um das Objekt zu erkennen (Double 3) und zu versuchen, die Position des Objekts unter Verwendung von Roh-, Gier- und Nickwinkeln des beobachteten Roboters relativ zum erkannten Objekt zu schätzen und den Abstand mit der Position des beobachteten Objekts zu multiplizieren. Diese geschätzten Punkte können mit dem dichtebasierten Clustering-Algorithmus DBSCAN geclustert werden. Schließlich werden die Punkte mit der höchsten Clusterung als die wahren Positionen des beobachteten Objekts betrachtet.

Der vorgestellte Ansatz wurde erfolgreich implementiert und an die gegebene Umgebung angepasst, indem die falsch-positiven Ergebnisse in den extrahierten Datensätzen nach einigen Aufträgen/Iterationen selbstständig entfernt wurden. Nach jeder Iteration wird das trainierte Modell auf dem eingebetteten Gerät eingesetzt, um seine Erkennungsleistung zu validieren. Es gibt jedoch noch einige Probleme bei diesem Ansatz. Derzeit wird der Ansatz nur an stabilen Objekten in der Umgebung validiert, und beim Testen von sich bewegenden Objekten scheitert die Methodik an der Erfassung einiger echter Vorhersagen aufgrund der Clusterdichte. Um diese Herausforderung zu überwinden, wurde eine Methode zur Objektverfolgung vorgeschlagen, die noch in der Forschung ist. Außerdem kann die Forschung für Federated Learning hilfreich sein, um OD-Modelle mit verschiedenen Umgebungsdaten zu trainieren und die Gesamtleistung zu überprüfen.

Zur Person

Shivakrishna Karnati begann sein Masterstudium in Angewandter Mathematik im Jahr 2021, während dessen er ein starkes Interesse an interpretierbaren Modellen, Deep Learning und Computer Vision entwickelte. Unter der Betreuung von Prof. Dr.-Ing. Falk Langer hat er kürzlich seine Masterarbeit an der IAV GmBH abgeschlossen. Derzeit erweitert er seinen Forschungsschwerpunkt auf Large Language Models (LLMs) und deren praktische Anwendungen in der Industrie. Außerhalb des akademischen Bereichs spielt er gerne Basketball und ist aktives Mitglied des Mittweidaer Freitagsclubs.

Deep learning models have gained significant popularity in recent years, particularly in robotics and autonomous systems [1]. These models achieved good performance on tasks like object detection (OD) and segmentation on image data. However, the OD models usually require a large amount of labeled (or annotated) image data for training. The manual labeling process of custom environment data is time-consuming and requires significant human resources [2]. Although, there exist methods like Semi-supervised learning (SSL), and Active learning to predict the labels from less labeled trained data, but they still require human assistance to examine the generated dataset manually because of the false positive detections of the model.

Objectives:

  1. Improve the Object Detection model performance using custom environment data
  2. Remove the False Positive detections using clustering-based methodology to automate the process

Methodology
To improve the performance of OD models, it is crucial to remove false positives (FPs) from the training dataset, which becomes challenging to do manually in large datasets. To address this, a clustering-based method is proposed for automatic FP removal. The environment data is first collected using a camera and a 2D LiDAR sensor and stored in a Multi-Channel Audio Pack (MCAP) file. Object detection is performed on the image data using a YOLO model. By combining image-based bounding boxes with corresponding LiDAR points, the 3D positions of detected objects are estimated. To eliminate false positives, the DBSCAN clustering algorithm is applied to these positions, assuming that the largest cluster corresponds to the actual object, while outlier points are discarded. This filtered and refined dataset is then used to train the OD model, leading to more accurate and robust detection performance.

Experimental Validation
To illustrate the approach, a service robot called ‘Double 3’ from Double Robotics is considered to drive in the given environment and the object of interest for detection is another Double 3 robot. The YOLOv5n object detection model was chosen for training due to its efficiency on small devices. Initially, the robot collects data, including position, orientation, and video, during each drive session (called a "Job"), which is saved with timestamps. The recorded data after the first drive manually annotated, used for the OD model training and once the model is trained, it can be used to extract the datasets from the next drive job. The provided approach realizes the true location of the object in the environment by checking its appearance in consecutive frames. In other words, to finalize the object’s presence, one can check the number of detections in the estimated location. To explain clearly, the YOLOv5n network is used to detect the object (Double 3) and try to estimate the object’s position using raw, yaw, pitch angles of the observed robot relative to the detected object and multiply the distance with the observed object’s position. These estimated points can be clustered using DBSCAN density-based clustering algorithm. Finally, the maximum clustering points are considered as the true positions of the observed.

The approach presented has been successfully implemented and adapted to the given environment by removing the false positives in the extracted datasets autonomously after a few jobs/iterations. After each iteration, the trained model is deployed on the embedded device to validate its detection performance. However, there are still some challenges remaining in the provided approach. Currently, the approach is only validated on stable objects in the environment and while testing on moving objects, the methodology fails to capture some true predictions because of the clustering density. To overcome this challenge, the object tracking methodology has been suggested and it is still ongoing research. Further, the research can be helpful for Federated Learning to train OD models with different environment data and check the overall performance.

About me
Shivakrishna Karnati has began his Master’s in Applied Mathematics in 2021, during which he developed a strong interest in interpretable models, deep learning, and computer vision. Under the supervision of Prof. Dr.-Ing. Falk Langer, he recently completed his master’s thesis at IAV GmBH. Currently, He's expanding his research focus to include Large Language Models (LLMs) and their practical applications in industry. Outside of academics, he enjoys playing "Basketball" and an active member of the Mittweida Friday Club.

 

Literatur

[1]. Pham, Quang-Hieu, Pierre Sevestre, Ramanpreet Singh Pahwa, Huijing Zhan, Chun Ho Pang, Yuda Chen, Armin Mustafa, Vijay Chandrasekhar, and Jie Lin. (2020) "A* 3d dataset: Towards autonomous driving in challenging environments." In 2020 IEEE International conference on Robotics and Automation (ICRA), pp. 2267-2273.

[2]. Hatipoğlu, Nuh, Esra Çinar, and Hazim Kemal Ekenel. (2021) "Object Annotation Using Cost-Effective Active Learning." In 2021 6th International Conference on Computer Science and Engineering (UBMK), pp. 537-541.

Text: Shivakrishna Karnati
Fotos und Grafiken: Helmut Hammer (1), Shivakrishna Karnati