Wie Kameras und KI durch Nachahmung der menschlichen Augenfokussierung Bilder besser verstehen - IT BOLTWISE® x Artificial Intelligence

Kansai Science City, JAPAN / MÜNCHEN (IT BOLTWISE) – Forscher aus Japan haben eine bahnbrechende Methode entwickelt, die die Art und Weise verbessert, wie Kameras und Künstliche Intelligenz (KI) Bilder verstehen, indem sie nachahmen, wie menschliche Augen fokussieren.

In der Computer Vision gibt es spezielle Herausforderungen, besonders in Bereichen wie Augmented Reality und autonomen Fahrzeugen. Eine dieser Herausforderungen ist es, den Abstand zwischen Objekten und der Kamera zu messen. Eine Methode, die diesen Vorgang erleichtert, nutzt die Unschärfe in Bildern als Anhaltspunkt. Diese Methode heißt Tiefenbestimmung durch Fokus und Defokus. Um sie anzuwenden, benötigt man normalerweise mehrere Aufnahmen der gleichen Szene. Diese Aufnahmen müssen mit unterschiedlichen Fokuseinstellungen gemacht werden. Die Sammlung dieser Aufnahmen wird „Fokalstapel“ genannt.

In den letzten Jahren haben Wissenschaftler viele Methoden für die Tiefenschätzung aus Fokus/Defokus vorgeschlagen, die hauptsächlich in zwei Kategorien unterteilt werden können. Die erste Kategorie umfasst modellbasierte Methoden, die mathematische und optische Modelle verwenden, um die Szenentiefe auf Basis von Schärfe oder Unschärfe zu schätzen. Das Hauptproblem dieser Methoden besteht jedoch darin, dass sie bei texturlosen Oberflächen versagen, die im gesamten Fokalstapel nahezu identisch aussehen.

Die zweite Kategorie beinhaltet lernbasierte Methoden, die darauf trainiert werden können, die Tiefenschätzung aus Fokus/Defokus effizient durchzuführen, selbst bei texturlosen Oberflächen. Allerdings scheitern diese Ansätze, wenn die Kameraeinstellungen eines Eingabefokalstapels von denen im Trainingssatz verwendet unterschiedlich sind.

Ein Forschungsteam aus Japan, unter der Leitung von Yasuhiro Mukaigawa und Yuki Fujimura vom Nara Institute of Science and Technology (NAIST), hat nun eine innovative Methode entwickelt, die gleichzeitig die genannten Probleme überwindet. Ihre Studie, veröffentlicht im International Journal of Computer Vision, präsentiert die Technik „Deep Depth from Focal Stack“ (DDFS), die modellbasierte Tiefenschätzung mit einem Lernframework kombiniert, um das Beste aus beiden Welten zu vereinen. Inspiriert von einer Strategie aus der Stereovision, involviert DDFS die Erstellung eines „Kostenvolumens“ basierend auf dem Eingabefokalstapel, den Kameraeinstellungen und einem Linsen-Defokus-Modell.

Einfach ausgedrückt repräsentiert das Kostenvolumen eine Reihe von Tiefenhypothesen – potenzielle Tiefenwerte für jedes Pixel – und einen damit verbundenen Kostenwert, der auf der Basis der Konsistenz zwischen den Bildern im Fokalstapel berechnet wird. „Das Kostenvolumen legt eine Einschränkung zwischen den Defokusbildern und der Szenentiefe fest und dient als Zwischenrepräsentation, die eine Tiefenschätzung mit unterschiedlichen Kameraeinstellungen bei Trainings- und Testzeiten ermöglicht“, erklärt Mukaigawa.

Die DDFS-Methode verwendet auch ein Encoder-Decoder-Netzwerk, eine häufig verwendete Architektur des maschinellen Lernens. Dieses Netzwerk schätzt die Szenentiefe progressiv in einer grob-zu-fein-Manier, indem es „Kostenaggregation“ in jedem Stadium für das adaptive Lernen lokalisierter Strukturen in den Bildern verwendet.

Die Forscher verglichen die Leistung von DDFS mit der anderer modernster Tiefenschätzmethoden aus Fokus/Defokus. Bemerkenswerterweise übertraf der vorgeschlagene Ansatz die meisten Methoden in verschiedenen Metriken für mehrere Bilddatensätze. Zusätzliche Experimente mit Fokalstapeln, die mit der Kamera des Forschungsteams aufgenommen wurden, bewiesen weiter das Potenzial von DDFS, was es sogar mit nur wenigen Eingabebildern in den Eingabestapeln nützlich macht, im Gegensatz zu anderen Techniken.

Insgesamt könnte DDFS als vielversprechender Ansatz für Anwendungen dienen, bei denen eine Tiefenschätzung erforderlich ist, einschließlich Robotik, autonome Fahrzeuge, 3D-Bildrekonstruktion, virtuelle und erweiterte Realität sowie Überwachung. „Unsere Methode mit Kameraeinstellungsunabhängigkeit kann helfen, die Anwendbarkeit von lernbasierten Tiefenschätzungstechniken zu erweitern“, schließt Mukaigawa ab.

Neue Fortschritte verbessern das Verständnis von Bildern durch Kameras und KI, indem sie die Fokussierung des menschlichen Auges nachahmen
Neue Fortschritte verbessern das Verständnis von Bildern durch Kameras und KI, indem sie die Fokussierung des menschlichen Auges nachahmen (Foto:Midjourney, IT BOLTWISE)
Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein.



Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Stichwörter
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!


#Abo
LinkedIn
Facebook
Twitter
#Podcast
YouTube
Spotify
Apple

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert



Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.