SHENZHEN / LONDON (IT BOLTWISE) – Tencent hat ein neues KI-Modell namens HunyuanWorld-Voyager vorgestellt, das aus einem einzigen Foto 3D-ähnliche Videos erzeugt. Diese Technologie ermöglicht es Nutzern, virtuelle Szenen zu erkunden, indem sie eine Kamerafahrt steuern. Trotz beeindruckender Ergebnisse erfordert das System erhebliche Rechenleistung und ist derzeit nicht für den Einsatz in Videospielen geeignet.

Tencent hat mit der Veröffentlichung von HunyuanWorld-Voyager einen weiteren Schritt in der Entwicklung von KI-gestützten Technologien gemacht. Dieses Modell kann aus einem einzigen Bild 3D-konsistente Videosequenzen erzeugen, die es dem Benutzer ermöglichen, durch virtuelle Szenen zu navigieren. Dabei wird sowohl RGB-Video als auch Tiefeninformation generiert, was eine direkte 3D-Rekonstruktion ohne traditionelle Modellierungstechniken ermöglicht. Allerdings sind die Ergebnisse keine echten 3D-Modelle, sondern 2D-Videoframes, die räumliche Konsistenz bewahren, als ob eine Kamera durch einen echten 3D-Raum bewegt würde.
Die Technologie basiert auf der Transformer-Architektur, die Muster aus den Trainingsdaten imitiert. Für die Schulung von Voyager wurden über 100.000 Videoclips verwendet, darunter auch computergenerierte Szenen aus der Unreal Engine. Diese Daten lehrten das Modell, wie sich Kameras in 3D-Umgebungen bewegen. Ein bemerkenswerter Unterschied zu anderen KI-Video-Generatoren ist, dass Voyager Muster räumlicher Konsistenz erkennt und reproduziert, unterstützt durch einen geometrischen Feedback-Loop.
Ein wesentlicher Aspekt von Voyager ist die gleichzeitige Erzeugung von Farbvideo und Tiefeninformationen, die perfekt aufeinander abgestimmt sind. Dies wird durch einen sogenannten “World Cache” unterstützt, der eine wachsende Sammlung von 3D-Punkten aus zuvor generierten Frames darstellt. Diese Punkte werden in 2D projiziert, um neue Frames zu erzeugen, die mit den vorherigen übereinstimmen. Diese Technik sorgt für eine bessere räumliche Konsistenz als herkömmliche Video-Generatoren, obwohl sie immer noch auf Mustererkennung basiert und keine echte 3D-Verständnis bietet.
Die Nutzung von Voyager erfordert erhebliche Rechenleistung, da mindestens 60 GB GPU-Speicher für eine Auflösung von 540p benötigt werden. Tencent empfiehlt sogar 80 GB für bessere Ergebnisse. Die Modellgewichte wurden auf Hugging Face veröffentlicht, und der Code unterstützt sowohl Einzel- als auch Multi-GPU-Setups. Es gibt jedoch Lizenzbeschränkungen, die die Nutzung in der Europäischen Union, im Vereinigten Königreich und in Südkorea untersagen. Kommerzielle Einsätze mit über 100 Millionen monatlich aktiven Nutzern erfordern eine separate Lizenzierung von Tencent.

- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Dozent Tourismusmanagement Technologien und KI (m/w/d)

Presales Solutions Architect (gn) Microsoft AI-Services

Bauprojektmanager/ Projektleiter als Bauherrenvertretung für den KI-Campus, Heilbronn (m/w/d)

Senior Consultant AI Governance, Compliance & Risk (m/w/d)

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Neue KI-Technologie von Tencent ermöglicht 3D-Welten aus Fotos" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Neue KI-Technologie von Tencent ermöglicht 3D-Welten aus Fotos" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Neue KI-Technologie von Tencent ermöglicht 3D-Welten aus Fotos« bei Google Deutschland suchen, bei Bing oder Google News!