Google AI stellt VideoPoet vor: Ein Zero-Shot-Video-Generierungsmodell für Große Sprachmodelle - IT BOLTWISE® x Artificial Intelligence

MOUNTAIN VIEW / MÜNCHEN (IT BOLTWISE) – Die Fähigkeit von VideoPoet, Videos mit vielfältigen Bewegungen und Stilen zu erzeugen, die auf spezifische Texteingaben zugeschnitten sind, zeigt sein fortgeschrittenes Verständnis von Inhalt und Kontext.

Die Welt der Videogenerierung hat einen neuen Meilenstein erreicht. Google AI präsentierte kürzlich VideoPoet, eine revolutionäre Methode, die jedes autoregressive Sprachmodell oder Großes Sprachmodell (LLM) in einen hochwertigen Videogenerator verwandeln kann. Diese Innovation demonstriert Spitzenleistungen in der Videoproduktion, insbesondere bei der Erzeugung einer breiten Palette von großen, interessanten und hochauflösenden Bewegungen.

Im Kern ist VideoPoet ein Multitasking-Wunderwerk. Es kann statische Bilder animieren, Videos für Inpainting oder Outpainting bearbeiten und sogar Audio aus Videos generieren. Seine Fähigkeit, Texte, Bilder oder Videos als Eingaben zu nehmen und Ausgaben in Form von Text-zu-Video, Bild-zu-Video und Video-zu-Audio-Umwandlungen zu liefern, unterstreicht seine Vielseitigkeit als umfassende Lösung für diverse Videoerstellungsaufgaben. Ein wesentlicher Vorteil ist, dass mehrere Funktionen in einem einzigen Modell integriert sind, wodurch separate spezialisierte Komponenten überflüssig werden.

VideoPoet Beispiele
Mittels Textanweisungen generierte Videos in VideoPoet

VideoPoet hebt sich durch seine Verwendung von diskreten Token für die Video- und Audiorepräsentation ab, ähnlich wie LLMs Sprache verarbeiten. Mit Hilfe mehrerer Tokenizer (MAGVIT V2 für Video und Bild, SoundStream für Audio) kann VideoPoet diese Modalitäten in ein sichtbares Format kodieren und dekodieren. Diese Methode ermöglicht es dem Modell, seine Sprachverarbeitungsfähigkeiten auf Video und Audio auszuweiten, was es zu einem robusten Werkzeug für Kreative und Technologen macht.

Die Fähigkeit von VideoPoet, Videos mit vielfältigen Bewegungen und Stilen zu generieren, die auf spezifische Texteingaben zugeschnitten sind, zeigt sein fortgeschrittenes Verständnis von Inhalt und Kontext. Ob es darum geht, ein Gemälde zu animieren oder einen Videoclip aus einem beschreibenden Text zu erzeugen, das Modell demonstriert eine bemerkenswerte Fähigkeit, die Integrität und das Aussehen von Objekten auch über längere Zeiträume hinweg zu bewahren. Google weist darauf hin, dass das Modell Videos sowohl im quadratischen Format als auch im Hochformat generieren kann, um Generationen auf kurzformatige Inhalte zuzuschneiden, und unterstützt auch die Audioerzeugung aus einem Videoeingang.

Eine bemerkenswerte Funktion von VideoPoet ist seine interaktive Videobearbeitungsfähigkeit. Nutzer können das Modell anleiten, Bewegungen oder Aktionen innerhalb eines Videos zu modifizieren, was einen hohen Grad an kreativer Kontrolle bietet. Das Modell kann auch präzise auf Kamerabewegungsbefehle reagieren und seine Nützlichkeit bei der Erstellung dynamischer und visuell ansprechender Inhalte weiter steigern. Darüber hinaus kann VideoPoet auch glaubhafte Audioinhalte für generierte Videos ohne jegliche Anleitung erzeugen und zeigt damit sein hervorragendes multimodales Verständnis.

VideoPoet Beispiele
Ein Beispiel für Bild-zu-Video mit Textanweisungen zur Steuerung der Bewegung. Jedem Video ist links ein Bild zugeordnet. Links: „Ein Schiff, das durch stürmische See navigiert, Gewitter und Blitz, animiertes Öl auf Leinwand“. Mitte: „Flug durch eine Nebelwolke mit vielen funkelnden Sternen“. Rechts: „Ein Wanderer auf einer Klippe mit einem Stock, der an einem windigen Tag auf den wirbelnden Nebel unter ihm hinabblickt“.

Standardmäßig erzeugt VideoPoet 2-Sekunden-Videos. Bei einem 1-Sekunden-Video-Clip kann das Modell jedoch 1 Sekunde Videomaterial vorhersagen. Dieser Prozess kann unbegrenzt wiederholt werden, um ein Video beliebiger Dauer zu produzieren.

Obwohl die Ergebnisse noch deutlich hinter den Werkzeugen von Runway und Pika zurückbleiben, unterstreicht VideoPoet die wichtigen Fortschritte, die Google bei der KI-basierten Videogenerierung und -bearbeitung macht.

Google AI stellt VideoPoet vor: Ein Zero-Shot-Video-Generierungsmodell für Große Sprachmodelle
Google AI stellt VideoPoet vor: Ein Zero-Shot-Video-Generierungsmodell für Große Sprachmodelle (DALL-E, IT BOLTWISE)
Hinweis: Teile dieses Textes könnten mithilfe einer Künstlichen Intelligenz generiert worden sein.



Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Stichwörter
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!


#Abo
LinkedIn
Facebook
Twitter
#Podcast
YouTube
Spotify
Apple

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert



Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.