Google stellt Veo vor, einen KI-gestützten HD-Videogenerator, der Sora Konkurrenz machen könnte
Das gab Google am Dienstag auf der Google I/O 2024 bekannt Sicht, ein neues KI-Videosynthesemodell, das hochauflösende Videos aus Text, Bildern oder Videoaufforderungen erstellen kann, ähnlich wie Sora von OpenAI. Es kann 1080p-Videos mit einer Dauer von mehr als einer Minute erstellen und Videos anhand schriftlicher Anweisungen bearbeiten, ist jedoch noch nicht für den breiten Einsatz freigegeben.
Berichten zufolge bietet Veo die Möglichkeit, vorhandene Videos mithilfe von Textbefehlen zu bearbeiten, die visuelle Konsistenz über alle Frames hinweg aufrechtzuerhalten, Videosequenzen mit einer Länge von bis zu 60 Sekunden und mehr als eine Eingabeaufforderung oder eine Reihe von Eingabeaufforderungen zu erstellen, die eine Erzählung bilden. Das Unternehmen gibt an, dass es detaillierte Szenen erstellen und filmische Effekte wie Zeitraffer, Luftaufnahmen und verschiedene visuelle Stile anwenden kann
Seit dem Start von DALL-E 2 im April 2022 haben wir eine Reihe neuer Fotomontage- und Videomontagemodule gesehen, die es jedem, der eine schriftliche Beschreibung verfassen kann, ermöglichen sollen, ein detailliertes Foto oder Video zu erstellen. Obwohl keine der beiden Technologien vollständig optimiert ist, werden KI-Bild- und Videogeneratoren immer leistungsfähiger.
Im Februar berichteten wir über eine Vorschau auf den Sora-Videogenerator von OpenAI, von dem viele damals glaubten, dass er das beste KI-gestützte Video-Compositing darstellte, das die Branche zu bieten hatte. Es beeindruckte Tyler Perry so sehr, dass er die Erweiterung seines Filmstudios stoppte. Bisher hat OpenAI jedoch keinen öffentlichen Zugriff auf das Tool gewährt, sondern seine Verwendung auf eine ausgewählte Gruppe von Testern beschränkt.
Nun scheint Googles Veo auf den ersten Blick in der Lage zu sein, ähnliche Videos zu produzieren wie Sora. Da wir es selbst noch nicht ausprobiert haben, können wir uns nur ausgewählte Demovideos des Unternehmens ansehen Auf seiner Website. Das bedeutet, dass jeder, der es sich ansieht, die Behauptungen von Google mit Vorsicht genießen sollte, da die Erstellungsergebnisse möglicherweise nicht typisch sind.
Zu den typischen Videos von Veo gehören ein Cowboy zu Pferd, eine schnelle Aufnahme auf einer Vorstadtstraße, ein auf dem Grill gegrillter Kebab, ein Zeitraffer einer sich öffnenden Sonnenblume und mehr. Es fehlt eindeutig an einer detaillierten Darstellung von Menschen, was für KI-gestützte Bild- und Videomodelle in der Vergangenheit schwierig war, ohne offensichtliche Verzerrungen zu erstellen.
Laut Google baut Veo auf den früheren Videoerstellungsmodellen des Unternehmens auf, darunter Generative Query Network (GQN), DVD-GAN und Imagen-Video. VinakiWalt, VideoPoet und Lumiere. Um die Qualität und Effizienz zu verbessern, enthalten die Veo-Trainingsdaten detaillierteres Video-Feedback und verwenden komprimierte „latente“ Videodarstellungen. Um die Qualität der Videoerstellung von Veo zu verbessern, hat Google detailliertere Untertitel für die Videos hinzugefügt, die zum Trainieren von Veo verwendet werden, sodass die KI Eingabeaufforderungen genauer interpretieren kann.
Veo scheint auch deshalb bemerkenswert zu sein, weil es Befehle zum Filmemachen unterstützt: „Wenn ein Videoeingabebefehl und ein Bearbeitungsbefehl gegeben werden, wie zum Beispiel das Hinzufügen eines Kajaks zu einer Luftaufnahme einer Küste, kann Veo diesen Befehl auf das Rohvideo anwenden und ein neues bearbeitetes Video erstellen.“ “, sagt das Unternehmen.
Während die Demos auf den ersten Blick beeindruckend aussehen (insbesondere im Vergleich zu Will Smith, der Spaghetti isst), erkennt Google die Schwierigkeit an, ein KI-Video zu erstellen. „Die Aufrechterhaltung der visuellen Konsistenz kann für Videoerstellungsmodelle eine Herausforderung sein“, schrieb das Unternehmen. „Charaktere, Objekte oder sogar ganze Szenen können flackern, springen oder sich unerwartet zwischen den Bildern verschieben, was Ihr Seherlebnis stört.“
Google hat versucht, diese Nachteile durch „hochentwickelte Konverter für die latente Ausbreitung“ zu mildern, was im Grunde genommen bedeutungsloses Marketinggerede ohne Details ist. Aber das Unternehmen ist zuversichtlich, was das Modell angeht Zusammenarbeit mit dem Schauspieler Donald Glover und sein Studio Gilga, um einen KI-generierten Erklärfilm zu erstellen, der bald Premiere haben wird.
Zunächst wird Veo darüber ausgewählten Entwicklern zur Verfügung stehen Video-FX, ein neues experimentelles Tool, das in Googles AI Test Kitchen, labs.google, verfügbar ist. Ersteller können sich in den kommenden Wochen auf die Warteliste von VideoFX setzen, um Zugang zu Veo-Funktionen zu erhalten. Google plant, einige der Funktionen von Veo in Zukunft in YouTube Shorts und andere Produkte zu integrieren.
Es gibt noch keine Informationen darüber, wo Google die Trainingsdaten von Veo erhalten hat (wenn wir raten müssten, wäre YouTube wahrscheinlich beteiligt). Aber Google sagt, dass man mit Veo einen „verantwortungsvollen“ Ansatz verfolgt. Nach Angaben des Unternehmens sind „von Veo erstellte Videos mit einem Wasserzeichen versehen Synthid-IDunser hochmodernes Tool zum Markieren und Identifizieren von KI-generierten Inhalten mit Wasserzeichen und zum Durchlaufen von Sicherheitsfiltern und Aufbewahrungsprüfungen, die dabei helfen, Datenschutz-, Urheberrechts- und Voreingenommenheitsrisiken zu mindern.“