Tech

Googles Lumiere macht KI-Videos näher an der Realität als an der Unwirklichkeit

CrystalNomad Januar 27, 2024

0 6 2 minutes read

Googles Lumiere macht KI-Videos näher an der Realität als an der Unwirklichkeit

Googles neues KI-Modell zur Videogenerierung Lumiere A wird verwendet Ein neues Diffusionsmodell wird aufgerufen Space-Time-U-Net oder STUNet, das bestimmt, wo sich Objekte im Video befinden (Raum) und wie sie sich gleichzeitig bewegen und verändern (Zeit). Ars Technica Diese Methode ermöglicht es Lumiere, das Video in einem einzigen Prozess zu erstellen, anstatt kleinere Standbilder zusammenzufügen, heißt es in dieser Methode.

Lumiere erstellt zunächst einen Grundrahmen aus dem Vektor. Anschließend wird mithilfe des STUNet-Frameworks mit der Annäherung begonnen, wohin sich Objekte innerhalb dieses Frames bewegen werden, um weitere Frames zu erstellen, die ineinander übergehen und so den Anschein einer gleichmäßigen Bewegung erwecken. Lumiere erstellt außerdem 80 Frames im Vergleich zu 25 Frames bei Stable Video Diffusion.

Zugegebenermaßen bin ich eher ein Textreporter als ein Videomensch, aber die Pressemitteilung von Google zeigt zusammen mit einer vorab gedruckten wissenschaftlichen Arbeit, dass KI-Tools zur Videoerstellung und -bearbeitung in nur wenigen Jahren vom unheimlichen Tal zur nahezu realen Realität übergegangen sind . Außerdem etabliert es die Technologie von Google in einem Bereich, der bereits von Konkurrenten wie Runway, Stable Video Diffusion oder Metas Emu besetzt ist. Runway, eine der ersten massenproduzierten Text-zu-Video-Plattformen, startete im März letzten Jahres Runway Gen-2 und begann, realistischere Videos anzubieten. Laufstegvideos haben auch Schwierigkeiten, Action einzufangen.

Google war so freundlich, die Clips und Eingabeaufforderungen auf der Lumiere-Website zu veröffentlichen, sodass ich dieselben Eingabeaufforderungen zum Vergleich auf Runway veröffentlichen konnte. Hier sind die Ergebnisse:

Ja, einige der präsentierten Clips haben einen industriellen Touch, vor allem wenn man sich die Beschaffenheit der Haut genau anschaut oder die Szene atmosphärischer ist. Aber Schau dir diese Schildkröte an! Sie bewegt sich wie eine Schildkröte im Wasser! Es sieht aus wie eine echte Schildkröte! Ich habe das Lumiere-Einführungsvideo an einen Freund geschickt, der ein professioneller Videoeditor ist. Während sie feststellte, dass „man klar erkennen kann, dass das nicht ganz real ist“, fand sie es beeindruckend, dass sie denken würde, es sei CGI, wenn ich ihr nicht sagen würde, dass es sich um KI handelt. (Sie sagte auch: „Das würde meinen Job kosten, nicht wahr?“)

Andere Modelle fügen Videoclips aus Keyframes zusammen, die dort erstellt wurden, wo die Aktion tatsächlich stattgefunden hat (denken Sie an Zeichnungen in einem Papierbuch), während STUNet es Lumiere ermöglicht, sich auf die Aktion selbst zu konzentrieren, basierend darauf, wo sich der generierte Inhalt zu einem bestimmten Zeitpunkt im Video befinden sollte.

Google war in der Kategorie „Text-zu-Video“ kein großer Player, hat aber nach und nach fortschrittlichere KI-Modelle veröffentlicht und sich auf Multimedia konzentriert. Sein Gemini Grand Language Model wird dem Barden schließlich die Bilderzeugung ermöglichen. Lumiere steht noch nicht zum Testen zur Verfügung, aber es zeigt Googles Fähigkeit, eine KI-Videoplattform zu entwickeln, die mit allgemein verfügbaren KI-Videogeneratoren wie Runway und Pika vergleichbar und möglicherweise etwas besser ist. Und nur zur Klarstellung: Hier war Google vor ein paar Jahren mit KI-Videos.

Google Imagen-Clip aus dem Jahr 2022

Bild: Google

Neben der Text-zu-Video-Konvertierung ermöglicht Lumiere auch die Erstellung von Bild-zu-Video-Konvertierungen, stilisierte Erstellung, sodass Benutzer Videos in einem bestimmten Stil erstellen können, filmische Grafiken, die nur einen Teil des Videos animieren, und Zeichnen Maskieren Sie einen Bereich des Videos, um die Farbe oder den Stil zu ändern.

Allerdings heißt es in der Studie von Google Lumiere, dass „die Gefahr des Missbrauchs besteht, um mit unserer Technologie gefälschte oder bösartige Inhalte zu erstellen, und wir glauben, dass es wichtig ist, Tools zu entwickeln und zu implementieren, um Vorurteile und Fälle böswilliger Nutzung zu erkennen, um ein sicheres und faires Erlebnis zu gewährleisten.“ .“ verwendet wird.“ Die Autoren des Papiers erklärten nicht, wie dies erreicht werden könnte.