Echtzeitvideos könnten der nächste Sprung in der KI-Technologie sein
Ian Sansavera, ein Softwareentwickler bei einem New Yorker Startup namens Runway AI, schrieb eine kurze Beschreibung dessen, was er in einem Video sehen wollte. Bücher „Stiller Fluss im Wald“.
Weniger als zwei Minuten später produzierte ein Test-Internetdienst einen kurzen Videoclip von einem ruhigen Fluss in einem Wald. Das fließende Flusswasser schimmerte in der Sonne, als es durch die Bäume und Farne schnitt, um eine Ecke bog und sanft gegen die Felsen spritzte.
Runway, das plant, seinen Dienst diese Woche für eine kleine Gruppe von Testern zu öffnen, ist eines von mehreren Unternehmen, das Technologien für künstliche Intelligenz entwickelt, die es den Menschen bald ermöglichen werden, Videos zu erstellen, indem sie einfach mehrere Wörter in ein Feld auf einem Computerbildschirm eingeben.
Sie stellen die nächste Stufe im Rennen der Branche dar – ein Rennen, das Giganten wie Microsoft und Google sowie viel kleinere Startups umfasst – um neue Arten von KI-Systemen zu entwickeln, von denen einige glauben, dass sie das nächste große Ding in der Technologie sein könnten, so wichtig wie Webbrowser oder iPhone.
Neue Videoerstellungssysteme können die Arbeit von Filmemachern und anderen Digitalkünstlern beschleunigen und werden gleichzeitig zu einer neuen, schnellen Methode, um schwer zu erkennende Fehlinformationen online zu erstellen, wodurch es schwierig wird, zu sagen, was online echt ist.
Die Systeme sind Beispiele für die sogenannte generative künstliche Intelligenz, die Texte, Bilder und Töne sofort erzeugen kann. Ein weiteres Beispiel ist ChatGPT, der Online-Chatbot des Startups OpenAI aus San Francisco, der Ende letzten Jahres die Technologiebranche mit seinen Fähigkeiten verblüffte.
Google und Meta, die Muttergesellschaft von Facebook, Im vergangenen Jahr stellte das Unternehmen seine ersten Videoerzeugungssysteme voraber sie teilten es nicht mit der Öffentlichkeit, weil sie befürchteten, dass die Systeme schließlich zur Verbreitung von Desinformationen mit ihrer neu entdeckten Geschwindigkeit und Effizienz verwendet werden könnten.
Cristobal Valenzuela, CEO von Runway, sagte jedoch, er glaube, dass die Technologie trotz ihrer Risiken zu wichtig sei, um in einem Forschungslabor aufbewahrt zu werden. „Dies ist eine der beeindruckendsten Technologien, die wir in den letzten 100 Jahren entwickelt haben“, sagte er. „Man braucht Leute, die es tatsächlich benutzen.“
Die Möglichkeit, Filme und Videos zu bearbeiten und zu manipulieren, ist natürlich nichts Neues. Filmemacher tun dies seit über einem Jahrhundert. In den letzten Jahren haben Forscher und digitale Künstler verschiedene KI-Technologien und -Programme verwendet, um Videos zu erstellen und zu bearbeiten, die oft als gefälschte Videos bezeichnet werden.
Aber Systeme wie das, das Runway entwickelt hat, könnten mit der Zeit die Bearbeitungsfähigkeiten auf Knopfdruck ersetzen.
Eine neue Generation von Chatbots
Schöne neue Welt. Eine neue Reihe von KI-gestützten Chatbots hat ein Gerangel ausgelöst, um festzustellen, ob die Technologie die Wirtschaftlichkeit des Internets auf den Kopf stellen, die heutigen Arbeitskräfte in Pakete verwandeln und die nächsten Branchenriesen schaffen kann. Hier sind die Bots, die Sie kennen sollten:
Runway Technology produziert Videos beliebiger Kurzbeschreibung. Schreiben Sie zu Beginn einfach eine Beschreibung, ähnlich wie bei einer kurzen Notiz.
Das funktioniert am besten, wenn die Szene etwas Action enthält – aber nicht viel Action – wie etwa „Regentag in einer Großstadt“ oder „Ein Hund mit Handy im Park“. Drücken Sie die Eingabetaste, und das System erstellt in ein oder zwei Minuten ein Video.
Diese Technologie kann gängige Bilder reproduzieren, wie z. B. eine Katze, die auf einem Teppich schläft. Oder er kann unterschiedliche Konzepte kombinieren, um seltsam unterhaltsame Videos zu erstellen, wie eine Kuh auf einer Geburtstagsfeier.
Die Videos sind nur vier Sekunden lang und das Video ist abgehackt und verschwommen, wenn Sie genau hinsehen. Manchmal sind die Bilder seltsam, verzerrt und verstörend. Das System hat eine Möglichkeit, Tiere wie Hunde und Katzen mit leblosen Objekten wie Bällen und Handys zu verschmelzen. Aber mit der richtigen Richtung produziert er Videos, die zeigen, wohin die Technologie führt.
„Wenn ich an diesem Punkt ein HD-Video sehe, werde ich ihm wahrscheinlich vertrauen. Aber das wird sich sehr schnell ändern“, sagte Philip Isola, Professor am MIT, der sich auf künstliche Intelligenz spezialisiert hat.
Wie andere generative KI-Technologien lernt das System von Runway durch die Analyse numerischer Daten – in diesem Fall Fotos, Videos und Anmerkungen, die beschreiben, was diese Bilder enthalten. Durch das Training dieser Art von Technologie auf immer größere Datenmengen sind die Forscher zuversichtlich, dass sie ihre Fähigkeiten schnell verbessern und erweitern können. Sehr bald, glauben die Experten, werden sie professionell aussehende Minifilme mit Musik und Dialogen erstellen.
Es ist schwer zu sagen, was das System gerade schafft. Es ist kein Bild. Es ist kein Zeichentrickfilm. Es ist eine Sammlung vieler Pixel, die zusammengemischt werden, um ein realistisches Video zu erstellen. Das Unternehmen plant, seine Technologie mit anderen Tools einzuführen, von denen es glaubt, dass sie die Arbeit professioneller Künstler beschleunigen werden.
Im vergangenen Monat waren die sozialen Medien voller Fotos von Papst Franziskus in einem weißen Balenciaga-Puffermantel – ein überraschend modernes Outfit für den 86-jährigen Papst. Aber die Bilder waren nicht echt. Ein 31-jähriger Bauarbeiter aus Chicago sorgte für Aufsehen Verwenden eines beliebten KI-Tools namens Midjourney.
Dr. Isola hat Jahre damit verbracht, diese Art von Technologie aufzubauen und zu testen, zunächst als Forscher an der University of California, Berkeley, und bei OpenAI und dann als Professor am MIT. Völlig gefälschte Bilder von Papst Franziskus.
„Es gab eine Zeit, in der Leute Deepfakes posteten und mich nicht täuschen wollten, weil es zu seltsam oder zu unrealistisch war“, sagte er. „Jetzt können wir keines der Bilder, die wir online sehen, für bare Münze nehmen.“
Midjourney ist einer von vielen Diensten, die aus einer kurzen Eingabeaufforderung realistische Standbilder erstellen können. Weitere Anwendungen sind Stable Diffusion und DALL-E, die OpenAI-Technologie, die diese Welle von Bildgeneratoren auslöste, als sie vor einem Jahr vorgestellt wurde.
Midjourney setzt auf ein neuronales Netzwerk, das seine Fähigkeiten durch die Analyse riesiger Datenmengen erlernt. Es sucht nach Mustern, während es Millionen von digitalen Bildern sowie Textbeschriftungen durchkämmt, die die fotografierten Bilder beschreiben.
Wenn jemand ein Image eines Systems beschreibt, erstellt er eine Liste von Funktionen, die das Image haben könnte. Ein Merkmal kann die Krümmung an der Spitze eines Hundeohrs sein. Ein anderer kann der Rand des Mobiltelefons sein. Als nächstes generiert ein zweites neuronales Netzwerk, das als Diffusionsmodell bezeichnet wird, das Bild und generiert die Pixel, die für die Attribute benötigt werden. Schließlich wandelt es die Pixel in ein zusammenhängendes Bild um.
Unternehmen wie Runway, das etwa 40 Mitarbeiter beschäftigt und 95,5 Millionen US-Dollar gesammelt hat, nutzen diese Technologie, um bewegte Bilder zu erstellen. Durch die Analyse Tausender Videoclips kann ihre Technologie lernen, viele Standbilder auf ähnliche kohärente Weise zusammenzufügen.
„Video ist nur eine Reihe von Einzelbildern – Standbildern – die so kombiniert werden, dass die Illusion von Bewegung entsteht“, sagte Herr Valenzuela. „Der Trick besteht darin, ein Modell zu trainieren, das die Beziehung und Konsistenz zwischen den einzelnen Frameworks versteht.“
Wie frühe Versionen von Instrumenten wie DALL-E und Midjourney kombiniert die Technik manchmal Konzepte und Bilder auf seltsame Weise. Wenn Sie einen Bären bestellen, der Basketball spielt, gibt er Ihnen vielleicht eine Art verwandelndes Kuscheltier mit geführtem Basketball. Wenn Sie im Park einen Hund mit Handy fragen, gibt er Ihnen möglicherweise einen Handy tragenden Welpen mit einem fremden menschlichen Körper.
Experten glauben jedoch, dass sie die Fehler beheben können, wenn sie ihre Systeme mit immer mehr Daten trainieren. Sie glauben, dass die Technologie das Erstellen eines Videos letztendlich so einfach machen wird wie das Schreiben eines Satzes.
„Früher brauchte man eine Kamera, um so etwas aus der Ferne zu machen. Man brauchte Requisiten. Man brauchte einen Ort. Man brauchte die Erlaubnis“, sagte Susan Bonser, Autorin und Verlegerin in Penn State, der frühere Inkarnationen der generativen Videotechnologie war, ruft aus: „Du hättest das Geld haben sollen.“ „Du musst nichts davon jetzt haben. Du kannst dich einfach zurücklehnen und es dir vorstellen.“