Tech

Nvidias neues Text-zu-3D-Modell zeigt, wie schnell die generative KI voranschreitet

Tommy Vercetti März 24, 2024

0 6 1 minute read

Nvidias neues Text-zu-3D-Modell zeigt, wie schnell die generative KI voranschreitet

Nvidia ist in Fahrt. Nach der Vorstellung seines Blackwell-Superchips, der darauf ausgelegt ist, leistungsstärkere KI-Modelle wie GPT, Claude und Gemini zu trainieren, hat das Unternehmen ein eigenes KI-Tool zum Konvertieren von Text in 3D vorgestellt (siehe unseren Leitfaden zu den besten Grafikkarten für Verbraucheroptionen).

Der Grafikkartenriese schloss die GTC-Woche mit der Vorstellung von LATTE3D ab, einem von Text in 3D generierten KI-Modell, das er als „virtuellen 3D-Drucker“ bezeichnete. Es kann Textaufforderungen innerhalb einer Sekunde in 3D-Darstellungen von Objekten und Tieren umwandeln.

Laut Nvidia können mit LATTE3D erstellte 3D-Formen „einfach in virtuelle Umgebungen für die Entwicklung von Videospielen, Werbekampagnen, Designprojekte oder virtuelle Trainingsräume für Roboter gerendert werden“. Wir haben bereits Tools zur Text-zu-3D-Konvertierung gesehen, und das Lob im Internet deutet darauf hin, dass einige von der Qualität der Ergebnisse von LATTE3Ds nicht allzu beeindruckt sind. Doch das neue Modell stellt einen großen Fortschritt dar, insbesondere in puncto Geschwindigkeit.

Nvidia gibt an, 3D-Formen fast sofort zu erzeugen, wenn die Inferenz auf einer einzelnen GPU ausgeführt wird, beispielsweise der NVIDIA RTX A6000, die in der Forschungsdemonstration verwendet wurde. Dies bedeutet, dass ein Entwickler, der ein Design von Grund auf neu beginnt oder eine Bibliothek mit 3D-Assets durchsucht, mit LATTE3D genauso schnell detaillierte Objekte erstellen kann, wie ihm Ideen einfallen.

Das Formular erstellt basierend auf jeder Texteingabe mehrere 3D-Formoptionen. Die gewünschten Objekte können für eine höhere Qualität optimiert und dann in Grafiksoftwareanwendungen oder Plattformen wie exportiert werden Nvidia Omniversedas ermöglicht Beschreibung der globalen Landschaft (OpenUSD)3D-basierte Arbeitsabläufe und Anwendungen.

„Vor einem Jahr brauchten KI-Modelle eine Stunde, um 3D-Bilder dieser Qualität zu erstellen – der aktuelle Stand der Technik liegt jetzt bei etwa 10 bis 12 Sekunden“, sagte Sanja Fiedler, Vizepräsidentin für KI-Forschung. Dadurch werden die Ergebnisse viel schneller erzielt und die Erstellung von 3D-Texten nahezu in Echtzeit für Kreative aus allen Branchen zugänglich gemacht.

Bilder von Hunden, generiert vom Nvidia LATTE3D AI-Modell

3D-Hunde erstellt von Nvidia LATTE3D AI-Modell (Bildnachweis: Nvidia)

LATTE3D wurde vom in Toronto ansässigen AI Lab-Team von Nvidia entwickelt und mithilfe von mit ChatGPT generierten Textaufforderungen trainiert, um die Fähigkeit des Modells zu verbessern, mit verschiedenen Phrasen umzugehen, die einem Benutzer möglicherweise zur Beschreibung eines bestimmten 3D-Objekts einfallen. Während die Forscher LATTE3D auf zwei spezifische Datensätze, Tiere und Alltagsgegenstände, trainierten, kann dieselbe Architektur verwendet werden, um KI auf anderen Datentypen zu trainieren. Es bleibt ein reines Forschungsprojekt und steht nicht zur öffentlichen Nutzung zur Verfügung.

schrieb der KI-Schöpfer Bilawal Sidhu X: „Das ist ein gewaltiger Sprung. DreamFusion um 2022 war langsam und von geringer Qualität, aber es löste diese generative 3D-Revolution aus. Bemühungen wie ATT3D (Autized Object Texture to 3D) jagten der Geschwindigkeit auf Kosten der Qualität nach. Jetzt mit hochwertigem LATTE3D.“ und Prozesse in weniger als einer Sekunde! Das bedeutet, dass Sie eine 3D-Welt schnell duplizieren und mit Text oder Bildern füllen können, um sie in 3D umzuwandeln.

Neben Video ist 3D die nächste Grenze für die KI-Bilderzeugung. Diese Woche kündigte Adobe außerdem die Integration seiner ersten Firefly AI-basierten Tools in Substance 3D an.