Stability kündigt Stable Diffusion 3 an, einen KI-Image-Builder der nächsten Generation
Stability AI kündigte am Donnerstag Stable Diffusion 3 an, ein Bildsynthesemodell der nächsten Generation mit offenen Gewichten. Es folgt seinen Vorgängern und erstellt detaillierte Bilder mit mehreren Motiven mit verbesserter Qualität und Genauigkeit bei der Texterstellung. Die kurze Ankündigung wurde nicht von einer öffentlichen Demo begleitet, wohl aber von Stabilität Offene Warteliste Heute ist für diejenigen, die es ausprobieren möchten.
Laut Stable reicht die Größe der Stable Diffusion 3-Modellfamilie (die Textbeschreibungen, sogenannte „Eingabeaufforderungen“, in entsprechende Bilder umwandelt) von 800 Millionen bis 8 Milliarden Parametern. Die Skalierung ermöglicht die lokale Ausführung verschiedener Versionen des Modells auf einer Vielzahl von Geräten – von Smartphones bis hin zu Servern. Die Parametergröße entspricht in etwa der Fähigkeit des Modells hinsichtlich der Detailgenauigkeit, die es generieren kann. Größere Modelle erfordern zum Betrieb auch mehr VRAM auf den GPU-Beschleunigern.
Seit 2022 haben wir gesehen, wie Stable seine Weiterentwicklung der KI-Bilderzeugungsmodelle auf den Markt bringt: Stable Diffusion 1.4, 1.5, 2,0, 2.1, XL, XL Turbo und jetzt 3. Stability hat sich einen Namen als offenere Alternative zu proprietären Bildsynthesemodellen wie DALL-E 3 von OpenAI gemacht, obwohl es aufgrund der Verwendung von urheberrechtlich geschütztem Training nicht unumstritten ist Daten. Voreingenommenheit und Missbrauchspotenzial. (Dies führte zu ungelösten Rechtsstreitigkeiten.) Die Steady-State-Diffusionsmodelle waren offen gewichtet und Open Source, was bedeutete, dass die Modelle lokal ausgeführt und angepasst werden konnten, um ihre Ergebnisse zu ändern.
Zu den technischen Verbesserungen sagte Imad Mushtaq, CEO von Stability Bücher Auf der
Wie Mostaque sagte, verwendet die Stable-Familie Diffusion 3 Aufbau von Diffusionstransformatoreneine neue Methode zur Bilderstellung mithilfe künstlicher Intelligenz, die die üblichen Bildbausteine (z. B UNET-Architektur) für ein System, das kleine Teile des Bildes bearbeitet. Diese Methode ist von Transformern inspiriert, die gut mit Mustern und Sequenzen umgehen können. Dieser Ansatz steigert nicht nur die Effizienz, sondern soll auch zu einer höheren Bildqualität führen.
Auch Stable Diffusion 3 kommt zum Einsatz“Durchflussanpassung„, eine Technik zur Erstellung künstlicher Intelligenzmodelle, die Bilder erstellen kann, indem sie lernt, von zufälligem Rauschen zu einem glatt strukturierten Bild zu gelangen. Dies geschieht, ohne dass jeder Schritt des Prozesses simuliert werden muss, und konzentriert sich stattdessen auf die allgemeine Richtung oder den allgemeinen Fluss Es folgt die Bilderstellung.
Wir haben keinen Zugriff auf das Stable Diffusion 3 (SD3), aber anhand der Beispiele, die wir auf der Stable-Website und den zugehörigen Social-Media-Konten gefunden haben, sehen die Generations derzeit in etwa mit anderen modernen Fotomontagemodellen vergleichbar aus. Einschließlich der oben genannten DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney und Google Imagen.
SD3 scheint die Textgenerierung in den von anderen bereitgestellten Beispielen, die wahrscheinlich von Rosinen ausgewählt wurden, sehr gut zu handhaben. Die Textgenerierung war in früheren Bildmontagen eine besondere Schwäche, daher ist die Verbesserung dieser Fähigkeit in der Freiform eine große Sache. Auch die Geschwindigkeitsgenauigkeit (wie genau sie den Beschreibungen in den Eingabeaufforderungen folgt) scheint der von DALL-E 3 ähnlich zu sein, aber wir haben das noch nicht selbst getestet.
Während Stable Diffusion 3 nicht allgemein verfügbar ist, sagt Stability, dass seine Gewichte nach Abschluss der Tests kostenlos heruntergeladen und lokal ausgeführt werden können. „Diese Vorschauphase ist wie bei früheren Modellen von entscheidender Bedeutung, um Ideen zur Verbesserung der Leistung und Sicherheit vor der öffentlichen Veröffentlichung zu sammeln“, schrieb Stability.
Stabilität wurde kürzlich mit verschiedenen Bildmontagearchitekturen experimentiert. Abgesehen von SDXL und SDXL Turbo kündigte das Unternehmen erst letzte Woche an Stabile Kaskadedas einen dreistufigen Prozess verwendet, um Text über ein Bild zu legen.
Bild auflisten von Imad Mushtaq (KI für Stabilität)
„Bier-Geek. Der böse Ninja der Popkultur. Kaffee-Stipendiat fürs Leben. Professioneller Internet-Lehrer. Fleisch-Lehrer.“