Stable Diffusion und DALL-E-3: Bildgenerierung jetzt 30 Mal schneller dank neuer KI-Methode

MÜNCHEN (IT BOLTWISE) – Eine neuartige Methode ermöglicht es KI-Tools wie Stable Diffusion und DALL-E-3, den Prozess der Bildgenerierung auf einen einzigen Schritt zu vereinfachen, während die Qualität der Bilder beibehalten oder sogar verbessert wird und die Geschwindigkeit um das 30-fache erhöht wird. Forscher des MIT CSAIL haben einen bedeutenden Durchbruch erzielt, indem sie die traditionellen, mehrstufigen Diffusionsmodelle in einen einzigen Schritt vereinfacht haben.

Heutige Tagesdeals bei Amazon! ˗ˋˏ$ˎˊ˗

Die besten Bücher rund um KI & Robotik präsentiert von Amazon!
Unsere täglichen KI-News von IT Boltwise® bei LinkedIn abonnieren!
KI-Meldungen bequem via Telegram oder per Newsletter erhalten!
IT Boltwise® bei Facy oder Insta als Fan markieren und abonnieren!
AI Morning Podcast bei Spotify / Amazon / Apple verfolgen!
RSS-Feed 2.0 von IT Boltwise® für KI-News speichern!

In unserer aktuellen Ära der künstlichen Intelligenz können Computer eigenständig “Kunst” erzeugen, indem sie Diffusionsmodelle nutzen, die schrittweise Struktur in einen anfänglich verrauschten Zustand bringen, bis ein klares Bild oder Video entsteht. Diese Modelle haben plötzlich einen Platz am Tisch jedes Einzelnen gefunden: Geben Sie ein paar Worte ein und erleben Sie augenblicklich Traumlandschaften an der Schnittstelle von Realität und Fantasie, die Dopamin-Schübe auslösen. Hinter den Kulissen handelt es sich um einen komplexen, zeitaufwendigen Prozess, der zahlreiche Iterationen erfordert, damit der Algorithmus das Bild perfektionieren kann.

Forscher des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) haben einen neuen Rahmen vorgestellt, der den mehrstufigen Prozess traditioneller Diffusionsmodelle in einen einzigen Schritt vereinfacht und bisherige Einschränkungen adressiert. Dies wird durch eine Art Lehrer-Schüler-Modell erreicht: Ein neues Computermodell wird gelehrt, das Verhalten komplizierterer, ursprünglicher Modelle, die Bilder generieren, nachzuahmen.

Der als Distribution Matching Distillation (DMD) bekannte Ansatz erhält die Qualität der generierten Bilder bei und ermöglicht eine viel schnellere Generierung.

„Unsere Arbeit ist eine neuartige Methode, die aktuelle Diffusionsmodelle wie Stable Diffusion und DALL-E-3 um das 30-fache beschleunigt“, sagt Tianwei Yin, ein Doktorand des MIT in Elektrotechnik und Informatik, CSAIL-Affiliate und der leitende Forscher des DMD-Frameworks.

„Dieser Fortschritt reduziert nicht nur die Rechenzeit erheblich, sondern erhält oder übertrifft sogar die Qualität des generierten visuellen Inhalts. Theoretisch vereint der Ansatz die Prinzipien generativer adversarialer Netzwerke (GANs) mit denen von Diffusionsmodellen und erreicht die Generierung visuellen Inhalts in einem einzigen Schritt – im Gegensatz zu den hundert Schritten iterativer Verfeinerung, die von aktuellen Diffusionsmodellen benötigt werden. Es könnte potenziell eine neue generative Modellierungsmethode sein, die in Geschwindigkeit und Qualität herausragt.“

Dieses Ein-Schritt-Diffusionsmodell könnte Design-Tools verbessern, indem es eine schnellere Inhaltskreation ermöglicht und möglicherweise Fortschritte in der Medikamentenentdeckung und 3D-Modellierung unterstützt, wo Schnelligkeit und Wirksamkeit entscheidend sind.

DMD hat geschickt zwei Komponenten. Zuerst verwendet es einen Regressionsverlust, der die Abbildung verankert, um eine grobe Organisation des Bildraums zu gewährleisten und das Training stabiler zu machen.

Anschließend verwendet es einen Distribution Matching Verlust, der sicherstellt, dass die Wahrscheinlichkeit, ein bestimmtes Bild mit dem Schülermodell zu generieren, seiner realen Auftretenshäufigkeit entspricht. Um dies zu tun, nutzt es zwei Diffusionsmodelle, die als Leitfäden dienen und dem System helfen, den Unterschied zwischen realen und generierten Bildern zu verstehen, was das Training des schnellen Ein-Schritt-Generators möglich macht.

Das System erreicht eine schnellere Generierung, indem es ein neues Netzwerk trainiert, um die Distributionsdivergenz zwischen seinen generierten Bildern und denen aus dem Trainingsdatensatz, der von traditionellen Diffusionsmodellen verwendet wird, zu minimieren. „Unsere Schlüsseleinsicht ist, Gradienten zu approximieren, die die Verbesserung des neuen Modells leiten, indem zwei Diffusionsmodelle verwendet werden“, sagt Yin.

„Auf diese Weise destillieren wir das Wissen des ursprünglichen, komplexeren Modells in das einfachere, schnellere, während wir die berüchtigten Instabilitäts- und Mode-Collapse-Probleme bei GANs umgehen.“

Yin und Kollegen verwendeten vortrainierte Netzwerke für das neue Schülermodell, was den Prozess vereinfachte. Indem sie Parameter von den Originalmodellen kopierten und feinabstimmten, erreichte das Team eine schnelle Trainingskonvergenz des neuen Modells, das in der Lage ist, hochwertige Bilder mit derselben architektonischen Grundlage zu produzieren. „Dies ermöglicht es, weitere Systemoptimierungen auf der Grundlage der Originalarchitektur zu kombinieren, um den Erstellungsprozess weiter zu beschleunigen“, fügt Yin hinzu.

Bei Tests gegen die üblichen Methoden, unter Verwendung einer breiten Palette von Benchmarks, zeigte DMD eine konsistente Leistung. Im beliebten Benchmark der Generierung von Bildern basierend auf spezifischen Klassen auf ImageNet ist DMD die erste Ein-Schritt-Diffusionstechnik, die Bilder erzeugt, die ziemlich genau mit denen der ursprünglichen, komplexeren Modelle übereinstimmen, mit einer super-nahen Fréchet-Inception-Distanz (FID) von nur 0,3, was beeindruckend ist, da FID alles darum geht, die Qualität und Vielfalt generierter Bilder zu beurteilen.

Darüber hinaus zeichnet sich DMD in der industriellen Text-zu-Bild-Generierung aus und erreicht eine Spitzenleistung bei der Ein-Schritt-Generierung. Es gibt immer noch eine leichte Qualitätslücke bei der Bewältigung kniffliger Text-zu-Bild-Anwendungen, was darauf hindeutet, dass es noch etwas Raum für Verbesserungen gibt.

Außerdem ist die Leistung der von DMD generierten Bilder intrinsisch mit den Fähigkeiten des Lehrermodells verbunden, das während des Destillationsprozesses verwendet wird. In der aktuellen Form, die Stable Diffusion v1.5 als Lehrermodell verwendet, erbt das Schülermodell Einschränkungen wie die Darstellung detaillierter Beschreibungen von Text und kleinen Gesichtern, was darauf hindeutet, dass fortgeschrittenere Lehrermodelle die von DMD generierten Bilder weiter verbessern könnten.

„Die Verringerung der Anzahl der Iterationen war seit ihrer Entstehung der Heilige Gral in Diffusionsmodellen“, sagt Fredo Durand, MIT-Professor für Elektrotechnik und Informatik, CSAIL Principal Investigator und leitender Autor der Studie. „Wir sind sehr gespannt darauf, die Ein-Schritt-Bildgenerierung endlich zu ermöglichen, was die Rechenkosten drastisch reduzieren und den Prozess beschleunigen wird.“

„Endlich ein Papier, das erfolgreich die Vielseitigkeit und hohe visuelle Qualität von Diffusionsmodellen mit der Echtzeitleistung von GANs kombiniert“, sagt Alexei Efros, Professor für Elektrotechnik und Informatik an der University of California in Berkeley, der nicht an dieser Studie beteiligt war. „Ich erwarte, dass diese Arbeit fantastische Möglichkeiten für hochwertige Echtzeit-Visualediting eröffnet.“

*Amazon-Kreditkarte ohne Jahresgebühr mit 2.000 Euro Verfügungsrahmen bestellen! a‿z

🤖 Alle KI-Gadgets auf Amazon ansehen!

Bestseller Nr. 1 ᵃ⤻ᶻ «KI Gadgets»

Apple AirTag - Finde und behalte Deine Sachen im Blick: Schlüssel, Geldbörsen, Gepäck, Rucksäcke und mehr. Einfaches Einrichten mit iPhone oder iPad. Austauschbare Batterie

29,99 EUR

Bestseller Nr. 2 ᵃ⤻ᶻ «KI Gadgets»

Vikye KI -Roboter Angetrieben von Deepseek, Smart Talking Desk Companion mit 1,28 "Bildschirm, Sprachsteuerung, WLAN -Wetteruhr und Bluetooth Music Player

31,84 EUR

Bestseller Nr. 3 ᵃ⤻ᶻ «KI Gadgets»

ZOOI Geschenke für Männer, Geburtstagsgeschenk für Männer, Gadgets für Männer, Geschenke für Papa Geschenk Männergeschenk Adventskalender Füllung Männer, Bluetooth Lautsprecher mit Handyständer

17,84 EUR

Bestseller Nr. 4 ᵃ⤻ᶻ «KI Gadgets»

QCOQ® Air Tags 4er Pack Schwarz, Schlüsselfinder & Air Tracker Tagg Kompatibel mit Apple Wo ist? App (Nur iOS), Smart Key Finder mit Schlüsselband, Koffer-Tracker für Taschen/Keys, Austauschbarer Akku

79,99 EUR

Bestseller Nr. 5 ᵃ⤻ᶻ «KI Gadgets»

EIlik - Ein Desktop-Begleitroboter mit emotionaler Intelligenz, Multi-Roboter-Interaktionen, Desktop-Robotik-Partner

169,00 EUR

Hat Ihnen der Artikel bzw. die News - Stable Diffusion und DALL-E-3: Bildgenerierung jetzt 30 Mal schneller dank neuer KI-Methode - gefallen? Dann abonnieren Sie uns doch auf Insta: AI News, Tech Trends & Robotics - Instagram - Boltwise

Zu den Top-Stories!

Stable Diffusion und DALL-E-3: Bildgenerierung jetzt 30 Mal schneller dank neuer KI-Methode (Foto: DALL-E, IT BOLTWISE)

Folgen Sie uns

Tweet #itboltwise

Stellenangebote

Master-/Bachelor-Abschlussarbeit im Einkauf: KI-gestützte Effizienzsteigerung im Investitionseinkauf (w/m/d)

Freudenberg Sealing Technologies

Weinheim

Folgen Sie aktuellen Beiträge über KI & Robotik auf Twitter, Telegram, Facebook oder LinkedIn!

Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein. Die auf dieser Website bereitgestellten Informationen stellen keine Finanzberatung dar und sind nicht als solche gedacht. Die Informationen sind allgemeiner Natur und dienen nur zu Informationszwecken. Wenn Sie Finanzberatung für Ihre individuelle Situation benötigen, sollten Sie den Rat von einem qualifizierten Finanzberater einholen. IT BOLTWISE® schließt jegliche Regressansprüche aus.

Diesen Artikel kommentieren

Die nächste Stufe der Evolution: Wenn Mensch und Maschine eins werden | Wie Futurist, Tech-Visionär und Google-Chef-Ingenieur Ray Kurzweil die Zukunft der Künstlichen Intelligenz sieht

Die nächste Stufe der Evolution

Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«

Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«

KI Exzellenz: Erfolgsfaktoren im Management jenseits des Hypes. Zukunftstechnologien verstehen und künstliche Intelligenz erfolgreich in der Arbeitswelt nutzen. (Haufe Fachbuch)

Odoi, Tawia(Autor)

Künstliche Intelligenz und Hirnforschung: Neuronale Netze, Deep Learning und die Zukunft der Kognition

Krauss, Patrick(Autor)

Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de. Da wir bei KI-erzeugten News und Inhalten selten auftretende KI-Halluzinationen nicht ausschließen können, bitten wir Sie bei Falschangaben und Fehlinformationen uns via eMail zu kontaktieren und zu informieren. Bitte vergessen Sie nicht in der eMail die Artikel-Headline zu nennen: "Stable Diffusion und DALL-E-3: Bildgenerierung jetzt 30 Mal schneller dank neuer KI-Methode".

Stichwörter AI Artificial Intelligence Bildgenerierung DALL-E 3 Ein-Schritt-Verfahren Geschwindigkeitsverbesserung Image Generation KI Künstliche Intelligenz Single-step Process Speed Improvement Stable Diffusion

Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!

Nächster Artikel

Künstliche Intelligenz als Game-Changer: Nvidia-CEO prognostiziert Revolution im Spieledesign bis 2030

8. April 2024

Vorheriger Artikel

NVIDIA enthüllt Project GR00T: Eine neue Generation humanoider Roboter mit multimodaler KI

8. April 2024

Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Stable Diffusion und DALL-E-3: Bildgenerierung jetzt 30 Mal schneller dank neuer KI-Methode" für unsere Leser?

Schreibe einen Kommentar Antwort abbrechen

Die aktuellen intelligenten Ringe, intelligenten Brillen, intelligenten Uhren oder KI-Smartphones auf Amazon entdecken! (Sponsored)

Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Du möchtest über ähnliche News und Beiträge wie "Stable Diffusion und DALL-E-3: Bildgenerierung jetzt 30 Mal schneller dank neuer KI-Methode" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.

Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Stable Diffusion und DALL-E-3: Bildgenerierung jetzt 30 Mal schneller dank neuer KI-Methode« bei Google Deutschland suchen, bei Bing oder Google News!

791 Leser gerade online auf IT BOLTWISE®