LONDON (IT BOLTWISE) – Die KI-Branche steht vor einer entscheidenden Wende: Mit der zunehmenden Erschöpfung hochwertiger, menschlich generierter Daten, die für das Training fortschrittlicher Modelle benötigt werden, suchen Unternehmen nach neuen Wegen, um die Datenknappheit zu überwinden. Ein bemerkenswerter Ansatz kommt von SandboxAQ, einem von NVIDIA unterstützten Startup, das kürzlich eine beeindruckende Menge von 5,2 Millionen synthetischen Molekülen veröffentlicht hat, um die Entdeckung neuer Medikamente zu beschleunigen.

Die Veröffentlichung dieser synthetischen Moleküle durch SandboxAQ unterstreicht ein wachsendes Problem in der KI-Branche: die Erschöpfung qualitativ hochwertiger Daten. Nach Jahren des Web-Scrapings stehen Unternehmen wie OpenAI, Google und Anthropic vor der Herausforderung, dass neue Modelle ihre Vorgänger nicht mehr signifikant übertreffen können. Ein wesentlicher Grund dafür ist der Mangel an neuen, hochwertigen Trainingsdaten.
Die Lösung, wie sie von SandboxAQ demonstriert wird, besteht darin, dass KI zunehmend ihre eigenen Daten generiert. Diese Verschiebung verändert nicht nur die Art und Weise, wie Modelle trainiert werden, sondern formt auch die Wettbewerbslandschaft neu und wirft Fragen über die Zukunft der KI-Entwicklung auf. Synthetische Daten, die durch Computersimulationen oder Algorithmen erzeugt werden, bieten eine potenziell unendliche Quelle von Trainingsmaterialien, die viele urheberrechtliche Probleme umgehen und es Forschern ermöglichen, maßgeschneiderte Datensätze für spezifische, komplexe Aufgaben zu erstellen.
Der Einsatz von synthetischen Daten ist jedoch nicht ohne Risiken. Ein Hauptanliegen ist das Phänomen des sogenannten “Model Collapse” oder “Inbreeding”, bei dem eine KI, die auf ihren eigenen Ausgaben trainiert wird, beginnt, ihre eigenen Fehler, Vorurteile und Halluzinationen zu verstärken. Ohne ein tiefes Verständnis dieser Risiken könnten KI-Modelle zu einer inkohärenten Mischung aus verschiedenen Wörtern und Konzepten werden, wie Dario Amodei, CEO von Anthropic, in einem viel beachteten Essay warnte.
Die Umstellung auf synthetische Daten verstärkt die Bedeutung roher Rechenleistung. Die Generierung umfangreicher, qualitativ hochwertiger synthetischer Datensätze erfordert immense Rechenressourcen, was den unstillbaren Bedarf an mehr Rechenzentren antreibt. Ein Bericht von McKinsey prognostiziert, dass bis 2030 weltweit 7 Billionen US-Dollar in Rechenzentren investiert werden müssen, wobei der Großteil von KI-Workloads getrieben wird.
Während die Branche zuvor von einem Rennen um Daten geprägt war, tritt sie nun in ein Rennen ein, um die Erzeugung dieser Daten zu meistern. Die Unternehmen, die die effektivsten “KI-Fabriken” bauen können – nicht nur für das Training von Modellen, sondern auch für die Generierung der Daten, die sie lernen – sind diejenigen, die am ehesten die aktuellen Leistungsplateaus durchbrechen und die nächste Innovationswelle freisetzen werden.


- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Technical Product Owner (gn) AI

Projektleiter Facility Management für innovative Großprojekte (KI-Campus) mit Fokus Logistik (m/w/d)

Werkstudent:in (all genders) AI & Data Analytics - Energy Knowledge Mangement

Senior Specialist - Data, AI Value & Portfolio Steering (m/f/d)

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "NVIDIA-gestütztes Startup setzt auf synthetische Daten zur KI-Entwicklung" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "NVIDIA-gestütztes Startup setzt auf synthetische Daten zur KI-Entwicklung" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »NVIDIA-gestütztes Startup setzt auf synthetische Daten zur KI-Entwicklung« bei Google Deutschland suchen, bei Bing oder Google News!