MÜNCHEN (IT BOLTWISE) – Die Entwicklung von KI-gestützten Sprachmodellen hat in den letzten Jahren enorme Fortschritte gemacht. Doch trotz der kontinuierlichen Verbesserungen bleibt ein Problem bestehen: die sogenannten Halluzinationen, bei denen KI-Systeme falsche Informationen als wahr präsentieren.

Die jüngsten Updates von KI-Chatbots, die von führenden Technologieunternehmen wie OpenAI und Google entwickelt wurden, sollten eigentlich die Zuverlässigkeit der Antworten verbessern. Doch aktuelle Tests zeigen, dass die neuen Modelle in einigen Fällen schlechter abschneiden als ihre Vorgänger. Diese Fehler, bekannt als Halluzinationen, sind seit Beginn ein Problem und es wird immer deutlicher, dass wir sie möglicherweise nie vollständig beseitigen können.

Halluzinationen sind ein Sammelbegriff für bestimmte Arten von Fehlern, die von den großen Sprachmodellen (LLMs) gemacht werden, die Systeme wie OpenAIs ChatGPT oder Googles Gemini antreiben. Am bekanntesten ist die Beschreibung, wie sie manchmal falsche Informationen als wahr darstellen. Aber es kann sich auch auf eine KI-generierte Antwort beziehen, die zwar faktisch korrekt, aber nicht wirklich relevant für die gestellte Frage ist oder auf andere Weise die Anweisungen nicht befolgt.

Ein technischer Bericht von OpenAI, der die neuesten LLMs bewertet, zeigte, dass die o3- und o4-mini-Modelle, die im April veröffentlicht wurden, signifikant höhere Halluzinationsraten aufwiesen als das vorherige o1-Modell, das Ende 2024 herauskam. Beispielsweise halluzinierte o3 bei der Zusammenfassung öffentlich zugänglicher Fakten über Personen 33 Prozent der Zeit, während o4-mini dies 48 Prozent der Zeit tat. Zum Vergleich: o1 hatte eine Halluzinationsrate von 16 Prozent.

Das Problem beschränkt sich nicht nur auf OpenAI. Ein beliebtes Leaderboard des Unternehmens Vectara, das Halluzinationsraten bewertet, zeigt, dass einige “Reasoning”-Modelle, einschließlich des DeepSeek-R1-Modells des Entwicklers DeepSeek, zweistellige Anstiege der Halluzinationsraten im Vergleich zu früheren Modellen ihrer Entwickler verzeichneten. Dieser Modelltyp durchläuft mehrere Schritte, um eine Argumentationslinie zu demonstrieren, bevor er antwortet.

OpenAI sagt, dass der Argumentationsprozess nicht schuld ist. “Halluzinationen sind nicht von Natur aus häufiger in Reasoning-Modellen, obwohl wir aktiv daran arbeiten, die höheren Halluzinationsraten zu reduzieren, die wir bei o3 und o4-mini gesehen haben”, sagt ein OpenAI-Sprecher. “Wir werden unsere Forschung zu Halluzinationen über alle Modelle hinweg fortsetzen, um Genauigkeit und Zuverlässigkeit zu verbessern.”

Einige potenzielle Anwendungen für LLMs könnten durch Halluzinationen entgleist werden. Ein Modell, das ständig Unwahrheiten äußert und eine Überprüfung der Fakten erfordert, wird kein hilfreicher Forschungsassistent sein; ein Paralegal-Bot, der imaginäre Fälle zitiert, wird Anwälte in Schwierigkeiten bringen; ein Kundenservice-Agent, der behauptet, veraltete Richtlinien seien noch aktiv, wird dem Unternehmen Kopfschmerzen bereiten.

Ursprünglich behaupteten KI-Unternehmen, dass sich dieses Problem im Laufe der Zeit klären würde. Tatsächlich neigten Modelle nach ihrer ersten Einführung dazu, mit jedem Update weniger zu halluzinieren. Aber die hohen Halluzinationsraten der jüngsten Versionen erschweren diese Erzählung – unabhängig davon, ob das Reasoning schuld ist oder nicht.

Vectaras Leaderboard bewertet Modelle basierend auf ihrer faktischen Konsistenz bei der Zusammenfassung von Dokumenten, die ihnen gegeben werden. Dies zeigte, dass “Halluzinationsraten fast gleich für Reasoning- und Nicht-Reasoning-Modelle” sind, zumindest für Systeme von OpenAI und Google, sagt Forrest Sheng Bao bei Vectara. Google hat keinen zusätzlichen Kommentar abgegeben. Für die Zwecke des Leaderboards sind die spezifischen Halluzinationsratenzahlen weniger wichtig als die Gesamtbewertung jedes Modells, sagt Bao.

Aber diese Bewertung ist möglicherweise nicht der beste Weg, um KI-Modelle zu vergleichen. Zum einen vermischt sie verschiedene Arten von Halluzinationen. Das Vectara-Team wies darauf hin, dass, obwohl das DeepSeek-R1-Modell 14,3 Prozent der Zeit halluzinierte, die meisten davon “harmlos” waren: Antworten, die durch logisches Denken oder Weltwissen faktisch unterstützt werden, aber nicht tatsächlich im ursprünglichen Text vorhanden sind, den der Bot zusammenfassen sollte.

Ein weiteres Problem bei dieser Art von Bewertung ist, dass Tests, die auf Textzusammenfassungen basieren, “nichts über die Rate falscher Ausgaben sagen, wenn [LLMs] für andere Aufgaben verwendet werden”, sagt Emily Bender von der University of Washington. Sie sagt, die Leaderboard-Ergebnisse könnten nicht der beste Weg sein, um diese Technologie zu beurteilen, da LLMs nicht speziell zum Zusammenfassen von Texten entwickelt wurden.

Diese Modelle arbeiten, indem sie wiederholt die Frage “Was ist ein wahrscheinliches nächstes Wort” beantworten, um Antworten auf Eingabeaufforderungen zu formulieren, und so verarbeiten sie Informationen nicht im üblichen Sinne, indem sie versuchen zu verstehen, welche Informationen in einem Textkörper verfügbar sind, sagt Bender. Aber viele Technologieunternehmen verwenden immer noch häufig den Begriff “Halluzinationen”, wenn sie Ausgabefehler beschreiben.

“‘Halluzination’ als Begriff ist doppelt problematisch”, sagt Bender. “Einerseits suggeriert es, dass falsche Ausgaben eine Abweichung sind, vielleicht eine, die gemildert werden kann, während die Systeme die meiste Zeit geerdet, zuverlässig und vertrauenswürdig sind. Andererseits dient es dazu, die Maschinen zu vermenschlichen – Halluzination bezieht sich auf das Wahrnehmen von etwas, das nicht da ist [und] große Sprachmodelle nehmen nichts wahr.”

Arvind Narayanan von der Princeton University sagt, dass das Problem über Halluzinationen hinausgeht. Modelle machen manchmal auch andere Fehler, wie das Zurückgreifen auf unzuverlässige Quellen oder die Verwendung veralteter Informationen. Und einfach mehr Trainingsdaten und Rechenleistung auf KI zu werfen, hat nicht unbedingt geholfen.

Das Fazit ist, dass wir möglicherweise mit fehleranfälliger KI leben müssen. Narayanan sagte in einem Social-Media-Beitrag, dass es in einigen Fällen am besten sein könnte, solche Modelle nur für Aufgaben zu verwenden, bei denen das Überprüfen der KI-Antwort immer noch schneller wäre, als die Recherche selbst durchzuführen. Aber der beste Schritt könnte sein, sich vollständig darauf zu verlassen, dass KI-Chatbots faktische Informationen liefern, sagt Bender.

Unseren KI-Morning-Newsletter «Der KI News Espresso» mit den besten KI-News des letzten Tages gratis per eMail - ohne Werbung: Hier kostenlos eintragen!


KI-Halluzinationen: Ein anhaltendes Problem in der Technologiebranche
KI-Halluzinationen: Ein anhaltendes Problem in der Technologiebranche (Foto: DALL-E, IT BOLTWISE)



Folgen Sie aktuellen Beiträge über KI & Robotik auf Twitter, Telegram, Facebook oder LinkedIn!
Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein. Die auf dieser Website bereitgestellten Informationen stellen keine Finanzberatung dar und sind nicht als solche gedacht. Die Informationen sind allgemeiner Natur und dienen nur zu Informationszwecken. Wenn Sie Finanzberatung für Ihre individuelle Situation benötigen, sollten Sie den Rat von einem qualifizierten Finanzberater einholen. IT BOLTWISE® schließt jegliche Regressansprüche aus.








Die nächste Stufe der Evolution: Wenn Mensch und Maschine eins werden | Wie Futurist, Tech-Visionär und Google-Chef-Ingenieur Ray Kurzweil die Zukunft der Künstlichen Intelligenz sieht
65 Bewertungen
Die nächste Stufe der Evolution: Wenn Mensch und Maschine eins werden | Wie Futurist, Tech-Visionär und Google-Chef-Ingenieur Ray Kurzweil die Zukunft der Künstlichen Intelligenz sieht
  • Die Zukunft von Mensch und MaschineIm neuen Buch des renommierten Zukunftsforschers und Technologie-Visionärs Ray Kurzweil wird eine faszinierende Vision der kommenden Jahre und Jahrzehnte entworfen – eine Welt, die von KI durchdrungen sein wird
Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
131 Bewertungen
Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
  • Künstliche Intelligenz: Expertenwissen gegen Hysterie Der renommierte Gehirnforscher, Psychiater und Bestseller-Autor Manfred Spitzer ist ein ausgewiesener Experte für neuronale Netze, auf denen KI aufbaut
KI Exzellenz: Erfolgsfaktoren im Management jenseits des Hypes. Zukunftstechnologien verstehen und künstliche Intelligenz erfolgreich in der Arbeitswelt nutzen. (Haufe Fachbuch)
71 Bewertungen
KI Exzellenz: Erfolgsfaktoren im Management jenseits des Hypes. Zukunftstechnologien verstehen und künstliche Intelligenz erfolgreich in der Arbeitswelt nutzen. (Haufe Fachbuch)
  • Obwohl Künstliche Intelligenz (KI) derzeit in aller Munde ist, setzen bislang nur wenige Unternehmen die Technologie wirklich erfolgreich ein
Künstliche Intelligenz und Hirnforschung: Neuronale Netze, Deep Learning und die Zukunft der Kognition
43 Bewertungen
Künstliche Intelligenz und Hirnforschung: Neuronale Netze, Deep Learning und die Zukunft der Kognition
  • Wie funktioniert Künstliche Intelligenz (KI) und gibt es Parallelen zum menschlichen Gehirn? Was sind die Gemeinsamkeiten von natürlicher und künstlicher Intelligenz, und was die Unterschiede? Ist das Gehirn nichts anderes als ein biologischer Computer? Was sind Neuronale Netze und wie kann der Begriff Deep Learning einfach erklärt werden?Seit der kognitiven Revolution Mitte des letzten Jahrhunderts sind KI und Hirnforschung eng miteinander verflochten

Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de. Da wir bei KI-erzeugten News und Inhalten selten auftretende KI-Halluzinationen nicht ausschließen können, bitten wir Sie bei Falschangaben und Fehlinformationen uns via eMail zu kontaktieren und zu informieren. Bitte vergessen Sie nicht in der eMail die Artikel-Headline zu nennen: "KI-Halluzinationen: Ein anhaltendes Problem in der Technologiebranche".
Stichwörter AI Artificial Intelligence Google Halluzinationen KI Künstliche Intelligenz OpenAI Sprachmodelle
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!

Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "KI-Halluzinationen: Ein anhaltendes Problem in der Technologiebranche" für unsere Leser?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

  • Die aktuellen intelligenten Ringe, intelligenten Brillen, intelligenten Uhren oder KI-Smartphones auf Amazon entdecken! (Sponsored)


  • Es werden alle Kommentare moderiert!

    Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

    Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

    Du willst nichts verpassen?

    Du möchtest über ähnliche News und Beiträge wie "KI-Halluzinationen: Ein anhaltendes Problem in der Technologiebranche" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
    Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »KI-Halluzinationen: Ein anhaltendes Problem in der Technologiebranche« bei Google Deutschland suchen, bei Bing oder Google News!

    246 Leser gerade online auf IT BOLTWISE®
    KI-Jobs