LONDON (IT BOLTWISE) – In der dynamischen Welt der Künstlichen Intelligenz haben sich große Sprachmodelle als transformative Werkzeuge erwiesen. Doch ein kürzlich durchgeführtes Experiment zeigt, dass sie bei einfachen Aufgaben, die Menschen mühelos bewältigen, überraschend versagen können.

In der sich schnell entwickelnden Welt der Künstlichen Intelligenz (KI) werden große Sprachmodelle (LLMs) als transformative Werkzeuge gefeiert, die komplexe Aufgaben in der Datenverarbeitung und im logischen Denken bewältigen können. Doch ein kürzlich durchgeführtes Experiment hat eine überraschende Schwäche dieser Modelle aufgedeckt: ihre Unfähigkeit, einfache Aufgaben zu lösen, die Menschen mit minimalem Aufwand bewältigen können. Der Tech-Blogger Terence Eden stellte drei führenden kommerziellen LLMs eine einfache Frage: Welche Top-Level-Domains (TLDs) teilen sich Namen mit gültigen HTML5-Elementen? Diese Aufgabe, die den Vergleich zweier endlicher Listen erfordert, sollte für Systeme, die auf umfangreichen Datensätzen trainiert wurden, trivial sein. Doch die Antworten der KI waren voller Fehler, von Halluzinationen bis hin zu unvollständigen Übereinstimmungen.
Wie aus Edens Blog hervorgeht, hatten Modelle von großen Anbietern Schwierigkeiten, die Listen korrekt abzugleichen. Ein LLM schloss fälschlicherweise „.article“ als TLD ein, obwohl es diese nicht gibt, während ein anderes offensichtliche Überschneidungen wie „.nav“ oder „.section“ übersah. Dies ist kein Einzelfall; es verdeutlicht, wie LLMs trotz Fortschritten in der Verarbeitung natürlicher Sprache scheitern, wenn Präzision und vollständige Aufzählung erforderlich sind. Branchenbeobachter weisen darauf hin, dass solche Fehler auf die probabilistische Natur der Modelle zurückzuführen sind. Sie sind darauf trainiert, Muster zu erkennen, anstatt explizite Regeln zu befolgen, und erzeugen oft plausible Ausgaben, fabrizieren jedoch Details, wenn Wissenslücken auftreten.
Für Unternehmen, die LLMs in ihre Arbeitsabläufe integrieren, stellen diese Schwächen reale Risiken dar. In Bereichen wie Webentwicklung oder Datenanalyse, in denen Genauigkeit von entscheidender Bedeutung ist, könnte das Vertrauen auf KI für einfache Überprüfungen zu schwerwiegenden Fehlern führen. Edens Experiment spiegelt breitere Kritiken wider, wie sie in einer Analyse auf LessWrong zu finden sind, die die tatsächlichen Produktivitätsgewinne von LLMs in Programmieraufgaben nach zwei Jahren weit verbreiteter Nutzung in Frage stellt. Darüber hinaus könnte ihre Unzuverlässigkeit in alltäglichen Operationen das Vertrauen untergraben, wenn LLMs in Bildung und Forschung eingesetzt werden.
Experten schlagen Verbesserungen wie die Feinabstimmung mit domänenspezifischen Daten oder hybride Systeme vor, die LLMs mit deterministischen Algorithmen kombinieren. Beispielsweise könnte die Integration von Suchfunktionen, wie in Kommentaren auf Hacker News angedeutet, Halluzinationen mindern, indem Antworten in Echtzeit verifiziert werden. Dennoch überwiegt die Vorsicht. Ein Bericht auf CSO Online warnt vor Schwachstellen in LLMs, einschließlich der Ausnutzung durch schlechte Eingaben, was die Bedenken über das Versagen bei einfachen Aufgaben verstärkt. Während sich die KI weiterentwickelt, dient Edens einfacher Test als Erinnerung daran, dass Raffinesse nicht immer gleichbedeutend mit Zuverlässigkeit in den Grundlagen ist.

- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

AI Enablement & Adoption Specialist (m/w/d)

Duales Studium BWL - Spezialisierung Artificial Intelligence (B.A.) am Campus oder virtuell

Technischer Product Owner (m/w/d) Daten- und KI-Plattformen

Lehrer IT-Programmierung (m/w/d) für Algorithmen, Webprogrammierung und KI

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "LLMs: Leistungsstark bei Komplexität, schwach bei Einfachheit" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "LLMs: Leistungsstark bei Komplexität, schwach bei Einfachheit" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »LLMs: Leistungsstark bei Komplexität, schwach bei Einfachheit« bei Google Deutschland suchen, bei Bing oder Google News!