LONDON (IT BOLTWISE) – Apples jüngste Veröffentlichung über die Grenzen von Large Reasoning Models (LRMs) hat in der KI-Community für Aufsehen gesorgt. Doch nicht alle Experten stimmen mit den Schlussfolgerungen überein.
Apples jüngste Veröffentlichung mit dem Titel „The Illusion of Thinking“ hat in der KI-Community für Aufsehen gesorgt. Die Studie kommt zu dem Schluss, dass selbst die fortschrittlichsten Large Reasoning Models (LRMs) bei komplexen Aufgaben versagen. Doch nicht alle Experten stimmen mit dieser Einschätzung überein. Alex Lawsen, ein Forscher bei Open Philanthropy, hat eine detaillierte Widerlegung veröffentlicht, die darauf hinweist, dass viele der aufsehenerregenden Ergebnisse von Apple auf experimentelle Designfehler zurückzuführen sind und nicht auf grundlegende Grenzen der Denkfähigkeit.
Lawsen argumentiert, dass Apples Studie praktische Ausgabebeschränkungen und fehlerhafte Bewertungskriterien mit tatsächlichem Denkversagen verwechselt. Er hebt drei Hauptprobleme hervor: Erstens wurden die Token-Budget-Grenzen in Apples Interpretation ignoriert. Bei Aufgaben wie dem Tower of Hanoi mit mehr als acht Scheiben stießen Modelle wie Claude bereits an ihre Token-Ausgabengrenzen. Zweitens wurden unlösbare Rätsel als Misserfolge gewertet, was die Modelle für das Erkennen und Ablehnen solcher Aufgaben bestrafte. Drittens unterschieden die Bewertungsskripte nicht zwischen Denkversagen und Ausgabetrunkierung.
Um seine Argumente zu untermauern, führte Lawsen alternative Tests durch, bei denen die Modelle aufgefordert wurden, einen rekursiven Lua-Code zu generieren, der die Lösung ausgibt, anstatt alle Schritte aufzulisten. Die Ergebnisse zeigten, dass Modelle wie Claude, Gemini und OpenAI’s o3 problemlos algorithmisch korrekte Lösungen für 15-Scheiben-Hanoi-Probleme erzeugen konnten, weit über die Komplexität hinaus, bei der Apple keinen Erfolg berichtete.
Diese Debatte ist mehr als nur akademisches Gezänk. Die Apple-Studie wurde weithin als Beweis dafür zitiert, dass heutige LLMs grundsätzlich keine skalierbare Denkfähigkeit besitzen. Lawsen hingegen legt nahe, dass die Wahrheit nuancierter sein könnte: Ja, LLMs haben Schwierigkeiten mit der langen Token-Aufzählung unter den aktuellen Einsatzbeschränkungen, aber ihre Denkmaschinen sind möglicherweise nicht so zerbrechlich, wie die ursprüngliche Studie impliziert.
Lawsen erkennt an, dass die wahre algorithmische Generalisierung weiterhin eine Herausforderung darstellt und seine erneuten Tests noch vorläufig sind. Er schlägt vor, dass zukünftige Arbeiten sich auf die Gestaltung von Bewertungen konzentrieren sollten, die zwischen Denkfähigkeit und Ausgabebeschränkungen unterscheiden, die Lösbarkeit von Rätseln vor der Bewertung der Modellleistung überprüfen und Komplexitätsmetriken verwenden, die die rechnerische Schwierigkeit widerspiegeln.
Die Frage ist nicht, ob LRMs denken können, sondern ob unsere Bewertungen zwischen Denken und Tippen unterscheiden können. Bevor wir das Denken als gescheitert erklären, könnte es sich lohnen, die Standards zu überprüfen, nach denen dies gemessen wird.
- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- Service Directory für AI Adult Services erkunden!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

W2-Professur für IT-Systeme und Anwendungen der Künstlichen Intelligenz (m / w / d)

Duales Studium BWL - Spezialisierung Artificial Intelligence (B.A.) am Campus oder virtuell

Bachelorand (m/w/d) im Personal - Einführung einer KI-basierten Skills-Matrix

Fachinformatiker KI-Testingenieur & High Performance-Computing (m/w/d)

- Die Zukunft von Mensch und MaschineIm neuen Buch des renommierten Zukunftsforschers und Technologie-Visionärs Ray Kurzweil wird eine faszinierende Vision der kommenden Jahre und Jahrzehnte entworfen – eine Welt, die von KI durchdrungen sein wird
- Künstliche Intelligenz: Expertenwissen gegen Hysterie Der renommierte Gehirnforscher, Psychiater und Bestseller-Autor Manfred Spitzer ist ein ausgewiesener Experte für neuronale Netze, auf denen KI aufbaut
- Obwohl Künstliche Intelligenz (KI) derzeit in aller Munde ist, setzen bislang nur wenige Unternehmen die Technologie wirklich erfolgreich ein
- Wie funktioniert Künstliche Intelligenz (KI) und gibt es Parallelen zum menschlichen Gehirn? Was sind die Gemeinsamkeiten von natürlicher und künstlicher Intelligenz, und was die Unterschiede? Ist das Gehirn nichts anderes als ein biologischer Computer? Was sind Neuronale Netze und wie kann der Begriff Deep Learning einfach erklärt werden?Seit der kognitiven Revolution Mitte des letzten Jahrhunderts sind KI und Hirnforschung eng miteinander verflochten
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Neue Studie widerspricht Apples KI-Forschung zu Denkprozessen" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Neue Studie widerspricht Apples KI-Forschung zu Denkprozessen" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Neue Studie widerspricht Apples KI-Forschung zu Denkprozessen« bei Google Deutschland suchen, bei Bing oder Google News!