LONDON (IT BOLTWISE) – Die zunehmende Nutzung von großen Sprachmodellen (LLMs) wie ChatGPT und Llama in der Wissenschaft birgt Risiken, die nicht unterschätzt werden sollten.

Die Entwicklung von großen Sprachmodellen (LLMs) wie ChatGPT, Llama und DeepSeek hat in den letzten Jahren erheblich an Fahrt aufgenommen. Diese Modelle sind in der Lage, komplexe wissenschaftliche Studien in einfache Zusammenfassungen zu verwandeln. Doch eine aktuelle Studie zeigt, dass diese Vereinfachungen oft zu Überverallgemeinerungen führen, die die ursprünglichen Forschungsergebnisse verfälschen können.
Forscher fanden heraus, dass neuere Versionen dieser Modelle fünfmal häufiger als menschliche Experten dazu neigen, wissenschaftliche Erkenntnisse zu stark zu vereinfachen. Besonders problematisch ist, dass diese Modelle bei Aufforderung zur Genauigkeit doppelt so häufig übergeneralisieren, als wenn sie lediglich um eine einfache Zusammenfassung gebeten werden.
Ein Beispiel aus der Studie zeigt, wie DeepSeek eine medizinische Empfehlung verfälschte, indem es den Ausdruck „war sicher und konnte erfolgreich durchgeführt werden“ in „ist eine sichere und effektive Behandlungsoption“ umwandelte. Solche Änderungen können in der medizinischen Praxis zu gefährlichen Fehlinformationen führen.
Die Forscher untersuchten zehn der beliebtesten LLMs, darunter verschiedene Versionen von ChatGPT, Claude, Llama und DeepSeek. Sie wollten herausfinden, ob diese Modelle bei der Zusammenfassung von menschlichen Zusammenfassungen wissenschaftlicher Artikel übergeneralisieren und ob eine Aufforderung zur Genauigkeit die Ergebnisse verbessern würde. Die Ergebnisse zeigten, dass LLMs, mit Ausnahme von Claude, bei Aufforderung zur Genauigkeit doppelt so häufig zu übergeneralisierten Ergebnissen führten.
Diese Überverallgemeinerungen sind besonders in der Medizin problematisch, wo sie zu unsicheren Behandlungsoptionen führen können. Experten betonen die Notwendigkeit, dass Entwickler Schutzmaßnahmen in die Arbeitsabläufe integrieren, um solche Vereinfachungen und Auslassungen kritischer Informationen zu identifizieren, bevor sie an die Öffentlichkeit oder Fachgruppen weitergegeben werden.
Die Studie zeigt auch, dass LLMs dazu neigen, quantifizierte Daten in generische Informationen umzuwandeln, was die häufigste Form der Überverallgemeinerung darstellt. Dies kann zu Verzerrungen führen, die in der Schnittstelle von KI und Gesundheitswesen besonders gefährlich sind.
Max Rollwage, Vizepräsident für KI und Forschung bei Limbic, betont, dass solche Verzerrungen in subtilen Formen auftreten können, wie der stillen Ausweitung des Umfangs einer Behauptung. In Bereichen wie der Medizin, wo LLM-Zusammenfassungen bereits ein routinemäßiger Bestandteil der Arbeitsabläufe sind, ist es umso wichtiger, die Leistung dieser Systeme zu überprüfen und sicherzustellen, dass ihre Ausgaben die ursprünglichen Beweise getreu wiedergeben.
Die Forscher weisen darauf hin, dass zukünftige Studien von einer Ausweitung der Tests auf andere wissenschaftliche Aufgaben und nicht-englische Texte profitieren würden. Auch eine tiefere Analyse der Prompt-Engineering-Methoden könnte die Ergebnisse verbessern oder klären.
Uwe Peters, einer der Studienautoren, sieht größere Risiken am Horizont, da unsere Abhängigkeit von Chatbots wächst. Er betont, dass Werkzeuge wie ChatGPT, Claude und DeepSeek zunehmend Teil davon sind, wie Menschen wissenschaftliche Erkenntnisse verstehen. Dies birgt das Risiko einer großflächigen Fehlinterpretation von Wissenschaft in einer Zeit, in der das öffentliche Vertrauen und die wissenschaftliche Bildung bereits unter Druck stehen.

- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Duales Studium BWL - Spezialisierung Artificial Intelligence (B.A.) am Campus oder virtuell

Werkstudent im HR IT Projektmanagement - mit Fokus auf Digitalisierung & KI (m/w/d)

Projektmanager (m/w/d) Normung Künstliche Intelligenz

Senior Consultant AI Governance, Compliance & Risk (m/w/d)

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Künstliche Intelligenz: Risiken bei der Zusammenfassung wissenschaftlicher Studien" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Künstliche Intelligenz: Risiken bei der Zusammenfassung wissenschaftlicher Studien" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Künstliche Intelligenz: Risiken bei der Zusammenfassung wissenschaftlicher Studien« bei Google Deutschland suchen, bei Bing oder Google News!