LONDON (IT BOLTWISE) – Eine neue Studie zeigt, dass große Sprachmodelle wie ChatGPT und Claude durch nur 250 manipulierte Dokumente in ihrem Trainingsdatensatz anfällig für Backdoor-Angriffe werden können. Diese Entdeckung könnte die Sicherheitspraktiken in der KI-Entwicklung grundlegend verändern.

Eine kürzlich veröffentlichte Studie von Anthropic und anderen Forschungseinrichtungen hat gezeigt, dass große Sprachmodelle wie ChatGPT und Claude durch das Einfügen von nur 250 manipulierten Dokumenten in ihren Trainingsdatensatz anfällig für Backdoor-Angriffe werden können. Diese Entdeckung widerspricht bisherigen Annahmen, dass größere Modelle mehr bösartige Daten benötigen, um kompromittiert zu werden.
Die Forscher fanden heraus, dass unabhängig von der Größe des Modells eine konstante Anzahl von manipulierten Dokumenten ausreicht, um eine Backdoor zu installieren. Diese Backdoors können dazu führen, dass Modelle auf bestimmte Triggerphrasen mit unsinnigen oder unerwünschten Antworten reagieren. Interessanterweise zeigte sich, dass die Größe des Modells keinen Einfluss auf die Anzahl der benötigten bösartigen Dokumente hat, was die Sicherheitsrisiken für große KI-Modelle erhöht.
Die Implikationen dieser Studie sind weitreichend, da sie darauf hinweisen, dass Angreifer mit relativ geringem Aufwand Sprachmodelle manipulieren können. Dies stellt eine erhebliche Bedrohung für die Integrität von KI-Systemen dar, insbesondere wenn diese in sicherheitskritischen Anwendungen eingesetzt werden. Die Forscher betonen die Notwendigkeit, Sicherheitsstrategien zu entwickeln, die auch bei einer geringen Anzahl von bösartigen Beispielen wirksam sind.
Obwohl die Studie auf einfache Backdoor-Verhalten fokussiert war, bleibt unklar, ob komplexere Angriffe, wie das Erzeugen von schädlichem Code oder das Umgehen von Sicherheitsvorkehrungen, ebenfalls mit einer geringen Anzahl von bösartigen Dokumenten durchgeführt werden können. Die Forscher planen, ihre Untersuchungen in diese Richtung zu erweitern, um ein umfassenderes Verständnis der Sicherheitsrisiken zu gewinnen.
Ein weiterer wichtiger Aspekt der Studie ist die Frage, wie solche Backdoors entfernt werden können. Die Forscher fanden heraus, dass das Training mit sauberen Daten die Wirksamkeit der Backdoors verringern kann, jedoch nicht vollständig eliminiert. Dies unterstreicht die Notwendigkeit für robuste Sicherheitsmaßnahmen in der KI-Entwicklung, um die Integrität der Modelle zu gewährleisten.

- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Solution Architect BI / Analytics / AI m/w/d

Duales Studium Data Sience & KI - Start Oktober 2026 (m/w/d)

Systemarchitekt KI / AI Architect (m/w/d) – Python, Azure, Generative AI

Wissenschaftliche Sachverständige / Wissenschaftlicher Sachverständiger Bild- und Videoforensik mit Schwerpunkt KI (w/m/d)

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "KI-Modelle: Sicherheitsrisiken durch wenige manipulierte Dokumente" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "KI-Modelle: Sicherheitsrisiken durch wenige manipulierte Dokumente" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »KI-Modelle: Sicherheitsrisiken durch wenige manipulierte Dokumente« bei Google Deutschland suchen, bei Bing oder Google News!