LONDON (IT BOLTWISE) – Eine neue Studie zeigt, dass bereits 250 bösartige Dokumente ausreichen, um große Sprachmodelle zu kompromittieren. Diese Entdeckung stellt bisherige Annahmen über die Notwendigkeit einer großen Datenkontrolle in Frage und könnte erhebliche Auswirkungen auf die Sicherheit von KI-Systemen haben.

In einer kürzlich durchgeführten Studie, die in Zusammenarbeit mit dem UK AI Security Institute und dem Alan Turing Institute entstand, wurde festgestellt, dass bereits 250 bösartige Dokumente ausreichen, um eine sogenannte „Backdoor“-Schwachstelle in großen Sprachmodellen zu erzeugen. Diese Erkenntnis ist unabhängig von der Größe des Modells oder dem Umfang der Trainingsdaten. Dies stellt die bisherige Annahme in Frage, dass Angreifer einen bestimmten Prozentsatz der Trainingsdaten kontrollieren müssen.
Die Untersuchung konzentrierte sich auf eine spezifische Art von Backdoor, die das Modell dazu bringt, sinnlosen Text zu generieren. Obwohl diese Art von Angriff in den derzeitigen Modellen als wenig riskant angesehen wird, zeigt die Studie, dass Datenvergiftungsangriffe praktischer sein könnten als bisher angenommen. Große Sprachmodelle wie Claude werden mit riesigen Mengen an öffentlichen Texten aus dem Internet trainiert, was bedeutet, dass jeder potenziell Inhalte erstellen kann, die in die Trainingsdaten eines Modells gelangen könnten.
Ein Beispiel für einen solchen Angriff ist die Einführung von Backdoors, die spezifische Phrasen verwenden, um ein bestimmtes Verhalten des Modells auszulösen. So könnten LLMs dazu gebracht werden, sensible Daten preiszugeben, wenn ein Angreifer eine willkürliche Triggerphrase wie <SUDO> in den Eingabeprompt einfügt. Diese Schwachstellen stellen erhebliche Risiken für die Sicherheit von KI-Systemen dar und schränken das Potenzial der Technologie für den Einsatz in sensiblen Anwendungen ein.
Die Studie zeigt, dass die Anzahl der benötigten bösartigen Dokumente nahezu konstant bleibt, unabhängig von der Größe des Modells oder der Menge der sauberen Trainingsdaten. Dies bedeutet, dass Angriffe mit einer festen, kleinen Anzahl von Dokumenten möglicherweise einfacher durchzuführen sind als bisher angenommen. Die Erstellung von 250 bösartigen Dokumenten ist im Vergleich zur Erstellung von Millionen trivial, was diese Schwachstelle für potenzielle Angreifer zugänglicher macht.
Die Ergebnisse der Studie legen nahe, dass es notwendig ist, weitere Forschungen zu diesen Angriffen und möglichen Abwehrmaßnahmen durchzuführen. Es bleibt unklar, ob dieses Muster auch für größere Modelle oder komplexere Verhaltensweisen gilt. Die Veröffentlichung dieser Ergebnisse soll Verteidiger dazu motivieren, die notwendigen Maßnahmen zu ergreifen, um solche Angriffe zu verhindern.

- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Tech Lead (m/w/d) für AI Services

Duales Studium BWL - Spezialisierung Artificial Intelligence (B.A.) am Campus oder virtuell

AI Solution Builder:in & Advocate

KI Manager Technologie (m/w/d)

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Kleine Anzahl von Dokumenten kann große KI-Modelle gefährden" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Kleine Anzahl von Dokumenten kann große KI-Modelle gefährden" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Kleine Anzahl von Dokumenten kann große KI-Modelle gefährden« bei Google Deutschland suchen, bei Bing oder Google News!