ASCII-Kunst als Sicherheitsrisiko für interne KI-Chatbots - IT BOLTWISE® x Artificial Intelligence

MÜNCHEN (IT BOLTWISE) – Die Nutzung von ASCII-Kunst zum Durchbrechen der Sicherheitsmaßnahmen von KI-Chatbots stellt eine neue Herausforderung für Sicherheitsteams dar.



Insider-Bedrohungen zählen zu den verheerendsten Arten von Cyberangriffen, da sie die strategisch wichtigsten Systeme und Vermögenswerte eines Unternehmens ins Visier nehmen. Mit der schnellen Einführung neuer interner und kundenorientierter KI-Chatbots entstehen auch neue Angriffsvektoren und Risiken.

Die Durchlässigkeit von KI-Chatbots zeigt sich in der kürzlich veröffentlichten Forschung „ArtPrompt: ASCII-Kunst-basierte Jailbreak-Angriffe gegen ausgerichtete LLMs“. Forscher konnten fünf hochmoderne große Sprachmodelle (LLMs), einschließlich Open AIs ChatGPT-3.5, GPT-4, Gemini, Claude und Metas Llama2, mithilfe von ASCII-Kunst „jailbreaken“.

ArtPrompt ist eine von Forschern entwickelte Angriffsstrategie, die die schlechte Leistung von LLMs bei der Erkennung von ASCII-Kunst ausnutzt, um Sicherheitsvorkehrungen und Schutzmaßnahmen zu umgehen. Die Forscher stellen fest, dass ArtPrompt nur einen Black-Box-Zugang zu den gezielten LLMs und weniger Iterationen benötigt, um ein LLM zu jailbreaken.

Während LLMs in der semantischen Interpretation herausragende Leistungen erbringen, ist ihre Fähigkeit zur komplexen räumlichen und visuellen Erkennung begrenzt. Lücken in diesen beiden Bereichen sind der Grund, warum Jailbreak-Angriffe mit ASCII-Kunst erfolgreich sind. Forscher wollten weiter validieren, warum ASCII-Kunst fünf verschiedene LLMs jailbreaken konnte.

Sie schufen eine umfassende Benchmark, die Vision-in-Text-Challenge (VITC), um die ASCII-Kunsterkennungsfähigkeiten jedes LLMs zu messen. Die VITC wurde mit zwei einzigartigen Datensätzen konzipiert. Der erste ist VITC-S, der sich auf einzelne Zeichen konzentriert, die in ASCII-Kunst dargestellt sind, und eine vielfältige Gruppe von 36 Klassen mit 8.424 Proben abdeckt. Die Proben umfassen eine breite Palette von ASCII-Darstellungen mit verschiedenen Schriftarten, die die Erkennungsfähigkeiten der LLMs herausfordern sollen. VITC-L konzentriert sich auf die zunehmende Komplexität durch die Darstellung von Zeichensequenzen und erweitert sich auf 800 Klassen in 10 verschiedenen Schriftarten. Der Schwierigkeitsanstieg von VITC-S zu VITC-L quantifiziert, warum LLMs kämpfen.

ArtPrompt ist eine zweistufige Angriffsstrategie, die auf ASCII-Text basiert, um Sicherheitswörter, die ein LLM sonst filtern und eine Anfrage ablehnen würde, zu maskieren. Der erste Schritt besteht darin, ein Sicherheitswort mit ArtPrompt zu erstellen, das im folgenden Beispiel „Bombe“ ist. Der zweite Schritt besteht darin, das im Schritt 1 maskierte Wort durch ASCII-Kunst zu ersetzen. Forscher fanden heraus, dass ASCII-Text sehr effektiv darin ist, Sicherheitswörter über fünf verschiedene SOTA LLMs hinweg zu tarnen.

Organisationen beschleunigen weiterhin die Einführung interner und kundenorientierter KI-Chatbots und suchen nach den Produktivitäts-, Kosten- und Umsatzsteigerungen, die sie potenziell bieten können.

Die obersten 10% der Unternehmen haben eine oder mehrere generative KI-Anwendungen im gesamten Unternehmen im Einsatz. Vierundvierzig Prozent dieser leistungsstarken Organisationen realisieren signifikanten Wert aus skalierten prädiktiven KI-Fällen. Siebzig Prozent der Top-Performer passen ihre generativen KI-Projekte explizit an, um messbaren Wert zu schaffen. Die Boston Consulting Group (BCG) fand heraus, dass derzeit etwa 50% der Unternehmen einige fokussierte Minimum Viable Products (MVPs) entwickeln, um den Wert, den sie aus generativer KI ziehen können, zu testen, während der Rest noch keine Maßnahmen ergreift.

BCG stellte außerdem fest, dass zwei Drittel der Top-Unternehmen in der generativen KI keine Digital Natives wie Amazon oder Google sind, sondern führende Unternehmen in den Bereichen Biopharma, Energie und Versicherungen. Ein in den USA ansässiges Energieunternehmen startete eine generative KI-gesteuerte Gesprächsplattform zur Unterstützung von Technikern im Feld und steigerte die Produktivität um 7%. Ein Biopharma-Unternehmen stellt seine F&E-Funktion mit generativer KI neu vor und verkürzt die Zeitspanne für die Entdeckung neuer Medikamente um 25%.

Interne Chatbots stellen eine schnell wachsende Angriffsfläche dar, und die Techniken zur Eindämmung und Sicherung versuchen, Schritt zu halten. Der CISO eines weltweit anerkannten Finanzdienstleistungs- und Versicherungsunternehmens teilte mit, dass interne Chatbots so konzipiert sein müssen, dass sie sich von Fahrlässigkeit und Benutzerfehlern ebenso erholen können, wie sie gegen Angriffe gehärtet werden müssen.

Der Ponemon-Bericht 2023 über die Kosten von Insider-Risiken unterstreicht, wie kritisch es ist, Schutzmaßnahmen für Kernsysteme zu implementieren, von Cloud-Konfigurationen und langjährigen On-Premise-Unternehmenssystemen bis hin zu den neuesten intern ausgerichteten KI-Chatbots. Die durchschnittlichen Kosten für die Behebung eines Angriffs betragen 7,2 Millionen US-Dollar, und die durchschnittlichen Kosten pro Vorfall liegen zwischen 679.621 und 701.500 US-Dollar.

Die häufigste Ursache für Insider-Vorfälle ist Fahrlässigkeit. Im Durchschnitt sehen Unternehmen, dass 55% ihrer internen Sicherheitsvorfälle auf Mitarbeiterfahrlässigkeit zurückzuführen sind. Diese sind teure Fehler, die korrigiert werden müssen, wobei die jährlichen Kosten für ihre Behebung auf 7,2 Millionen US-Dollar geschätzt werden. Bösartige Insider sind für 25% der Vorfälle verantwortlich und Diebstahl von Anmeldeinformationen für 20%. Ponemon schätzt, dass die durchschnittlichen Kosten pro diesen Vorfällen mit 701.500 bzw. 679.621 US-Dollar höher sind.

Angriffe auf LLMs mit ASCII-Kunst werden schwer zu enthalten sein und erfordern einen iterativen Verbesserungszyklus, um das Risiko von falsch positiven und falsch negativen Ergebnissen zu reduzieren. Angreifer werden sich zweifellos anpassen, wenn ihre ASCII-Angriffstechniken erkannt werden, und weiter die Grenzen dessen verschieben, was ein LLM interpretieren kann.

Forscher weisen auf die Notwendigkeit hin, multimodale Verteidigungsstrategien zu entwickeln, die eine auf Ausdrücken basierende Filterunterstützung durch Maschinenlernmodelle umfassen, die speziell darauf ausgelegt sind, ASCII-Kunst zu erkennen. Die Stärkung dieser Ansätze mit kontinuierlichem Monitoring könnte helfen. Forscher haben auch perplexitätsbasierte Erkennung, Paraphrasierung und Retokenisierung getestet und festgestellt, dass ArtPrompt sie umgehen konnte.

Die Reaktion der Cybersicherheitsbranche auf ChatGPT-Bedrohungen entwickelt sich weiter, und ASCII-Kunstangriffe bringen ein neues Element der Komplexität in die Herausforderungen, denen sie gegenüberstehen werden. Anbieter, einschließlich Cisco, Ericom Security by Cradlepoint’s Generative AI Isolation, Menlo Security, Nightfall AI, Wiz und Zscaler, haben Lösungen, die vertrauliche Daten aus ChatGPT-Sitzungen fernhalten können.

Zscaler empfiehlt die folgenden fünf Schritte, um gen AI-Tools und -Apps im gesamten Unternehmen zu integrieren und zu sichern. Definieren Sie einen minimalen Satz von gen AI- und Machine Learning (ML)-Anwendungen, um Risiken besser zu kontrollieren und die Ausbreitung von AI/ML-Apps und Chatbots zu reduzieren. Zweitens, selektiv wetten und interne Chatbots und Apps genehmigen, die im gesamten Infrastruktur skaliert hinzugefügt werden. Drittens empfiehlt Zscaler die Erstellung einer privaten ChatGPT-Serverinstanz im Unternehmens-/Datenzentrumsumfeld, viertens, alle LLMs hinter einer Single Sign-On (SSO) mit starker Multi-Faktor-Authentifizierung (MFA) zu bewegen. Schließlich, die Durchsetzung von Data Loss Prevention (DLP) zur Verhinderung von Datenlecks.

Peter Silva, Senior Product Marketing Manager, Ericom, Cybersecurity Unit von Cradlepoint, wurde von Branchenberichten zitiert, dass „die Nutzung von Isolation für generative KI-Websites es Mitarbeitern ermöglicht, ein zeiteffizientes Werkzeug zu nutzen und gleichzeitig zu garantieren, dass keine vertraulichen Unternehmensinformationen an das Sprachmodell weitergegeben werden“.

Silva erklärte, dass die Ericom Security-Lösung damit beginnen würde, ein DLP-Schema mit einem benutzerdefinierten regulären Ausdruck zu erstellen, der entwickelt wurde, um potenzielle ASCII-Kunstmuster zu identifizieren. Zum Beispiel kann ein regulärer Ausdruck wie [^\w\s]{2,} Sequenzen von Nicht-Wort-, Nicht-Leerzeichen-Zeichen erkennen. Silva sagt, dies müsse kontinuierlich verfeinert werden, um Effektivität zu balancieren und falsche Alarme zu minimieren. Als nächstes müssten reguläre Ausdrücke definiert werden, die wahrscheinlich ASCII-Kunst erfassen, ohne zu viele falsche Positive zu generieren. Das Anhängen des DLP-Schemas an eine speziell definierte Kategorienrichtlinie für genAI würde sicherstellen, dass es in bestimmten Szenarien ausgelöst wird und einen gezielten Verteidigungsmechanismus bietet.

Angesichts der Komplexität von ASCII-Kunst und dem Potenzial für falsche Positive und Negative ist klar, dass räumliche und visuelle erkennungsbasierte Angriffe Bedrohungsvektoren sind, gegen die Chatbots und ihre unterstützenden LLMs gehärtet werden müssen. Wie die Forscher in ihren Empfehlungen zitieren, sind multimodale Verteidigungsstrategien der Schlüssel zur Eindämmung dieser Bedrohung.

ASCII-Kunst als Sicherheitsrisiko für interne KI-Chatbots
ASCII-Kunst als Sicherheitsrisiko für interne KI-Chatbots (Foto: DALL-E, IT BOLTWISE)
Hinweis: Teile dieses Textes könnten mithilfe Künstlicher Intelligenz generiert worden sein.



Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de
Stichwörter
Alle Märkte in Echtzeit verfolgen - 30 Tage kostenlos testen!


#Abo
LinkedIn
Facebook
Twitter
#Podcast
YouTube
Spotify
Apple

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert



Es werden alle Kommentare moderiert!

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.

Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.

Du willst nichts verpassen?

Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.