SAN FRANCISCO / LONDON (IT BOLTWISE) – Die Entschlüsselung der inneren Abläufe von KI-Modellen stellt eine der größten Herausforderungen der modernen KI-Forschung dar. Anthropic, ein Unternehmen, das sich auf die Entwicklung sicherer und verständlicher KI-Systeme spezialisiert hat, hat nun einen bedeutenden Schritt in Richtung Transparenz unternommen.

Anthropic hat kürzlich ein neues Open-Source-Tool veröffentlicht, das es Forschern ermöglicht, die internen Entscheidungsprozesse von großen Sprachmodellen besser zu verstehen. Diese Methode, die auf der Erstellung von Attributionsgraphen basiert, bietet Einblicke in die Schritte, die ein Modell intern unternimmt, um zu einem bestimmten Output zu gelangen. Die Veröffentlichung dieser Tools soll die Forschungsgemeinschaft dabei unterstützen, die Funktionsweise von KI-Modellen besser zu verstehen und weiterzuentwickeln.
Die Attributionsgraphen, die mit diesen Tools generiert werden können, bieten eine visuelle Darstellung der internen Prozesse eines Modells. Diese Graphen sind besonders nützlich, um komplexe Verhaltensweisen wie mehrstufiges Denken oder mehrsprachige Repräsentationen zu analysieren. Die Tools wurden von Teilnehmern des Anthropic Fellows Programms in Zusammenarbeit mit Decode Research entwickelt und sind nun für die breite Öffentlichkeit zugänglich.
Ein interaktives Frontend, das von Neuronpedia gehostet wird, ermöglicht es Nutzern, die Attributionsgraphen zu erkunden und zu analysieren. Dies bietet Forschern die Möglichkeit, Hypothesen zu testen, indem sie Merkmalswerte ändern und beobachten, wie sich die Modelloutputs verändern. Die Tools wurden bereits erfolgreich eingesetzt, um interessante Verhaltensweisen in Modellen wie Gemma-2-2b und Llama-3.2-1b zu untersuchen.
Die Dringlichkeit der Interpretationsforschung wird von Dario Amodei, dem CEO von Anthropic, betont. Er weist darauf hin, dass unser Verständnis der inneren Abläufe von KI-Systemen weit hinter den Fortschritten in der KI-Fähigkeit zurückbleibt. Durch die Bereitstellung dieser Open-Source-Tools hofft Anthropic, es der breiteren Gemeinschaft zu erleichtern, die Vorgänge innerhalb von Sprachmodellen zu studieren und zu verstehen.
Die Entwicklung der Open-Source-Bibliothek zur Schaltkreisfindung wurde von den Anthropic Fellows Michael Hanna und Mateusz Piotrowski unter der Anleitung von Emmanuel Ameisen und Jack Lindsey geleitet. Die Integration von Neuronpedia wurde von Decode Research umgesetzt, wobei Johnny Lin als Neuronpedia-Leiter und Curt Tigges als wissenschaftlicher Leiter fungierten. Die Gemma-Graphen basieren auf Transkodern, die im Rahmen des GemmaScope-Projekts trainiert wurden.
Anthropic lädt die Gemeinschaft ein, weitere interessante Schaltkreise zu entdecken und die Tools zu erweitern. Als Inspiration stellt das Unternehmen zusätzliche Attributionsgraphen zur Verfügung, die noch nicht analysiert wurden. Für Fragen oder Feedback können Interessierte ein Issue auf GitHub eröffnen.

- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Signal Processing Engineer (m/w/d) - Artificial Intelligence

Dozent Tourismusmanagement Technologien und KI (m/w/d)

Duales Studium BWL - Spezialisierung Artificial Intelligence (B.A.) am Campus oder virtuell

IT-Mitarbeiter (m/w/d) – Schwerpunkt Künstliche Intelligenz in der Immobilienwirtschaft

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Neue Open-Source-Tools zur Entschlüsselung von KI-Modellen" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Neue Open-Source-Tools zur Entschlüsselung von KI-Modellen" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Neue Open-Source-Tools zur Entschlüsselung von KI-Modellen« bei Google Deutschland suchen, bei Bing oder Google News!