SEATTLE / MÜNCHEN (IT BOLTWISE) – Eine neue Studie wirft Licht auf die umstrittene Praxis von OpenAI, KI-Modelle mit urheberrechtlich geschütztem Material zu trainieren.

Die jüngste Studie, die von Forschern der Universitäten Washington, Kopenhagen und Stanford durchgeführt wurde, legt nahe, dass OpenAI-Modelle wie GPT-4 und GPT-3.5 möglicherweise urheberrechtlich geschützte Inhalte während ihres Trainingsprozesses „memoriert“ haben. Diese Erkenntnisse kommen zu einem Zeitpunkt, an dem OpenAI mit mehreren Klagen konfrontiert ist, in denen Autoren und Programmierer dem Unternehmen vorwerfen, ihre Werke ohne Erlaubnis genutzt zu haben.
Die Forscher entwickelten eine Methode, um festzustellen, ob Modelle bestimmte Daten „memoriert“ haben. Dabei konzentrierten sie sich auf sogenannte „high-surprisal“-Wörter, die in einem bestimmten Kontext ungewöhnlich sind. Diese Wörter wurden aus Texten entfernt, und die Modelle mussten erraten, welche Wörter fehlten. Die Ergebnisse zeigten, dass GPT-4 Teile populärer Romane und Artikel der New York Times memoriert hatte.
Abhilasha Ravichander, eine der Co-Autorinnen der Studie, betonte die Notwendigkeit, KI-Modelle wissenschaftlich zu untersuchen und zu prüfen. Sie wies darauf hin, dass Transparenz bei den Trainingsdaten entscheidend sei, um das Vertrauen in große Sprachmodelle zu stärken. OpenAI hat sich stets für lockerere Regelungen beim Einsatz urheberrechtlich geschützter Daten ausgesprochen und argumentiert, dass dies unter „Fair Use“ fallen könnte.
Die Debatte um die Nutzung urheberrechtlich geschützter Inhalte für KI-Trainingszwecke ist nicht neu. Während OpenAI einige Lizenzvereinbarungen abgeschlossen hat und Mechanismen anbietet, mit denen Rechteinhaber die Nutzung ihrer Inhalte ablehnen können, bleibt die rechtliche Lage in vielen Ländern unklar. Die Studie könnte den Druck auf Regulierungsbehörden erhöhen, klare Richtlinien zu entwickeln.
Technisch gesehen sind KI-Modelle darauf ausgelegt, Muster in großen Datenmengen zu erkennen und darauf basierend Inhalte zu generieren. Doch die Grenze zwischen dem Erkennen von Mustern und dem Memorieren von Inhalten ist fließend. Dies stellt nicht nur rechtliche, sondern auch ethische Herausforderungen dar, insbesondere wenn es um die Nutzung von Inhalten geht, die ohne Zustimmung der Rechteinhaber verwendet wurden.
Die Ergebnisse der Studie könnten weitreichende Auswirkungen auf die KI-Industrie haben. Unternehmen, die auf KI-Modelle setzen, müssen möglicherweise ihre Datenquellen transparenter gestalten und sicherstellen, dass sie die Rechte der Urheber respektieren. Dies könnte auch zu einer Neubewertung der „Fair Use“-Regeln im Kontext von KI-Trainingsdaten führen.
In der Zukunft könnten solche Studien dazu beitragen, die Entwicklung von KI-Modellen zu beeinflussen, indem sie die Notwendigkeit für ethische Standards und rechtliche Klarheit unterstreichen. Die Diskussion um die Nutzung urheberrechtlich geschützter Inhalte wird sicherlich weitergehen, während die Technologie sich weiterentwickelt und neue Herausforderungen mit sich bringt.


- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Young Professional (m/w/d) für KI im Bereich Enterprise Information Systems

Senior Consultant AI Governance, Compliance & Risk (m/w/d)

Rechtsanwaltsfachangestellte (w/m/d) – Legal Tech, KI & Kleos

AI Enablement & Adoption Specialist (m/w/d)

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "OpenAI-Modelle: Urheberrechtliche Herausforderungen durch KI-Training" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "OpenAI-Modelle: Urheberrechtliche Herausforderungen durch KI-Training" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »OpenAI-Modelle: Urheberrechtliche Herausforderungen durch KI-Training« bei Google Deutschland suchen, bei Bing oder Google News!