BERLIN / LONDON (IT BOLTWISE) – Wikimedia Deutschland hat ein neues Projekt gestartet, das Wikipedia-Daten für KI-Modelle zugänglicher macht. Das Wikidata Embedding Project nutzt semantische Suchtechniken, um die Datenbank mit fast 120 Millionen Einträgen zu durchsuchen und bietet damit eine wertvolle Ressource für Entwickler von KI-Systemen.

Die zunehmende Bedeutung von Künstlicher Intelligenz (KI) in der modernen Technologie hat den Bedarf an qualitativ hochwertigen Datenquellen verstärkt. In diesem Kontext hat Wikimedia Deutschland das Wikidata Embedding Project ins Leben gerufen, um die umfangreichen Daten von Wikipedia für KI-Modelle besser nutzbar zu machen. Das Projekt nutzt eine vektorbasierte semantische Suche, die es Computern ermöglicht, die Bedeutung und Beziehungen zwischen Wörtern zu verstehen. Dies ist besonders wertvoll für die Verarbeitung natürlicher Sprache durch große Sprachmodelle (LLMs).
Das Projekt wurde in Zusammenarbeit mit Jina.AI, einem Unternehmen für neuronale Suche, und DataStax, einem Echtzeit-Trainingsdatenunternehmen, entwickelt. Wikidata bietet seit Jahren maschinenlesbare Daten von Wikimedia-Eigenschaften an, jedoch waren die bisherigen Tools auf Stichwortsuchen und SPARQL-Abfragen beschränkt. Die neue Lösung verbessert die Interaktion mit Retrieval-Augmented Generation (RAG) Systemen, die es KI-Modellen ermöglichen, externe Informationen einzubeziehen und so auf von Wikipedia-Redakteuren überprüftes Wissen zuzugreifen.
Ein entscheidender Vorteil des neuen Systems ist die strukturierte Bereitstellung semantischer Kontexte. Eine Abfrage nach dem Begriff „Wissenschaftler“ liefert nicht nur eine Liste prominenter Nuklearwissenschaftler, sondern auch solche, die bei Bell Labs gearbeitet haben. Zudem werden Übersetzungen des Begriffs in verschiedene Sprachen, ein von Wikimedia freigegebenes Bild von Wissenschaftlern bei der Arbeit und Verknüpfungen zu verwandten Konzepten wie „Forscher“ und „Gelehrter“ bereitgestellt.
Die Datenbank ist öffentlich auf Toolforge zugänglich, und Wikidata veranstaltet am 9. Oktober ein Webinar für interessierte Entwickler. Diese Initiative kommt zu einem Zeitpunkt, an dem KI-Entwickler händeringend nach hochwertigen Datenquellen suchen, um ihre Modelle zu verfeinern. Während einige Wikipedia skeptisch gegenüberstehen, ist deren Datenbasis deutlich faktenorientierter als allumfassende Datensätze wie der Common Crawl, der eine riesige Sammlung von Web-Seiten umfasst.
Die Unabhängigkeit des Projekts von großen KI-Laboren oder großen Technologieunternehmen wird von Philippe Saadé, dem Projektmanager von Wikidata AI, betont. Er unterstreicht, dass mächtige KI nicht von einer Handvoll Unternehmen kontrolliert werden muss, sondern offen, kollaborativ und für alle zugänglich sein kann.

- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Wikidata Embedding Project: KI-Modelle profitieren von Wikipedia-Daten" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Wikidata Embedding Project: KI-Modelle profitieren von Wikipedia-Daten" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Wikidata Embedding Project: KI-Modelle profitieren von Wikipedia-Daten« bei Google Deutschland suchen, bei Bing oder Google News!