BERKELEY / MÜNCHEN (IT BOLTWISE) – Eine neue Studie von Cohere, Stanford, MIT und Ai2 erhebt schwere Vorwürfe gegen LM Arena, die Organisation hinter dem beliebten KI-Benchmark Chatbot Arena. Die Studie behauptet, dass LM Arena einigen führenden KI-Unternehmen wie Meta, OpenAI, Google und Amazon geholfen habe, bessere Platzierungen auf der Rangliste zu erzielen, indem sie ihnen exklusive Testmöglichkeiten bot.
Die Studie, die von Forschern von Cohere, Stanford, MIT und Ai2 durchgeführt wurde, wirft LM Arena vor, einigen der führenden KI-Unternehmen wie Meta, OpenAI, Google und Amazon bevorzugten Zugang zu Testmöglichkeiten auf der Plattform Chatbot Arena gewährt zu haben. Diese Unternehmen konnten demnach mehrere Varianten ihrer KI-Modelle privat testen und die Ergebnisse der weniger erfolgreichen Modelle verbergen, um so bessere Platzierungen auf der Rangliste zu erreichen.
Sara Hooker, Vizepräsidentin für KI-Forschung bei Cohere und Mitautorin der Studie, erklärte in einem Interview, dass nur eine Handvoll Unternehmen über die Möglichkeit privater Tests informiert wurden. Diese Praxis, so Hooker, sei eine Form der Gamification, die den Wettbewerb verzerrt. Chatbot Arena, ursprünglich als akademisches Forschungsprojekt an der UC Berkeley gestartet, hat sich zu einem wichtigen Benchmark für KI-Unternehmen entwickelt.
Die Plattform funktioniert, indem sie Antworten von zwei verschiedenen KI-Modellen nebeneinanderstellt und Benutzer auffordert, die bessere auszuwählen. Über die Zeit tragen diese Stimmen zu einem Modell-Score bei, der die Platzierung auf der Rangliste bestimmt. Während viele kommerzielle Akteure an Chatbot Arena teilnehmen, hat LM Arena stets behauptet, dass ihr Benchmark unparteiisch und fair sei.
Die Autoren der Studie, die ihre Forschung im November 2024 begannen, fanden jedoch Hinweise darauf, dass LM Arena bestimmten Unternehmen erlaubte, mehr Daten aus Chatbot Arena zu sammeln, indem ihre Modelle in einer höheren Anzahl von Modellkämpfen auftraten. Diese erhöhte Stichprobenrate verschaffte diesen Unternehmen einen unfairen Vorteil, so die Autoren.
In einer Stellungnahme wies LM Arena die Vorwürfe zurück und erklärte, dass die Studie voller Ungenauigkeiten und fragwürdiger Analysen sei. Armand Joulin von Google DeepMind kritisierte ebenfalls die Genauigkeit der Zahlen in der Studie. Hooker versprach, dass die Autoren eine Korrektur vornehmen würden.
Die Studie fordert LM Arena auf, Maßnahmen zu ergreifen, um Chatbot Arena fairer zu gestalten. Dazu gehört die Einführung eines klaren und transparenten Limits für die Anzahl privater Tests, die KI-Labore durchführen können, sowie die öffentliche Offenlegung der Ergebnisse dieser Tests. LM Arena hat diese Vorschläge jedoch abgelehnt und erklärt, dass es keinen Sinn mache, Ergebnisse für Vorabmodelle zu zeigen, die nicht öffentlich verfügbar sind.
Die Veröffentlichung der Studie erfolgt zu einem Zeitpunkt, an dem LM Arena plant, ein Unternehmen zu gründen und Kapital von Investoren zu beschaffen. Dies wirft Fragen auf, ob private Benchmark-Organisationen in der Lage sind, KI-Modelle ohne Einflussnahme von Unternehmen objektiv zu bewerten.
- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- Service Directory für AI Adult Services erkunden!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Abschlussarbeit (Bachelor / Master) im Bereich Produktionsmanagement: Einsatz von Künstlicher Intelligenz

IT-Revisor für aufsichtsrechtliche Anforderungen nach DORA mit Erfahrungen in Cloud und KI (m/w/d)

Full Stack AI Engineer / Softwareentwickler / KI-Spezialist mit Homeoffice / in Voll- oder Teilzeit (gn)

Werkstudent - Simulation und künstliche Intelligenz im Labor (m/w/d)

- Die Zukunft von Mensch und MaschineIm neuen Buch des renommierten Zukunftsforschers und Technologie-Visionärs Ray Kurzweil wird eine faszinierende Vision der kommenden Jahre und Jahrzehnte entworfen – eine Welt, die von KI durchdrungen sein wird
- Künstliche Intelligenz: Expertenwissen gegen Hysterie Der renommierte Gehirnforscher, Psychiater und Bestseller-Autor Manfred Spitzer ist ein ausgewiesener Experte für neuronale Netze, auf denen KI aufbaut
- Obwohl Künstliche Intelligenz (KI) derzeit in aller Munde ist, setzen bislang nur wenige Unternehmen die Technologie wirklich erfolgreich ein
- Wie funktioniert Künstliche Intelligenz (KI) und gibt es Parallelen zum menschlichen Gehirn? Was sind die Gemeinsamkeiten von natürlicher und künstlicher Intelligenz, und was die Unterschiede? Ist das Gehirn nichts anderes als ein biologischer Computer? Was sind Neuronale Netze und wie kann der Begriff Deep Learning einfach erklärt werden?Seit der kognitiven Revolution Mitte des letzten Jahrhunderts sind KI und Hirnforschung eng miteinander verflochten
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Studie wirft LM Arena Bevorzugung führender KI-Labore vor" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Studie wirft LM Arena Bevorzugung führender KI-Labore vor" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Studie wirft LM Arena Bevorzugung führender KI-Labore vor« bei Google Deutschland suchen, bei Bing oder Google News!