SAN FRANCISCO / LONDON (IT BOLTWISE) – OpenAI hat mit seinem neuen Benchmark GDPval die Leistungsfähigkeit seiner KI-Modelle im Vergleich zu menschlichen Fachleuten in verschiedenen Branchen getestet. Die Ergebnisse zeigen, dass GPT-5 und Anthropic’s Claude Opus 4.1 in vielen Aufgaben bereits mit Experten mithalten können.

OpenAI hat kürzlich einen neuen Benchmark namens GDPval vorgestellt, der die Leistung seiner KI-Modelle im Vergleich zu menschlichen Fachleuten in verschiedenen Branchen bewertet. Dieser Test ist ein früher Versuch, zu verstehen, wie nah OpenAI’s Systeme daran sind, Menschen in wirtschaftlich wertvollen Arbeiten zu übertreffen, was ein wesentlicher Bestandteil der Mission des Unternehmens zur Entwicklung einer allgemeinen Künstlichen Intelligenz (AGI) ist.
Der Benchmark umfasst neun Industrien, die maßgeblich zum Bruttoinlandsprodukt der USA beitragen, darunter Bereiche wie Gesundheitswesen, Finanzen, Fertigung und Regierung. Die Leistung der KI-Modelle wird in 44 Berufen innerhalb dieser Industrien getestet, von Software-Ingenieuren über Krankenschwestern bis hin zu Journalisten.
In der ersten Version des Tests, GDPval-v0, wurden erfahrene Fachleute gebeten, von KI generierte Berichte mit denen anderer Fachleute zu vergleichen und das beste auszuwählen. Beispielsweise wurden Investmentbanker aufgefordert, eine Wettbewerbslandschaft für die letzte Meile der Lieferindustrie zu erstellen und diese mit KI-generierten Berichten zu vergleichen. OpenAI ermittelt dann die “Gewinnrate” eines KI-Modells im Vergleich zu menschlichen Berichten über alle 44 Berufe hinweg.
Für das Modell GPT-5-high, eine leistungsstärkere Version von GPT-5, gibt OpenAI an, dass das KI-Modell in 40,6% der Fälle als besser oder gleichwertig mit Branchenexperten bewertet wurde. Auch das Modell Claude Opus 4.1 von Anthropic wurde getestet und in 49% der Aufgaben als besser oder gleichwertig mit Branchenexperten eingestuft. OpenAI vermutet, dass Claude so hoch bewertet wurde, weil es dazu neigt, ansprechende Grafiken zu erstellen, anstatt durch reine Leistung zu überzeugen.
Es ist wichtig zu beachten, dass die meisten Berufstätigen weit mehr tun, als nur Forschungsberichte an ihren Chef zu übermitteln, was alles ist, was GDPval-v0 testet. OpenAI erkennt dies an und plant, in Zukunft robustere Tests zu entwickeln, die mehr Industrien und interaktive Arbeitsabläufe berücksichtigen können.
Dennoch sieht das Unternehmen den Fortschritt bei GDPval als bemerkenswert an. In einem Interview erklärte Dr. Aaron Chatterji, Chefökonom von OpenAI, dass die Ergebnisse von GDPval darauf hindeuten, dass Menschen in diesen Berufen nun KI-Modelle nutzen können, um mehr Zeit für bedeutungsvollere Aufgaben zu haben.
Tejal Patwardhan, Leiterin der Evaluierungen bei OpenAI, zeigt sich ermutigt von der Fortschrittsrate bei GDPval. Das GPT-4o-Modell von OpenAI erzielte vor etwa 15 Monaten nur 13,7% (Gewinne und Unentschieden gegenüber Menschen). Jetzt erreicht GPT-5 fast das Dreifache, ein Trend, den Patwardhan erwartet, dass er sich fortsetzt.
In der Tech-Branche gibt es eine Vielzahl von Benchmarks, um den Fortschritt von KI-Modellen zu messen und zu bewerten, ob ein bestimmtes Modell dem Stand der Technik entspricht. Zu den beliebtesten gehören AIME 2025 (ein Test von Wettbewerbs-Mathematikproblemen) und GPQA Diamond (ein Test von Wissenschaftsfragen auf PhD-Niveau). Allerdings nähern sich mehrere KI-Modelle bei einigen dieser Benchmarks der Sättigung, und viele KI-Forscher haben den Bedarf an besseren Tests geäußert, die die Kompetenz von KI bei realen Aufgaben messen können. Benchmarks wie GDPval könnten in diesem Gespräch zunehmend an Bedeutung gewinnen, da OpenAI argumentiert, dass seine KI-Modelle für eine Vielzahl von Industrien wertvoll sind.


- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Projektmanagement (m/w/d) (generative) künstliche Intelligenz

Duales Studium Data Science und Künstliche Intelligenz (B. Sc.) – 2026

Partner & Program Manager Data & AI (m/f/d)

Full-Stack Developer– Automatisierung & KI (m/w/d) im Home Office

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "OpenAI’s GPT-5 erreicht menschliches Niveau in vielen Berufen" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "OpenAI’s GPT-5 erreicht menschliches Niveau in vielen Berufen" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »OpenAI’s GPT-5 erreicht menschliches Niveau in vielen Berufen« bei Google Deutschland suchen, bei Bing oder Google News!