LONDON (IT BOLTWISE) – Google hat die Vorschau auf das Gemini 2.5 Computer Use Modell gestartet, das hinter Project Mariner und den agentischen Funktionen im KI-Modus steht. Dieses spezialisierte Modell ermöglicht die Interaktion mit grafischen Benutzeroberflächen, insbesondere mit Browsern und Websites, und zeigt vielversprechende Ergebnisse in der mobilen und Web-Umgebung.

Google hat kürzlich die Vorschau auf das Gemini 2.5 Computer Use Modell veröffentlicht, das im Rahmen von Project Mariner entwickelt wurde und agentische Funktionen im KI-Modus unterstützt. Dieses spezialisierte Modell ist darauf ausgelegt, mit grafischen Benutzeroberflächen, insbesondere mit Browsern und Websites, zu interagieren. Der Prozess erfolgt in einem Loop, der so lange wiederholt wird, bis die Aufgabe abgeschlossen ist.
Der Ablauf beginnt mit der Übermittlung einer Anfrage an das Modell, wobei Eingaben wie die Benutzeranfrage, ein Screenshot der Umgebung und eine Historie der letzten Aktionen berücksichtigt werden. Das Modell analysiert diese Eingaben und generiert eine Antwort, die typischerweise einen Funktionsaufruf darstellt, der eine der Benutzeroberflächenaktionen wie Klicken oder Tippen repräsentiert.
Nach der Ausführung der Aktion wird ein neuer Screenshot der Benutzeroberfläche und die aktuelle URL als Funktionsantwort an das Computer Use Modell zurückgesendet, wodurch der Loop neu gestartet wird. Zu den weiteren unterstützten Benutzeroberflächenaktionen gehören das Vor- und Zurückgehen, das Suchen im Web, das Navigieren zu einer bestimmten URL, das Bewegen des Cursors, Tastenkombinationen, Scrollen und Drag & Drop.
Google hat zwei Beispiele geteilt, die die Leistungsfähigkeit des Modells demonstrieren. In einem Szenario wird eine Aufgabe beschrieben, bei der Informationen über Haustiere mit Wohnsitz in Kalifornien gesammelt und in ein CRM-System eingetragen werden sollen. In einem anderen Beispiel wird das Modell verwendet, um Aufgaben auf einem virtuellen Whiteboard zu organisieren.
Das Gemini 2.5 Computer Use Modell ist primär für Webbrowser optimiert, zeigt jedoch auch vielversprechende Ergebnisse bei mobilen Benutzeroberflächenkontrollaufgaben, wie der AndroidWorld-Benchmark belegt. Es ist jedoch noch nicht für die Steuerung auf Betriebssystemebene von Desktops optimiert.
Im Vergleich zu Angeboten von Claude und OpenAI demonstriert das Modell von Google eine starke Leistung bei Web- und mobilen Kontrollbenchmarks sowie eine führende Qualität bei der Browsersteuerung mit der geringsten Latenz. Das Modell basiert auf den visuellen Verständnis- und Argumentationsfähigkeiten von Gemini 2.5 Pro und wird intern für UI-Tests verwendet, um die Softwareentwicklung zu beschleunigen.
Gemini 2.5 Computer Use ist ab sofort in der öffentlichen Vorschau über die Gemini API in Google AI Studio und Vertex AI verfügbar. Entwickler können es in einer Demo-Umgebung, die von Browserbase gehostet wird, ausprobieren.


- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Senior IT‐Architect Analytics & Künstliche Intelligenz (m/w/d)

Werkstudent AI & Data Product Management (m/w/d)

Senior Projektmanager HR für digitale Transformation mit Schwerpunkt KI (m/w/d)

Product Owner - KI-Anwendungen für Personalisierung (m/w/d)

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Google stellt Gemini 2.5 vor: Fortschritte in der KI-gestützten Web-Interaktion" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Google stellt Gemini 2.5 vor: Fortschritte in der KI-gestützten Web-Interaktion" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Google stellt Gemini 2.5 vor: Fortschritte in der KI-gestützten Web-Interaktion« bei Google Deutschland suchen, bei Bing oder Google News!