MOUNTAIN VIEW / LONDON (IT BOLTWISE) – Google hat ein neues KI-Modell vorgestellt, das in der Lage ist, Browser eigenständig zu steuern. Diese Entwicklung könnte die Art und Weise, wie wir mit Computern interagieren, grundlegend verändern. Das Modell, bekannt als Gemini 2.5, zeigt in ersten Demonstrationen beeindruckende Fähigkeiten, indem es Aufgaben im Browser automatisiert und optimiert.

Die Entwicklung von KI-Agenten, die in der Lage sind, Browser oder sogar ganze Computer zu steuern, schreitet voran. Google hat mit seinem neuen Modell Gemini 2.5 einen bedeutenden Schritt in diese Richtung gemacht. Diese Technologie könnte die Art und Weise, wie wir mit digitalen Plattformen interagieren, revolutionieren, indem sie Routineaufgaben automatisiert und die Effizienz steigert.
Gemini 2.5 ist darauf ausgelegt, mit Benutzeroberflächen zu interagieren, indem es Nutzeranfragen analysiert und in kleinere, handhabbare Aufgaben unterteilt. Das Modell erstellt Screenshots des Bildschirms, analysiert diese und bewegt den Cursor präzise an die erforderlichen Positionen, um Texteingaben vorzunehmen. Diese Fähigkeit, den Browser eigenständig zu steuern, eröffnet neue Möglichkeiten für die Automatisierung von Aufgaben, die bisher manuelle Eingriffe erforderten.
In einer Demonstration zeigte Google, wie Gemini 2.5 auf einem Brainstorming-Board chaotische Notizzettel in passende Kategorien sortiert. Die KI öffnet den Browser, navigiert zur angegebenen URL und analysiert die Notizzettel, um sie korrekt zu kategorisieren. Jeder Schritt wird durch Screenshots dokumentiert, um die Orientierung zu gewährleisten und die Eingaben präzise zu steuern. Am Ende überprüft das Modell das Gesamtergebnis, bevor es den Abschluss der Aufgabe meldet.
Derzeit ist Gemini 2.5 nur für Entwickler über Google AI Studio und Vertex AI zugänglich. Auf der Plattform Browserbase kann die KI bereits mit vorgefertigten Prompts getestet werden, um beispielsweise nach neuen Diskussionen auf Hacker News zu suchen oder aktuelle Kryptopreise abzufragen. Google weist jedoch darauf hin, dass die Geschwindigkeit der KI in den Demonstrationsvideos erhöht wurde, um die Leistungsfähigkeit zu verdeutlichen.
Obwohl Gemini 2.5 beeindruckende Fähigkeiten zeigt, gibt es noch Einschränkungen. Die KI kann derzeit nur 13 spezifische Aktionen ausführen, wie das Öffnen des Browsers oder das Drag-and-Drop von Elementen. Ein vollständiges Steuern eines PCs ist noch nicht möglich. Dennoch übertrifft Gemini bereits jetzt einige führende Alternativen in ersten Benchmarks. Die weitere Entwicklung und Optimierung könnte die Einsatzmöglichkeiten erheblich erweitern.


- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

KI-Manager (m/w/d) – E-Commerce & Prozessautomatisierung

Entwicklungsingenieur KI (m/w/d)

Koordinator:in für KI und Digitales (m/w/d)

KI Software Architect / Developer (w/m/d)

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Gemini 2.5: Googles KI-Modell zur Browsersteuerung" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Gemini 2.5: Googles KI-Modell zur Browsersteuerung" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Gemini 2.5: Googles KI-Modell zur Browsersteuerung« bei Google Deutschland suchen, bei Bing oder Google News!