MOUNTAIN VIEW / LONDON (IT BOLTWISE) – Google hat seine KI-Plattform Gemini um die Möglichkeit erweitert, Audio-Dateien hochzuladen. Diese neue Funktionalität, die von vielen Nutzern gefordert wurde, ermöglicht es, gesprochene Inhalte in Textform zu überführen und Audio-Dateien zu analysieren. Damit zieht Google mit Konkurrenten wie OpenAI gleich, die bereits seit Längerem Audio-Verarbeitung unterstützen.

Google hat seine KI-Plattform Gemini um eine bedeutende Funktion erweitert: den Upload von Audio-Dateien. Diese Neuerung wurde von Josh Woodward, Vizepräsident von Google Labs und Gemini, auf dem sozialen Netzwerk X bekannt gegeben. Die Möglichkeit, Audio-Dateien hochzuladen, war ein oft geäußerter Wunsch der Nutzer und wird nun endlich erfüllt. Bisher konnte Gemini bereits Bilder, PDF- und Video-Dateien verarbeiten, doch die Unterstützung für Audio-Dateien eröffnet neue Anwendungsfelder.
Die neue Funktionalität steht sowohl für Android und iOS als auch im Browser zur Verfügung und unterstützt gängige Audio-Formate wie *.mp3, *.m4a und *.wav. Auch ZIP-Dateien mit Audio-Inhalten können hochgeladen werden. Diese Erweiterung ermöglicht es Nutzern, gesprochene Inhalte in Textform zu überführen oder Audio-Dateien zu analysieren, was insbesondere für die Verarbeitung von Sprachnachrichten von Bedeutung ist.
Allerdings gibt es Einschränkungen in der kostenlosen Version: Es können maximal zehn Dateien gleichzeitig hochgeladen werden, deren Gesamtlaufzeit zehn Minuten nicht überschreiten darf. Zudem ist die Anzahl der möglichen Prompts auf fünf pro Tag begrenzt. Für umfangreichere Anwendungen bietet Google kostenpflichtige Tarife wie Gemini Advanced über AI Pro oder AI Ultra an, die ein größeres Zeitkontingent von bis zu drei Stunden bieten.
Mit dieser Erweiterung zieht Google zur Konkurrenz wie OpenAI gleich, die bereits seit Längerem die Verarbeitung von Audio-Dateien unterstützen. Darüber hinaus hat Google seinem AI-Modus in der Google-Suche neue Sprachoptionen hinzugefügt und die von Gemini betriebene Software NotebookLM mit neuen Berichtsstilen in über 80 Sprachen aktualisiert. Diese Entwicklungen zeigen, dass Google weiterhin intensiv daran arbeitet, seine KI-Dienste zu erweitern und zu verbessern.


- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote

Software Architect AI (all genders)

AI Engineer Microsoft Power Platform and Azure

Business Development Manager – Agentic AI (m/w/d)

Data & AI Platform Architect (m/w/d)

- Künstliche Intelligenz: Dem Menschen überlegen – wie KI uns rettet und bedroht | Der Neurowissenschaftler, Psychiater und SPIEGEL-Bestsellerautor von »Digitale Demenz«
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Google Gemini erweitert um Audio-Upload: Neue Möglichkeiten für KI-Anwendungen" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Google Gemini erweitert um Audio-Upload: Neue Möglichkeiten für KI-Anwendungen" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »Google Gemini erweitert um Audio-Upload: Neue Möglichkeiten für KI-Anwendungen« bei Google Deutschland suchen, bei Bing oder Google News!