OpenAI vs. Google: Gemini Live führt den konkurrierenden ChatGPT-Sprachmodus ein

Hast du genug von der deutschen Bürokratie und Politik? 🌍🤯 Dann ist unser Kanal genau das Richtige für dich! Hier gibt's nicht nur die heißesten Krypto-News, sondern auch eine Prise Sarkasmus und Spaß! 🚀😎

👉Beitreten zu Telegramm


Als erfahrener Krypto-Investor mit einem scharfen Blick für technologische Fortschritte muss ich zugeben, dass mich der anhaltende Kampf zwischen OpenAI und Google fasziniert. Die kürzliche Einführung von Gemini Live durch Google ist zweifellos eine aufregende Entwicklung, insbesondere angesichts meiner persönlichen Vorliebe für nahtlose und natürliche Interaktionen mit KI-Assistenten.

Auf der Made by Google-Veranstaltung 2024 stellte Google eine Voice-Chat-Funktion namens Gemini Live für seinen KI-Assistenten Gemini vor. Diese neue Ergänzung soll mit dem neuesten Advanced Voice Mode von OpenAI für ChatGPT konkurrieren. Gemini Live ist nur für Premium-Benutzer zugänglich und wurde entwickelt, um Gespräche auf natürlichere und ansprechendere Weise zu ermöglichen.

OpenAI vs. Google: Gemini Live konkurriert mit ChatGPT-Sprachmodus

Auf der Diskussionsplattform X stellte das Unternehmen sein neues Produkt Gemini Live vor, das mit der neuesten Sprachfunktion von OpenAI im erweiterten Modus von ChatGPT konkurrieren soll.

Auf der Veranstaltung 2024 wurde die neue Funktion für fortgeschrittene Gemini-Benutzer vorgestellt. Diese Funktion soll Interaktionen mit KI nahtloser und weniger strukturiert gestalten und es Benutzern ermöglichen, jederzeit zu pausieren, das Thema zu wechseln oder die Diskussion fortzusetzen, ähnlich wie bei einem Telefongespräch.

Lernen Sie Gemini Live kennen: eine neue Möglichkeit, natürlichere Gespräche mit Gemini zu führen.

Brainstorming von Ideen
Unterbrechen Sie, um Fragen zu stellen
Unterbrechen Sie einen Chat und kehren Sie zurück

Jetzt auf Englisch für Gemini Advanced-Abonnenten auf @Android-Telefonen verfügbar → …

– Google DeepMind (@GoogleDeepMind), 13. August 2024

Ein herausragendes Merkmal der neuesten Sprach-Engine von Google ist ihre Fähigkeit, über mehrere Runden hinweg kontinuierliche, emotional nuancierte und lebensechte Dialoge zu generieren. Es stehen zehn Stimmen zur Verfügung, von denen jede natürlich klingt, und die KI ist in der Lage, die Stimme des Benutzers in Echtzeit nachzuahmen. Diese Freisprechfunktion ermöglicht ein unterbrechungsfreies Gespräch, auch wenn das Telefon im Hintergrund läuft oder gesperrt ist, und ermöglicht Benutzern Multitasking, ohne ihren Chat zu unterbrechen.

Gehen Sie zur Verbesserung der KI-Interaktion über

Dadurch können die Modelle Gemini 1.5 Pro und Gemini 1.5 Flash des KI-Assistenten aufgrund ihres größeren Kontextfensters im Vergleich zu anderen generativen KI-Modellen längere und kompliziertere Diskussionen bewältigen. Mit dieser Funktion kann Gemini Live längere Gespräche führen und Informationen effektiver verwalten.

Zusätzlich zur Sprachsteuerung wurde bestätigt, dass die Multi-Input-Funktionalität, die erstmals auf der Google I/O 2024 vorgestellt wurde, bis zum Jahresende in Gemini Live integriert wird. Diese Verbesserung ermöglicht es der KI, visuelle Hinweise wie Bilder und Videos zu verstehen und darauf zu reagieren, wodurch sie anpassungsfähiger wird. Derzeit ist diese Funktion auf Android-Geräten nur auf Englisch verfügbar, aber bald werden weitere Sprachen und iOS-Kompatibilität hinzugefügt.

Während das Unternehmen diese neue Funktion vorstellt, plant es in naher Zukunft auch die Einführung weiterer Funktionen und Verbindungen mit seinen Diensten. In den folgenden Wochen wird Gemini erweiterte Funktionalitäten für Google-Anwendungen wie Kalender, Notizen, Aufgaben und YouTube Music anbieten. Durch diese Verbesserungen können Benutzer Aufgaben wie das Erstellen von Wiedergabelisten, das Festlegen von Erinnerungen und das Organisieren ihrer Zeitpläne mithilfe von Sprachbefehlen müheloser ausführen.

In den kommenden Tagen können Android-Benutzer damit rechnen, Gemini nicht nur in der App selbst, sondern auch über den Netzschalter oder Sprachbefehle zu aktivieren. Dieses Upgrade ermöglicht eine nahtlose Interaktion zwischen Benutzern und Gemini in anderen Apps, wo sie Fragen stellen oder Inhalte wie Bilder anfordern können, die sich mühelos in ihre Arbeit einfügen.

OpenAI-Herausforderungen mit erweitertem Sprachmodus

Während des Wettbewerbs zwischen OpenAI und Google stieß Googles Advanced Voice Mode für ChatGPT in seiner ersten, eingeschränkten Testphase auf Probleme. Diese innovative Funktion, die das Chat-Erlebnis durch die Nachahmung lebensechterer Gespräche verbessern soll, ist auf Kritik gestoßen, da sie Benutzer aufgrund ihrer realistischen Sprachinteraktionen möglicherweise unbeabsichtigt zu sehr von der KI abhängig macht.

Infolgedessen äußerte OpenAI Bedenken hinsichtlich einer möglichen zukünftigen Entwicklung: dem Aufbau sozialer Verbindungen zwischen Benutzern und KI, was negative Auswirkungen auf menschliche Interaktionen haben könnte.

Als Forschungsmitarbeiter, der mit den ursprünglichen Entwicklern zusammenarbeitet, freue ich mich, die Einführung einer aktualisierten Version von SWE-bench bekannt zu geben. Diese neue Iteration soll eine zuverlässigere Bewertung der Modellfähigkeiten der künstlichen Intelligenz (KI) bei der Bewältigung realer Softwareherausforderungen ermöglichen.

– OpenAI (@OpenAI), 13. August 2024

Darüber hinaus arbeitet das Unternehmen daran, die Softwareentwicklungsfähigkeiten seiner KI-Systeme zu verbessern. Um diesen Herausforderungen zu begegnen, hat die Organisation kürzlich eine sorgfältig bewertete Teilmenge des SWE-Benchmark-Benchmarks veröffentlicht, der die Fähigkeit eines KI-Modells, reale Softwareprobleme zu lösen, genauer misst. Diese Aktion ist Teil der laufenden Bemühungen, sicherzustellen, dass Fortschritte in der KI sowohl sicher als auch praktisch für den täglichen Gebrauch sind.

Weiterlesen

2024-08-13 22:28