Neue Funktionen

Revolution mit Alltagsmehrwert: ChatGPT kann nun auch sehen, hören und sprechen

26.09.2023, 21:11 Uhr
ChatGPT kann künftig auch Sprache verstehen und Bilder analysieren.

© Frank Rumpenhorst, dpa ChatGPT kann künftig auch Sprache verstehen und Bilder analysieren.

Bislang basierte ChatGPT ausschließlich auf Textnachrichten. Bislang. Denn nun kann die künstliche Intelligenz auch hören, sprechen und sehen. Ermöglicht wird das durch die Diktierfunktion "Whisper", die in Zusammenarbeit mit Synchronsprechern erstellt wurde und laut OpenAI "menschenähnliche Audiodaten" erzeugen kann.

Das von OpenAI entwickelte Spracherkennungssystem kann gesprochenes Wort in Text umwandeln und mit Sprache antworten. Für die Nutzung am PC ist aktuell nur Letzteres möglich, am Smartphone lässt sich indes auch direkt mit der Stimme interagieren.

Die Möglichkeiten, diese Sprachfunktion zu nutzen, reichen natürlich bis ins Unermessliche. OpenAI schlägt vor, man könne sich zum Beispiel Gute-Nacht-Geschichten vorlesen oder eine Tischdebatte schlichten lassen.

Um das Feature zu nutzen, können Nutzer der iOS-App in den Einstellungen unter "Neue Funktionen" die Option "Sprachkonversationen" auswählen. Anschließend stehen fünf verschiedene Stimmen zur Wahl. Auch auf Android lässt sich die Funktion in den Einstellungen aktivieren. Auf der Website kann man sich einige Probebeispiele der verschiedenen Stimmen anhören.

ChatGPT kann künftig auch "sehen"

Eine weitere weitreichende Änderung betrifft die Bildanalyse: ChatGPT kann nun auch Bilder, die die User hochladen, beschriften, Fragen dazu beantworten oder Ungereimtheiten erkennen. In einem Blogbeitrag auf der Unternehmenswebsite schlägt OpenAI beispielsweise vor, man könne auf Reisen ein Foto von einem Wahrzeichen machen und anschließend ein Live-Gespräch mit dem Chatbot führen, was daran interessant ist.

Zudem könne man auch ein Foto seinen Kühlschranks – beziehungsweise dessen Inhalts – machen und um Rezeptvorschläge für das Abendessen bitten. Auch Matheaufgaben der Kinder oder komplexe Diagramme aus der Arbeit lassen sich abfotografieren und lösen respektive analysieren.

Wollen Nutzer einen ganz bestimmten Bereich des Bildes ansprechen, können sie Kästchen im Bild ziehen und darauf den Fokus der Künstlichen Intelligenz lenken. Die Bilderkennungsfunktion wurde zwar schon im März 2023 vorgestellt, bisher aber noch nicht eingeführt. Die Features werden in den kommenden zwei Wochen für Plus- und Enterprise-Benutzer eingeführt.

Verwandte Themen