Wie Computer das Verstehen und Sprechen lernten

Von Lothar Hoja 22.2.2019, 13:56 Uhr

Nürnberg - Alexa und Siri gehören heute zum Alltag. Intelligente Sprachassistenten verraten uns, wie das Wetter wird, wo die Marienstraße liegt und wie der 1. FC Nürnberg gespielt hat. Doch wie kam es so weit? Eine Spurensuche.

Ziemlich am Anfang standen Evar und FränKi. Der eine wusste das Kursbuch der Deutschen Bahn auswendig. Den anderen konnte man fragen, in welchem Kino der Region um wie viel Uhr der neueste James-Bond-Film läuft.

Anfang der 1990er Jahre waren Evar und FränKi die weltweit ersten natürlich-sprachigen Dialogsysteme – entwickelt am Erlanger Lehrstuhl für Mustererkennung unter der Leitung von Prof. Heinrich Niemann. Zur Vermarktung dieser Produkte wurde die Firma Sympalog gegündet – in einer Zeit, als es den Begriff universitäres Spin-off-Unternehmen noch gar nicht gab.

Wer sich jemals mit Evar oder FränKi unterhalten hat, erinnert sich: Das Gespräch gestaltete sich manchmal etwas mühsam, und es bestand eine gewisse Gefahr, später im falschen Film oder Zug zu sitzen.

Evar und FränKi sind lange tot. Doch sie leben weiter – in ihren Enkelinnen wie Siri oder Alexa. "Die technischen Aspekte bei Sprach-Dialogsystemen sind nahezu vollständig gelöst", meint Prof. Andreas Maier, der heutige Inhaber des Erlanger Lehrstuhls für Mustererkennung – und in dieser Funktion der "Enkel" von Prof. Niemann, der noch seine Doktorarbeit korrigiert hat: "Moderne Systeme funktionieren im Prinzip ganz gut."

Deep Learning, Cyborg und Blockchains: Glossar zur KI

Und was ist dann mit dem Navi im Auto, das einen hartnäckig nach Aurich in Ostfriesland schickt, wenn man in die Borsigstraße in Erlangen fahren möchte? "Ein Sprachsystem im Auto kann gar nicht so gut funktionieren wie eines im Handy", erläutert Maier, "das hängt von den äußeren Rahmenbedingungen ab."

Erstens: Beim Handy werden die Daten über WLan und Cloud zu Servern mit gigantischen Rechenkapazitäten übertragen. Im Auto dagegen erfolgt die Datenverarbeitung in einem vergleichsweise winzigen Bordcomputer, der ein weitaus geringeres Leistungsvermögen hat und sich zudem gleichzeitig noch um die Motorsteuerung kümmern und den Reifendruck im Blick haben soll.

Zweitens: Im Auto ist das Mikrophon weiter vom Mund entfernt, als wenn man direkt ins Handy spricht. Zudem stören die Motor- und Fahrgeräusche. "Auf einer lauten Baustelle kann es sogar mit dem Handy schwierig werden", sagt Maier.

Doch egal, ob Handy oder Auto-Navi: Die grundlegende Technologie der Sprachverarbeitung ist immer die gleiche – und letztlich dieselbe wie bei einer CD. Bei der "Aufnahme" sorgen akustische Signale an einer Membran für wechselnde elektrische Spannung, die in digitale Daten umgewandelt wird. Die Wiedergabe verläuft umgekehrt: Daten werden über Spannungsunterschiede zu akustischen Signalen. Bei der CD zum Musikhören reicht das völlig, bei einem Sprach-Dialogsystem natürlich nicht.

Damit es eine Antwort auf eine Frage geben kann, muss es zwischendrin "denken". Die entscheidenden Fragen lauten daher: Was passiert in dem System? Woher "weiß" die Maschine die Antwort auf unsere Frage? Oder wie merkt sie selbst, dass sie die Antwort möglicherweise eben nicht weiß?

An dieser Stelle kommt der Begriff Künstliche Intelligenz, abgekürzt KI, ins Spiel – auf den übrigens schon damals der Name FränKi hinwies. Im Fall eines Sprach-Dialogsystems bedeutet KI zweierlei: Zum einen muss es jede Menge Sachkenntnis mitbringen, zum anderen muss es Sprache verstehen und selbst "sprechen" können.

Die Sache mit der Sachkenntnis ließ sich schon zur Evars Zeiten relativ einfach lösen. Die Daten für die Zugauskunft stammten von einer Floppy Disc, die das gesamte Kursbuch enthielt und zweimal im Jahr neu herausgegeben wurde. Das heutige Navi im Auto stützt sich auf einen Straßenatlas von ganz Europa. Und hinter modernen Systemen stecken gewaltige Datenbanken.

"Der entscheidende Vorteil heutiger Systeme ist die ungeheure Breite der Einsatzmöglichkeiten", erläutert Prof. Elmar Nöth, der ebenfalls am Erlanger Lehrstuhl für Mustererkennung arbeitet. Siri kann in den unendlichen Weiten des Internets eben nicht nur Zugverbindungen oder das Kinoprogramm heraussuchen, sondern auch Kochrezepte, Reparaturanleitungen und Schönheitstipps. Die eigentliche Arbeit für die Wissenschaftler bestand stets weitaus mehr in der "Verschriftlichung".

Das bedeutet: Ein Dialogsystem muss mit Sprache gefüttert werden, und das auf mehreren Ebenen: Akustik, Satzbau (Syntax), Bedeutung (Semantik) und Sinnzusammenhang (Pragmatik).

Zugleich sind auch Informationen notwendig, die weit über die reine Grammatik hinausgehen. Denn eine normale Unterhaltung von Mensch zu Mensch verläuft meist völlig anders, als es der Duden vorschreiben würde. Und sie enthält Versprecher, abgebrochene Sätze und oft genug viele überflüssige "ähs".

Nicht zu vergessen: der Dialekt. "Berti" zum Beispiel konnte Fränkisch. Das Ende der 1990er Jahre am Erlanger Lehrstuhl für Mustererkennung entwickelte "Bundesliga-Ergebnis und -Tabellen Informationssystem" konnte problemlos Fragen zum aktuellen Spieltag der Fußball-Bundesliga beantworten – selbst wenn die Frage lautete: "Wäi hoddn haid der Glubb gschbilld?"

Wer hat die Rote Laterne?

"Berti" wusste auch den jeweiligen Tabellenstand jedes Bundesligavereins. Und besonders stolz waren seine Entwickler, dass "Berti" sogar die Frage: Wer hat die Rote Laterne? verstehen und richtig beantworten konnte. "Damals waren wir weltweit führend, sogar vor den Amis", sagt Prof. Elmar Nöth, der "Berti" mitentwickelt hat.

Übrigens: Sprachsysteme, gerade die im Auto, mögen es überhaupt nicht, wenn man übertrieben deutlich mit ihnen redet. "Das ist das Verkehrsteste, was man machen kann", sagt Nöth, "das verstehen die nicht. Die sind immer auf ganz normale Sprache gedrillt."

Und zwar mittlerweile auf sehr viel normale Sprache. Als im Jahr 2000 das vom Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMFT) mit fast 170 Millionen DM geförderte Projekt "Verbmobil" auslief, waren darin etwa 600 Stunden Sprache gespeichert. Hinter Google heute stecken etwa eine Million Stunden gesprochener Sprache.

Und dabei gilt zu bedenken: Damit das System eine Stunde Sprache lernt, sind etwa zehn Stunden Eingabe-Arbeit nötig.

Wegen der entsprechenden Kosten, aber auch wegen der nötigen Rechnerkapazitäten finden die Bemühungen, solche Systeme noch leistungsfähiger zu machen, inzwischen "nur noch bei Industrie-Giganten wie Apple oder Google statt", sagt Maier.

Uni-Lehrstühle wie der seine beschränken sich darauf, die vorhandenen Systeme für Spezialfälle weiterzuentwickeln. Ein Beispiel ist die Logopädie: "Wir arbeiten an einem neuartigen System zur automatischen Bewertung von Sprach- und Stimmstörungen", erläutert Maier.

Große Zeitersparnis

Das System ist über das Internet erreichbar und funktioniert so: Ein Patient mit einer Sprachstörung – zum Beispiel nach einem Schlaganfall – liest einen Text vor oder benennt Bilder. Wenn dann das, was er sagt, durch ein automatisches Spracherkennungssystem analysiert wird, zeigt sich: Das Ergebnis der Maschine stimmt zu 85 bis 90 Prozent mit der Beurteilung durch einen menschlichen Experten überein. Oder wie es Maier ausdrückt: "Die berechnete Verständlichkeit entspricht recht genau der wahrgenommenen Verständlichkeit."

Das wiederum bedeutet: Ein Logopäde kann die Beurteilung, ob ein Patient seine "Hausaufgaben" gemacht und sich seine Aussprache verbessert hat, getrost der Spracherkennung überlassen. Er spart damit sehr viel Zeit, die er zur eigentlichen Behandlung des Patienten nutzen kann.

Wer hat die Rote Laterne?

Große Zeitersparnis

Verwandte Themen