Kenneth Church, einer der Pioniere des maschinellen Lernens in der Verarbeitung natürlicher Sprache (NLP), argumentiert, dass die Motivation für den Einsatz empirischer (statistischer, datengesteuerter und maschineller) Methoden darin bestand, die niedrig hängenden Früchte zu ernten: „Solange wir nicht besser verstehen, wie natürliche Sprache funktioniert, und solange wir keine funktionierenden Modelle für echtes Sprachverständnis entwickeln, ist es besser, praktische Anwendungen mit empirischen Methoden zu entwickeln, als nichts zu tun und darauf zu warten, dass Computerlinguisten das Sprachproblem lösen“. Inzwischen aber sind Linguisten eine aussterbende Spezies und statistische Modelle haben ihre Rolle nahezu vollständig übernommen.
Für den bekannten Computerlinguisten und Kognitionswissenschaftler Noam Chomsky ist der Versuch, aus der reinen, statistischen Verarbeitung von Rohtexten eine Bedeutung zu erschließen, ein vergebliches Unterfangen. Er argumentierte damit, dass die natürliche Sprache am Ende Symbole sind, die wir verwenden, um unsere Gedanken auszudrücken. Damit enthält die natürliche Sprache unendlich viele unterschiedliche Symbole, da die Gedanken, die wir ausdrücken können, ebenfalls unendlich sind. Die Kritiker bezeichnen die statistischen Verfahren zum Sprachverstehen deshalb gerne als „Versuch, die Unendlichkeit in einer Flasche einzufangen”. Die große Kluft zwischen Schlagzeilen und tatsächlichen Fortschritten in der Sprachtechnologie ist auch ein Ergebnis unzureichender Benchmarks. Die bestehenden Benchmarks sind sehr gut geeignet, um den Fortschritt im Bereich NLP und Textanalyse (Suche, Textclustering, Textkategorisierung, Textähnlichkeit usw.) zu bewerten. Gerade in den letzten Jahren wurden hier wirklich unglaubliche Fortschritte erzielt. Doch diese Benchmarks sind völlig ungeeignet, wenn es darum geht, den Fortschritt bei der Entwicklung von Systemen zu messen, die gewöhnliche und alltägliche gesprochene Sprache „wirklich“ verstehen. Es fehlt ein Aspekt, der in unserer Alltagskommunikation nicht explizit genannt wird, sondern immer implizit vorausgesetzt wird: der gesunde Menschenverstand. Hier einige Beispiele:
- Sara hat das Buch/den Film/das Sandwich genossen: Bedeutet, dass es Sara gefallen hat, das Buch zu lesen/den Film zu sehen/ das Sandwich zu essen.
- Das ZDF hat einen Reporter in jedem asiatischen Land: Bedeutet nicht, dass das ZDF nur einen Reporter hat, sondern dass in jedem asiatischen Land das ZDF einen Reporter hat.
- Das Weiße Haus hat eine deutliche Erklärung gegen die russischen Atomtests abgegeben: Bedeutet nicht, dass das Gebäude des Weißen Hauses, sondern die im Weißen Haus arbeitende Regierung, also Menschen, eine Erklärung abgegeben haben.
Dies sind einfache Beispiele für sehr subtile, aber komplizierte Schlussfolgerungen, die wir mit unserem gesunden Menschenverstand ziehen, wenn wir unsere gesprochene Alltagssprache „verstehen”. Selbst ein Fünfjähriger kann diese komplizierten Schlussfolgerungen ziehen. Solange wir nicht über Systeme verfügen, die diese Fähigkeit aufweisen, sollten wir bei unseren Behauptungen über gigantische Fortschritte bei einer der schwierigsten Herausforderungen in der KI vielleicht etwas vorsichtiger sein: das vollständige Verständnis der menschlichen Kommunikation durch Maschinen. Die Unendlichkeit passt nun einmal nicht in eine Flasche … und sei diese auch noch so groß!