Die entscheidende Frage ist, wie wir diese Ergebnisse interpretieren und ob für Menschen gemachte Tests überhaupt geeignet sind, die Fähigkeiten von Sprachmodellen objektiv zu bewerten. Zeigt ein Sprachmodell echte Intelligenz, indem es all diese Tests bestanden hat, oder hat es nur einen statistischen Trick angewendet, der erst durch die unzähligen Trainingsdaten möglich wurde? Wie ein stochastischer Papagei.
Einige Forscher widersprechen hier sehr deutlich. Sie verweisen dabei gerne auf die Emergenz dieser Systeme hin, also die Möglichkeit, neue Fähigkeiten aus sich selbst heraus zu entwickeln. Andere Wissenschaftler halten diese These von der selbstständigen und unkontrollierbaren Weiterentwicklung der Sprachmodelle nur für eine Folge der Vermenschlichung – Anthropomorphisierung –, die mehr durch den Wunsch – oder auch den Bias– der Forscher als durch konkret nachweisbare Fakten getrieben werden. Der Google-Forscher Blake Lemoine behauptete im Jahr 2022, die Google-KI LaMDA hätte ein eigenes Bewusstsein entwickelt und sei inzwischen auf dem geistigen Niveau eines etwa 7- bis 8-jährigen Kindes. Die Behauptung machte weltweit Schlagzeilen, der Informatiker verlor seinen Job bei Google. Aus meiner Sicht völlig zu Recht.
"Sprachmodelle können gut mit menschlicher Sprache umgehen ..."
Interessant ist aber, dass zum Beispiel GPT-4 bei akademischen Tests, die vor 2021 veröffentlicht wurden, 10 von 10 möglichen Punkten erreichte. Bei Tests, die nach 2021 veröffentlicht wurden, erreichte das Modell hingegen 0 von 10 Punkten. Warum? Da das Modell nur Daten enthält, die vor 2021 gesammelt worden sind, ist davon auszugehen, dass es die Antworten auf die Fragen schon aus seinen Trainingsdatensätzen kannte. Doch während man bei Menschen davon ausgeht, dass jemand, der in einem Test gut abschneidet, einen ähnlichen Test ebenfalls mit Bravour besteht, können Sprachmodelle schon nach kleinen Änderungen im Test statt Note Eins eine glatte Sechs erhalten.
"... verstehen aber nichts von der Welt"
Aus der bisherigen Erfahrung zeigt sich: Die Problemstellungen, bei denen Sprachmodelle fast immer schlechte Ergebnisse liefern, sind in der Regel Fragen, die ein Verständnis der tatsächlichen Welt voraussetzen, wie die Grundlagen der Physik, der Logik oder grundlegende soziale Interaktionen. Alles Fragen, die oftmals schon kleine Kinder in der Grundschule korrekt beantworten können. Wer nun mit anekdotischen Beispielen von Logikrätseln argumentiert, die "sein" ChatBot angeblich vorbildlich lösen kann, sollte dann auch nachweisen können, dass genau dieses Rätsel nicht doch in den Trainingsdaten enthalten war. Denn dann ist es genau wie bei uns Menschen: Haben wir den Lösungsweg einmal kapiert, haben wir keinerlei Schwierigkeiten, diese Rätsel auch weitere Male zu lösen. Manchmal bringt uns dies, völlig unverdient, eine Menge Respekt für unsere Fähigkeit, logisch zu denken, ein.
Wie können wir also mit einer Maschine umgehen, die zwar – vielleicht – die Anwaltsprüfung besteht, aber ganz sicher in der Grundschule durchfällt? Sprachmodelle erwecken gerne die Illusion, dass sie über größere Fähigkeiten verfügen, als wirklich vorhanden sind. Das ist ihr Designprinzip – sie können gut mit menschlicher Sprache umgehen, verstehen aber nichts von der Welt. Wir können diese Ursache für Fehler in Sprachmodellen derzeit auch nicht einfach "wegskalieren" oder "wegentwickeln" – und müssen diese daher in potenziellen Anwendungen immer mit einkalkulieren.
Koinzidenz ist eben nicht immer auch Kausalität. Das ist das Kernproblem. Glaube also keine Statistik, die du nicht wirklich verstehst, nutze die Chancen, aber bleibe immer skeptisch – dann ist auch dein Job trotz KI weiter sicher.