Roberto, was denkst du über den Hype, der zurzeit um KI generell und um Gen AI im Besonderen herrscht?
Roberto Zicari: Es ist mehr als ein Hype. KI ist Realität und dringt in immer mehr Bereiche vor. Diese Technologien erzeugen ein hohes Maß an politischem Interesse. Es gibt Vorschläge zur Selbstregulierung in USA und in China. Europa wagt als erste Wirtschaftsregion mit dem AI-Act einen Regulierungsversuch.
Dann kam ChatGPT und warf eigentlich alles über den Haufen. Bis dahin versuchten nur Experten und einige wenige "normale" Leute, das Thema KI und die Technologie zu verstehen. Und dann konnte man plötzlich ChatGPT Fragen stellen, Schüler und Studenten ließen sich Hausaufgaben und Seminararbeiten von der Gen AI schreiben und kamen anfangs damit durch. Marketingleute ließen sich Werbung texten, Fotos und Videos generieren. Entwickler ließen sich Programmcode erzeugen. Kurz, ChatGPT machte KI plötzlich zu einer Commodity, die für sehr viele Leute verfügbar ist. Dabei wissen sie nicht, wie es funktioniert, aber sie nutzen es, weil es offenbar für sie funktioniert.
Beeinflussen der Siegeszug von ChatGPT und das Aufkommen anderer Large Language Models (LLM) auch die Regulierung auf der europäischen Ebene?
Meines Wissens nach schon. Sie verhandeln noch und versuchen dabei, die Veränderungen zu berücksichtigen, die die LLM verursachen.
Und wie steht es mit den Menschen. Bewerten sie KI seit ChatGPT anders?
Seit ChatGPT für solche Furore gesorgt hat, gibt es eine Menge widersprüchliche Informationen. Darauf reagieren die Leute, es gibt jetzt neben dem Enthusiasmus auch deutlich mehr Ängste.
"In vielen Bereichen werden von der KI gravierende Entscheidungen getroffen"
Welche Risiken siehst du in Sachen KI?
Stell dir vor, du bist als Patient im Krankenhaus und musst einen MRT-Scan über dich ergehen lassen oder sie nehmen dir Blut ab, um deine Blutwerte zu messen. Bei der Auswertung hilft eine KI und auf Basis ihrer Prognose teilt dir der behandelnde Arzt mit, dass du mit 70 bis 80 Prozent Wahrscheinlichkeit innerhalb der nächsten 12 Monate mit einer ernsthaften Erkrankung rechnen musst. Er sagt dir natürlich auch die Bezeichnung der Krankheit, klärt dich über die Symptome und möglichen Verläufe auf usw. Dabei ist aber für dich und wahrscheinlich auch für den Arzt nicht transparent, wie genau die KI zu ihrer Prognose kommt. Du weißt garantiert nicht, ob die KI richtig liegt, und auch die Ärzte wissen das nicht. Wenn die Prognose nicht korrekt ist, besteht ein Risiko für ernsthaften Schaden. Im medizinischen Umfeld ist das besonders gravierend, weil es um Leben und Tod gehen kann. Aber auch in vielen anderen Lebens- und Wirtschaftsbereichen werden gravierende Entscheidungen getroffen.
Deshalb heißt es ja überall, dass die KI nicht entscheiden, sondern nur bei der Entscheidung unterstützen soll.
Aber trotzdem beeinflusst die KI die Entscheidung gravierend. Schauen wir noch einmal auf das Arztbeispiel. Selbst wenn der Arzt oder sogar ein zweiter Spezialist, den du zurate ziehst, den Schluss der KI nicht teilt, ist die Prognose in der Welt und sie beeinflusst alle Beteiligten: die behandelnden Ärzte und natürlich dich auch. Dieser Einfluss ist fast unabhängig davon, ob das Ergebnis richtig ist oder falsch. Deshalb ist es so wichtig, dass wir einer KI vertrauen können. Es ist aber enorm schwierig, etwas zu vertrauen, das wir weder vollständig erklären können noch genau verstehen.
"Vertrauen ist ein komplexer Begriff"
Deshalb hast du die Initiative "Z-Inspection" ins Leben gerufen, die einen Prozess entwickelt hat, an dessen Ende die Beteiligten erkennen können, ob eine KI vertrauenswürdig ist oder nicht. Wie funktioniert dieser Prozess?
Als sich die EU 2018 ernsthaft mit dem Thema KI auseinanderzusetzen begann, ging es auf der einen Seite um die technischen Anforderungen wie Robustheit und Exaktheit, auf der anderen Seite stand auch die Frage, ob und wie man Entwicklung und Nutzung von KI rechtlich regeln kann. Für diese beiden Fragen spielen der Aspekt "Vertrauenswürdigkeit" der KI und ethische Fragen eine Rolle.
Vertrauen ist ein komplexer Begriff. Er geht über legale und technische Fragen hinaus. Vertrauen entsteht schließlich durch positive Erfahrungen mit einem Vorgehen oder einer Person. Wenn eine Person zum Beispiel stets ihre Zusagen einhält, vertrauen wir ihr nach einer bestimmten Zeit, wenn sie uns eine Zusage gibt. Aber wie können wir KI-Modellen vertrauen, die die meisten von uns nicht verstehen, die es erst seit kurzer Zeit gibt und deren genaue Vorgehensweise wir meistens nicht kennen.
Zu der Frage der Vertrauenswürdigkeit gab es relativ schnell Kriterienkataloge und Guidelines. Die machten auf dem Papier auch einen sinnvollen, logischen und nachvollziehbaren Eindruck, aber die Frage, ob sie auch praktisch anwendbar sind, hatte niemand beantwortet. Kommen wir noch einmal auf das Beispiel aus dem Gesundheitswesen zurück. Der Radiologieabteilung eines großen Krankenhauses wird eine KI angeboten, die Lungenerkrankungen in Folge von COVID diagnostizieren kann. Wie kann die Leiterin der Abteilung ohne eigene KI-Expertise klären, ob es sinnvoll und ethisch okay ist, diese KI einzusetzen? Im Grunde läuft es darauf hinaus, dass sie ihrem "Bauchgefühl" vertraut oder den Angaben des Herstellers. Beides ist nicht ausreichend. Andererseits sind Guidelines, zum Beispiel die von der EU-Kommission, zu allgemein formuliert, als dass sie in der Praxis wirklich konkrete Orientierung geben. Auch Checklisten helfen häufig nicht weiter, weil sie meistens nicht zu den konkreten Use Cases passen. Deshalb geht Z-Inspection immer vom konkreten Use Case aus.
Kannst du uns ein Beispiel geben?
Einen unserer ersten Use Cases haben wir mit der Stadt Kopenhagen zusammen gemacht. Dabei ging es darum, ob eine KI bei Anrufen an die Notfallnummer 112 im Gesprächsverlauf zwischen Anrufendem und dem den Anruf annehmenden Notfallsanitäter in der Leitzentrale erkennen kann, ob sich bei bewusstlos gemeldeten Patienten ein Herzstillstand ereignet hat. Mit der KI wollte man das Problem lösen oder zumindest mindern, dass 45 Prozent der Patienten mit Herzstillstand sterben, bevor der Rettungswagen eintrifft. Wenn der Notfallsanitäter in der Leitstelle dagegen mithilfe der KI zuverlässiger erkennen kann, dass bei dem gemeldeten bewusstlosen Patienten ein Herzstillstand eingetreten ist, kann er den Anrufer bitten, eine Herzdruckmassage einzuleiten, und ihm dabei helfen, diese korrekt durchzuführen. Dazu muss man wissen, dass die Notfallsanitäter für ihre Aktivitäten gegenüber dem Patienten haftbar gemacht werden können. Wenn sie also falsche Maßnahmen einleiten, die dem Patienten schaden, können sie verklagt werden. Deshalb werden die Notfallanrufe aufgezeichnet und gespeichert.
Diese Aufzeichnungen wurden nun verwendet, um die KI zu trainieren. Die Ergebnisse waren zunächst ermutigend. Bei den Aufzeichnungen erkannte die KI mit hoher Zuverlässigkeit die Fälle, in denen ein Herzstillstand vorlag. Allerdings verhielt es sich bei den Live-Tests ganz anders. Bei einer Reihe von Notfallanrufen hörte die KI live mit und gab dem jeweiligen Notfallsanitäter ein optisches Signal, wenn sie zu dem Schluss kam, dass es sich mit einer hohen Wahrscheinlichkeit um einen Herzstillstand handelte. Gleichzeitig wurden die Ergebnisse einer Kontrollgruppe von Notfallsanitätern festgehalten, die keine KI-Unterstützung hatten. Resultat: Die Notfallsanitäter mit KI-Unterstützung waren in der Erkennung von Herzstillständen nicht genauer als die, die ohne KI-Hilfe auskommen mussten.
Die Frage ist nun, wie hat sich die Leitung der Notfallzentrale entschieden – für den Einsatz der KI oder dagegen? Übrigens, dabei handelt es sich um ein kommerziell organisiertes Unternehmen, das diesen Service für die Stadt Kopenhagen erbringt. Wie würdest du entscheiden?
"Wir nutzen die soziotechnische Szenariomethode"
Ich würde gegen den Einsatz entscheiden. Schließlich kostet das neue System Geld und bringt keine Verbesserung. Und was haben die Verantwortlichen getan?
Die Krankenhäuser, die den 112-Notdienst managen, hatten sich damals zunächst für den Einsatz der KI entschieden. Darauf kontaktierten uns Ärzte aus dem Team, die bereits von unserem partizipativen Prozess gehört hatten. Wir setzten den Prozess für diesen Use Case auf, für den wir die in Fachkreisen anerkannte soziotechnische Szenariomethode nutzen (socio-technical szenario). Im Prinzip geht es dabei darum, Technologie-Innovationen auf ihre Interaktionen und Auswirkungen in Bezug auf die Umgebung (Organisation, Menschen, Arbeitsplatz, Umwelt) zu untersuchen. Dafür setzen wir Fachleute aus verschiedenen Bereichen wie Technologie, Recht, angewandte Ethik, Organisation usw. ein, die versuchen, Fragen nach den Auswirkungen der Technologie auf ihren jeweiligen Bereich zu beantworten.
Im Fall der "Notfall-KI" stellte sich während der Untersuchung heraus, dass die KI nur gut funktioniert, wenn Anrufer und Angerufener gutes Dänisch sprechen. Das erklärte auch den Performance-Verlust bei den Live-Gesprächen. Während für die Trainingsdaten in erster Linie gut verständliche, auf Dänisch geführte Notfallmeldungen herangezogen wurden, kamen bei den Live-Daten auch viele Meldungen vor, bei denen schwer verständlich gesprochen wurde, weil die Leute keine Muttersprachler waren usw. Das wäre bei einer Untersuchung, die nach vorgefertigten Checklisten vorgegangen wäre, niemals herausgekommen.
Aber dieser Prozess ist doch extrem aufwendig und kann nicht überall angewendet werden.
Das kann man sicher nur machen, wenn das Risiko hoch ist, das war es in diesem Fall. Aber in solchen Bereichen darf man KI nicht nur nach einem eingeschränkten Regelsatz untersuchen. Das wäre ungefähr so, als wenn du bei der Prüfung eines Autos ausschließlich den Motor untersuchst.
Professor Roberto V. Zicari
Roberto V. Zicari ist Professor an der Yrkeshögskolan Arcada, Helsinki, Finnland, und Adjunct Professor an der Seoul National University, Südkorea. Er leitet ein Team internationaler Experten, die einen Bewertungsprozess für vertrauenswürdige KI entwickelt haben, genannt Z-Inspection. Zuvor war er Professor für Datenbankund Informationssysteme (DBIS) an der Goethe-Universität Frankfurt, wo er das Frankfurt Big Data Lab gründete. Er ist ein international anerkannter Datenbank- und Big-Data-Experte. Er ist außerdem Herausgeber des Webportals https://www.odbms.org/ und des ODBMS Industry Watch Blog. Er war mehrere Jahre lang Gastprofessor am Center for Entrepreneurship and Technology im Fachbereich Wirtschaftsingenieurwesen und Operations Research der UC Berkeley (USA).
Brauchen wir, wenn es darum geht, KI sowohl im Business als auch im Privatbereich vielfältig einzusetzen, nicht Prüfverfahren, die einfacher funktionieren und nicht so aufwendig sind? Solche, die sich eventuell auch automatisieren lassen?
Eine KI ist kein DIN A/4-Blatt. Wir dürfen mit den Kriterien für KI nicht umgehen, wie wir bei der Normung von Industrie oder Konsumgütern vorgehen. Die Definition von Kriterien für eine "gute" KI muss anders funktionieren als die Normung eines Blattes Papier zum DIN-A4-Format. Ein DIN A4 ist ein DIN A4, aber KI lässt sich so nicht standardisieren. Das würde nur dann funktionieren, wenn wir KI auf die technischen Komponenten reduzieren würden. Aber Begriffe wie Fairness, Wohlbefinden, Vorurteilsfreiheit, die sämtlich als Kriterien für die Bewertung von vertrauenswürdiger KI herangezogen werden, taugen nicht zur industriellen Standardisierung. KI und Gen AI beginnen, intellektuelle Prozesse, wie Entscheidungen treffen, Texte schreiben, programmieren, ja sogar Musik zu komponieren, zu fotografieren und vieles andere mehr, maschinell reproduzierbar zu machen. Da können wir doch nicht ernsthaft die Regeln des Industriezeitalters des 19. Jahrhunderts anlegen, um sie zu bewerten.
Also, was tun?
Die Selbstregulierung der KI-Anbieter, wie sie in USA vorgeschlagen wurde und die jetzt auch von Frankreich, Deutschland und Italien in die Diskussion um den AI Act der Europäischen Union eingebracht worden ist, funktioniert auf gar keinen Fall. Dafür ist der Interessenkonflikt der Anbieter viel zu groß. Sie sind in erster Linie ihren Investoren verpflichtet, die sehr viele Milliarden Dollar in die Entwicklung von KI und Gen AI gesteckt haben. Deshalb werden sie sich nicht ernsthaft verpflichten, die Entwicklung bestimmter KIs nicht zu betreiben. Genauso wie es unabhängige Zertifizierer zum Beispiel für die Wasserqualität oder die Sicherheit von Straßen oder Schienennetzen gibt, muss es auch eine unabhängige Regulierung von KI geben. Alles andere würde in der Praxis nicht funktionieren.
Der Ansatz der EU im AI Act, KIs in Risikoklassen aufzugliedern, ist dagegen vielversprechend. Ich würde noch hinzufügen: Je höher das Risiko eingestuft wird, desto genauer sollte die Untersuchung der KI sein.
Das Interview führte Christoph Witte