Blicken wir zurück auf den Dezember 2022. Nachdem ich in den Medien von ChatGPT erfahren hatte, entschloss ich mich, es auszuprobieren. Ich war sofort begeistert: Endlich ein Chatbot, der wirklich funktionierte! Die Resonanz in den sozialen Medien war enorm. Schnell wurde mir klar, dass ChatGPT mehr als nur ein funktionierender Chatbot war. GPT 3.5 beherrschte mehrere Sprachen, konnte argumentieren, komplexe Aufgaben bewältigen, Code schreiben und vieles andere mehr.
Doch bald kam auch Kritik auf. Beispiele für Voreingenommenheit (engl. „Bias“) und irreführende Aussagen oder "Halluzinationen" verbreiteten sich in den Medien. Auf Plattformen wie Reddit entstand ein regelrechter Wettkampf, um Chat-GPT und seine eingebauten Sicherheitsmechanismen auszutricksen – eine Art kostenloses „Crowd Testing“ oder "Red Teaming“ für OpenAI. Zu Recht wurden Bedenken hinsichtlich der Sicherheit des Einsatzes dieser neuen Technologie geäußert. Es gab sogar Spekulationen, dass wir bald einer unkontrollierbaren künstlichen Macht gegenüberstehen könnten und einen offenen Brief, unterschrieben von namhaften Tech-Experten, der forderte, die Entwicklung von KI für sechs Monate zu pausieren, um den Regulierungsbehörden Zeit zu geben.
Generative KI-Systeme bieten ein enormes Potenzial in vielen Bereichen, besonders in der Softwareentwicklung, die oft nach klaren Strukturen, Regeln und Rahmenbedingungen vorgeht. Viele kennen die Herausforderungen eines neuen Projekts, welches das Durchkämmen umfangreicher Dokumentationen verlangt, oder das manchmal monotone Verfassen von Testfällen, sei es manuell oder automatisiert, sowie der Umgang mit inkonsistenten Anforderungen und das zeitintensive Erstellen von Testfortschrittsberichten. In all diesen Bereichen kann generative KI eine wertvolle Unterstützung bieten.
Nicht nur die LLMs müssen lernen
Jedoch gibt es Einschränkungen. Large Language Models (LLMs) sind noch relativ neu, und ihr professioneller Einsatz in Unternehmen befindet sich noch in den Anfängen. Die erwähnten Probleme wie Halluzinationen und Voreingenommenheit sind reale Herausforderungen. Daher ist es entscheidend, diese Systeme vor ihrem produktiven Einsatz durch metrikgetriebene Evaluierungen und Optimierungen zu verbessern, um die angestrebte Zuverlässigkeit und Qualität zu erreichen.
Diese Evaluierung erfordert nicht nur die Prüfung einzelner Ergebnisse, sondern auch ein statistisches und iteratives Vorgehen. Kleine Änderungen an den Systemkomponenten – den Prompts, mit denen das Modell aufgerufen wird, und den veränderbaren Parametern des Modells selbst – sind notwendig, um die Ergebnisse schrittweise zu verbessern. Eine klare Versionierung der Konfiguration und detailliertes Logging erleichtern diese komplexe Aufgabe. Die Nutzer der generierten Inhalte sollten im Umgang mit KI und deren Limitierungen geschult sein und in die Evaluierungen einbezogen werden. Nicht zuletzt ist es entscheidend, betriebliche Sicherheitsvorkehrungen zu treffen, falls diese nicht schon die Anbieter der LLMs bereitstellen. Abhängig vom jeweiligen Anwendungsfall sind entsprechende Schutzmaßnahmen gegen Missbrauch und schädliche Inhalte zu implementieren. Dazu gehören beispielsweise Filtermechanismen und Überwachungssysteme, die unerwünschte oder gefährliche Inhalte erkennen und blockieren können. Ebenso ist ein effizientes Monitoring zum Nachverfolgen und Beheben von Fehlern und Schwachstellen essenziell. Solche Systeme helfen, die Integrität und Sicherheit der KI-Anwendungen zu gewährleisten, und tragen dazu bei, das Vertrauen der Nutzer in diese Technologien zu stärken.
Bei ersten Pilotversuchen mit Kunden konnten wir wertvolle Erfahrungen sammeln. In enger Zusammenarbeit mit zwei agilen Teams haben wir die Evaluierungskonzepte und betriebsbegleitenden Maßnahmen getestet und verbessert. Die dabei generierten Inhalte wurden jedoch stets von Experten überprüft und nicht direkt im Prozess weiterverwendet. In einer bevorstehenden Phase planen wir, diesen Ansatz kontrolliert auf weitere Teams auszudehnen, akribisch zu evaluieren und weitere Verbesserungen durchzuführen.
Age of Copilots
Eine klare Erkenntnis aus den Erfahrungen des vergangenen Jahres ist, dass wir als Experten im Einsatz von KI am Steuer bleiben – ein Zustand, den wir als "Kollaborative Phase" oder auf Englisch "Age of Copilots" bezeichnen. Momentan nutzen wir KI hauptsächlich zur Unterstützung und gewähren ihr nur begrenzte Autonomie. Dies ähnelt dem Herangehen an neue Mitarbeiter*innen, die wir anfangs unterstützen und deren Arbeitsergebnisse wir überprüfen. Mit zunehmender Erfahrung im Umgang mit KI werden wir besser verstehen, welche Modelle in welchen Bereichen besonders geeignet sind. Anbieter werden ihre Modelle weiterentwickeln und neue Anbieter verbesserte Modelle auf den Markt bringen. Zusätzlich werden immer mehr Tools und Frameworks verfügbar, die es erlauben, KI-Systeme risikoärmer produktiv zu betreiben. Es werden Regulierungen und Initiativen entstehen, die für mehr Transparenz im KI-Einsatz sorgen und bestimmte risikobehaftete Anwendungen einschränken. Das alles wird es uns ermöglichen, unsere Systeme zunehmend autonomer zu betreiben und die Früchte unserer Pionierarbeit zu ernten. Bei Vorträgen und Konferenzen werde ich oft gefragt, wann KI-Systeme so autonom agieren werden, dass das Schreiben von Testfällen nicht mehr erforderlich ist. Eine exakte Antwort ist schwierig, doch haben wir bereits neun verschiedene Anwendungsfälle von KI im Bereich Quality Engineering entwickelt, davon zwei – Requirement Validation und automatisierte Testfallerstellung – bei unseren Kunden im Einsatz.
Ich bin sicher, dass wir bereits in diesem Jahr bedeutende Fortschritte in der Nutzung von textbasierter generativer KI machen werden und diese bei vielen Unternehmen zum Einsatz kommen werden. Damit uns aber nicht langweilig wird, werden wir uns mit multimodalen Modellen – diese können Text, Bild und Ton verstehen – beschäftigen. Hier gibt es eine Fülle neuer Anwendungsfällen, die wir entwickeln, während wir hin und wieder noch selbst Testfälle schreiben.