Das Wissensportal für IT-Professionals. Entdecke die Tiefe und Breite unseres IT-Contents in exklusiven Themenchannels und Magazinmarken.

heise conferences gmbh

(vormals SIGS DATACOM GmbH)

Lindlaustraße 2c, 53842 Troisdorf

Tel: +49 (0)511/5352-100

service-sigs@heise.de

Testen im Zeitalter der LLMs: ein probabilistischer Ansatz gegen flakige Tests

Deterministische Assertions treffen auf nichtdeterministische Realität – und CI wird zum Würfelspiel: API-Latenz, Netzfehler, LLM-Variabilität. PUnit macht aus Unit-Tests statistische Prüfungen: Statt „ein Output ist korrekt“ wird geprüft, ob die Pass-Rate eine Mindestqualität mit definierter Konfidenz erreicht. Ergebnis: entscheidungsfähige Tests für stochastische Systeme – also „grün“ wird wieder vertrauenswürdig.

Sobald Sie ein Large Language Model (LLM) in den Kontrollfluss Ihrer Anwendung integrieren, rufen Sie keine deterministische Funktion mehr auf – Sie ziehen Stichproben aus einem Modell. Das Modell kann in den meisten Fällen korrekt sein und dennoch gelegentlich fehlerhaften Output liefern: mal formal ungültig, mal semantisch daneben oder zwar schema-konform, aber für Ihre Anwendung nicht sicher brauchbar.

Ein konkretes Beispiel: Ein Assistent soll eine Kundenanfrage in einen Befehl übersetzen, d…