Das Wissensportal für IT-Professionals. Entdecke die Tiefe und Breite unseres IT-Contents in exklusiven Themenchannels und Magazinmarken.

heise conferences gmbh

(vormals SIGS DATACOM GmbH)

Lindlaustraße 2c, 53842 Troisdorf

Tel: +49 (0)511/5352-100

service-sigs@heise.de

Large Language Models testen mit EVALs – Qualität messbar machen

Large Language Models stellen Tester vor besondere Herausforderung, denn LLMs sind keine klassische Software im herkömmlichen Sinn. Sie liefern keine strikt deterministischen Antworten, sondern generieren Wahrscheinlichkeiten in Textform. Gleicher Input kann unterschiedliche Outputs erzeugen. Antworten können korrekt, teilweise korrekt, stilistisch überzeugend, aber faktisch falsch sein. Genau hier beginnt die Herausforderung für das Testen.

Im klassischen Softwaretest kennen wir das Prinzip: definierter Input, erwarteter Output, eindeutiges Ergebnis. Bei LLMs hingegen ist die Bewertung komplexer. Eine Antwort kann semantisch korrekt sein, aber anders formuliert als erwartet. Sie kann formal richtig erscheinen, aber eine Halluzination enthalten. Zusätzlich verändern sich Modelle kontinuierlich durch Updates, Prompt-Anpassungen oder Fine-Tuning. Die zentrale Challenge lautet daher: Wie können wir die Qualität eines nicht determinist…