Development AI

Large Language Models testen mit EVALs – Qualität messbar machen

Large Language Models stellen Tester vor besondere Herausforderung, denn LLMs sind keine klassische Software im herkömmlichen Sinn. Sie liefern keine strikt deterministischen Antworten, sondern generieren Wahrscheinlichkeiten in Textform. Gleicher Input kann unterschiedliche Outputs erzeugen. Antworten können korrekt, teilweise korrekt, stilistisch überzeugend, aber faktisch falsch sein. Genau hier beginnt die Herausforderung für das Testen.

Im klassischen Softwaretest kennen wir das Prinzip: definierter Input, erwarteter Output, eindeutiges Ergebnis. Bei LLMs hingegen ist die Bewertung komplexer. Eine Antwort kann semantisch korrekt sein, aber anders formuliert als erwartet. Sie kann formal richtig erscheinen, aber eine Halluzination enthalten. Zusätzlich verändern sich Modelle kontinuierlich durch Updates, Prompt-Anpassungen oder Fine-Tuning. Die zentrale Challenge lautet daher: Wie können wir die Qualität eines nicht determinist…

IT Spektrum

JavaSPEKTRUM

BI-Spektrum

Übersicht Magazine

Unsere Interviews

Artikelreihen

Large Language Models testen mit EVALs – Qualität messbar machen

Kostenfreien Account erstellen oder einloggen.