BlogNews

Studie zeigt: Wie zu­ver­lässig sind KI-Modelle wirklich?

Nicht nur die Forschung, sondern auch Un­ter­neh­men, Be­hör­den und Anwender:innen stellen sich eine zentrale Frage:

Wie zu­ver­läs­sig und leis­tungs­fähig sind große Sprach­mo­delle (Large Language Models, LLMs) bei der Beantwortung komplexer Fragen?

Die Unsicherheit über ihre Konsistenz, mög­liche Hallu­zi­na­tionen und Schwan­kungen in der Qua­li­tät hält viele davon ab, generative KI breiter ein­zu­setzen. Unser Blo­gar­ti­kel be­handelt, wie kon­stant KI-Mo­delle ant­worten, wie sich ver­schie­dene Frage­for­mu­lie­rungen auf die Ergeb­nisse aus­wirken und wie sich ihre Leis­tung mes­sen lässt. Dabei kom­men span­nende, aber auch über­raschend­e Er­kennt­nisse zutage. Hier sind die wich­tigs­ten Ergeb­nisse in verständ­li­cher Spra­che:

1. KI gibt nicht immer konsistente Antworten
Viele Menschen gehen davon aus, dass KI-Modelle auf eine Frage immer die gleiche (richtige) Antwort geben. Das ist aber nicht der Fall. Eine Studie der Penn­syl­vania Uni­ver­sity hat ge­zeigt, dass selbst bei hoch­ent­wickel­ten Mo­dellen wie GPT-4o oder GPT-4.5 die Ant­wor­ten stark schwan­ken können – selbst wenn exakt die­selbe Frage mehr­fach gestellt wird. Das bedeutet: Man kann sich nicht blind da­rauf ver­las­sen, dass ein Modell in jeder Si­tu­ation kor­rekt antwortet.

2. Wie man die Leistung misst, macht einen großen Unterschied
Es gibt keine einheitliche Methode, um zu be­stim­men, ob ein Modell »gut« oder »schlecht« ist. Je nach Messmethode kann ein Modell beim selben Test mal als erfolgreich, mal als weniger leis­tungs­fä­hig ein­ge­stuft werden. Das liegt daran, dass es ver­schie­dene Kri­te­rien gibt, um Antworten zu bewerten:

  • Soll das Modell in 100 % der Fälle richtig liegen?
    Sehr strenger Standard.
  • Reicht es, wenn 90 % der Antworten korrekt sind?
    Realistischer für viele An­wen­dungen.
  • Oder genügt es, wenn das Modell öfter richtig als falsch liegt?
    51% korrekt wäre dann aus­reichend.

Diese unterschiedlichen Maßstäbe führen dazu, dass manche Be­wer­tungen die tat­säch­li­che Quali­tät eines KI-Modells über- oder unter­schätzen.

3. Höflichkeit hilft – manchmal
In der Studie wurde untersucht, ob sich die Art und Weise, wie eine Frage gestellt wird, auf die Qualität der Antwort auswirkt.
Überraschenderweise zeigte sich: Manchmal führt eine höflich formulierte Frage zu bes­seren Antworten (»Bitte beantworte diese Frage«), manch­mal aber auch nicht. Genauso verhält es sich mit sehr direk­ten An­wei­sungen wie »Ich befehle dir, diese Frage zu be­ant­wor­ten«. Es gibt also keine allge­mein­gül­tige Regel, nach der bes­timmte For­mu­lie­rungen immer bes­sere Ergeb­nisse liefern.

4. Formatierung ist wichtig
Ein unerwartetes Ergebnis war, dass die Art, wie eine Frage struk­tu­riert ist, einen mess­ba­ren Ein­fluss auf die Quali­tät der Antwort hat.
Wenn dem Modell beispiels­weise klar gesagt wird, in welchem For­mat es ant­worten soll (»Die rich­tige Ant­wort ist: [Antwort]«), dann sind die Ant­worten häufi­ger korrekt. Fehlt diese An­wei­sung, leidet die Ge­nauig­keit. Das zeigt, dass KI-Mo­delle stark davon ab­hän­gen, wie sie in­stru­iert werden.

5. Viele Tests sind nötig, um ein klares Bild zu bekommen
Oft werden KI-Modelle nur mit wenigen Fragen getestet, bevor eine Bewertung abgegeben wird. Diese Studie hat gezeigt, dass das zu irre­füh­renden Ergeb­nissen führen kann. Erst durch hun­derte Wie­der­hol­ungen wurde sicht­bar, wie stark die Leis­tung schwankt und welche Metho­den wirklich sinn­voll sind, um ein Mo­dell zu be­werten. Das be­deutet: Wer sich ein kla­res Bild über die Qua­li­tät einer KI machen will, sollte viele Test­läufe durch­führen – nicht nur einen.

6. Unter welchen Bedingungen wurde getestet?
Die Studie wurde mit zwei KI-Modellen durch­ge­führt: GPT-4o und GPT-4o mini, zwei der po­pu­lärs­ten LLMs zum Zeit­punkt der Un­ter­suchung. Dabei wurde ein wissen­schaft­liches Bench­mar­king-Set namens GPQA Diamond genutzt, das aus be­son­ders schwie­rigen Fragen in den Be­rei­chen Bio­logie, Physik und Che­mie besteht.
Die Tests wurden unter kon­trol­lierten Be­dingungen durch­geführt:

  • Jede Frage wurde 100-mal gestellt, um die Konsistenz der Antworten zu überprüfen.
  • Verschiedene Frage­for­mu­lie­rungen wurden getestet, darunter höfliche, neutrale und befehlende An­wei­sungen.
  • Unterschiedliche Be­wer­tungs­me­thoden wurden ver­wendet, um zu sehen, wie stark die Er­geb­nisse je nach Be­wertung schwanken.

7. Gilt das auch für allgemeine Chatbots wie ChatGPT oder Claude?
Ja und nein. Die Erkenntnisse aus dieser Studie sind be­son­ders rele­vant für Situ­atio­nen, in denen KI sys­te­matisch und wieder­holt ge­testet wird, bei­spiels­weise bei der Ent­wick­lung oder Opti­mie­rung von eigenen KI-gestützten Sys­temen. Das betrifft also ins­be­son­dere das Prompt Engi­nee­ring für selbst­trai­nierte oder spezif­isch konfi­gu­rierte KI-Modelle.
Für Alltagsanwendungen von Chatbots wie ChatGPT oder Claude bedeuten die Ergebnisse vor allem, dass:

  • Antworten von Chatbots nicht immer konsistent sind – bei wiederholtem Fragen kann es zu Abweichungen kommen.
  • Die Art der Fragestellung eine Rolle spielt, aber nicht in jedem Fall vorhersehbare Auswirkungen hat.
  • Standardisierte Formate helfen können, um bessere Antworten zu be­kom­men.
  • Mehrfaches Nachfragen oft sinnvoll ist, um eine zuverlässigere Antwort zu erhalten.

Fazit: Was bedeutet das für den Alltag?
Diese Ergebnisse haben direkte Aus­wir­kungen auf die Nut­zung von KI in der Praxis. Wer ein Sprach­mo­dell nutzt, sollte sich bewusst sein:

  • KI gibt nicht immer zuver­läs­sige oder gleich­blei­bend richtige Ant­worten.
  • Die Art der Frage­stel­lung kann die Ant­wort be­ein­flussen – aber nicht immer vor­her­seh­bar.
  • Standardisierte Formate helfen, bessere Ant­wor­ten zu be­kommen.
  • Eine einzige Antwort ist nicht immer aus­sage­kräftig – es lohnt sich, mehr­fach nach­zu­fragen.

Wer sich auf KI verlässt, sollte also immer mit­denken und nicht blind ver­trauen. Diese Studie zeigt ein­drucks­voll, dass Künst­liche Intelli­genz nicht per­fekt ist – aber mit der richtigen Heran­ge­hens­weise trotzd­em wert­volle Unter­stüt­zung bieten kann.

Quelle: Ethan Mollick, University of Pennsylvania

Zurück

Sie wollen noch näher am KI Universum sein?
Dann ist unser hey-i Newsletter genau das Richtige für Sie!

Wir geben kuratierten Input, teilen unser Insiderwissen und zeigen die neuesten Anwendungen und die wirklich relevanten Prompts & Tools.

Kostenlos. Inspirierend. Alle 2 Wochen neu.