Studie zeigt: Wie zuverlässig sind KI-Modelle wirklich?
Nicht nur die Forschung, sondern auch Unternehmen, Behörden und Anwender:innen stellen sich eine zentrale Frage:
Wie zuverlässig und leistungsfähig sind große Sprachmodelle (Large Language Models, LLMs) bei der Beantwortung komplexer Fragen?
Die Unsicherheit über ihre Konsistenz, mögliche Halluzinationen und Schwankungen in der Qualität hält viele davon ab, generative KI breiter einzusetzen. Unser Blogartikel behandelt, wie konstant KI-Modelle antworten, wie sich verschiedene Frageformulierungen auf die Ergebnisse auswirken und wie sich ihre Leistung messen lässt. Dabei kommen spannende, aber auch überraschende Erkenntnisse zutage. Hier sind die wichtigsten Ergebnisse in verständlicher Sprache:
1. KI gibt nicht immer konsistente Antworten
Viele Menschen gehen davon aus, dass KI-Modelle auf eine Frage immer die gleiche (richtige) Antwort geben. Das ist aber nicht der Fall. Eine Studie der Pennsylvania University hat gezeigt, dass selbst bei hochentwickelten Modellen wie GPT-4o oder GPT-4.5 die Antworten stark schwanken können – selbst wenn exakt dieselbe Frage mehrfach gestellt wird. Das bedeutet: Man kann sich nicht blind darauf verlassen, dass ein Modell in jeder Situation korrekt antwortet.
2. Wie man die Leistung misst, macht einen großen Unterschied
Es gibt keine einheitliche Methode, um zu bestimmen, ob ein Modell »gut« oder »schlecht« ist. Je nach Messmethode kann ein Modell beim selben Test mal als erfolgreich, mal als weniger leistungsfähig eingestuft werden. Das liegt daran, dass es verschiedene Kriterien gibt, um Antworten zu bewerten:
- Soll das Modell in 100 % der Fälle richtig liegen?
Sehr strenger Standard. - Reicht es, wenn 90 % der Antworten korrekt sind?
Realistischer für viele Anwendungen. - Oder genügt es, wenn das Modell öfter richtig als falsch liegt?
51% korrekt wäre dann ausreichend.
Diese unterschiedlichen Maßstäbe führen dazu, dass manche Bewertungen die tatsächliche Qualität eines KI-Modells über- oder unterschätzen.
3. Höflichkeit hilft – manchmal
In der Studie wurde untersucht, ob sich die Art und Weise, wie eine Frage gestellt wird, auf die Qualität der Antwort auswirkt.
Überraschenderweise zeigte sich: Manchmal führt eine höflich formulierte Frage zu besseren Antworten (»Bitte beantworte diese Frage«), manchmal aber auch nicht. Genauso verhält es sich mit sehr direkten Anweisungen wie »Ich befehle dir, diese Frage zu beantworten«. Es gibt also keine allgemeingültige Regel, nach der bestimmte Formulierungen immer bessere Ergebnisse liefern.
4. Formatierung ist wichtig
Ein unerwartetes Ergebnis war, dass die Art, wie eine Frage strukturiert ist, einen messbaren Einfluss auf die Qualität der Antwort hat.
Wenn dem Modell beispielsweise klar gesagt wird, in welchem Format es antworten soll (»Die richtige Antwort ist: [Antwort]«), dann sind die Antworten häufiger korrekt. Fehlt diese Anweisung, leidet die Genauigkeit. Das zeigt, dass KI-Modelle stark davon abhängen, wie sie instruiert werden.
5. Viele Tests sind nötig, um ein klares Bild zu bekommen
Oft werden KI-Modelle nur mit wenigen Fragen getestet, bevor eine Bewertung abgegeben wird. Diese Studie hat gezeigt, dass das zu irreführenden Ergebnissen führen kann. Erst durch hunderte Wiederholungen wurde sichtbar, wie stark die Leistung schwankt und welche Methoden wirklich sinnvoll sind, um ein Modell zu bewerten. Das bedeutet: Wer sich ein klares Bild über die Qualität einer KI machen will, sollte viele Testläufe durchführen – nicht nur einen.
6. Unter welchen Bedingungen wurde getestet?
Die Studie wurde mit zwei KI-Modellen durchgeführt: GPT-4o und GPT-4o mini, zwei der populärsten LLMs zum Zeitpunkt der Untersuchung. Dabei wurde ein wissenschaftliches Benchmarking-Set namens GPQA Diamond genutzt, das aus besonders schwierigen Fragen in den Bereichen Biologie, Physik und Chemie besteht.
Die Tests wurden unter kontrollierten Bedingungen durchgeführt:
- Jede Frage wurde 100-mal gestellt, um die Konsistenz der Antworten zu überprüfen.
- Verschiedene Frageformulierungen wurden getestet, darunter höfliche, neutrale und befehlende Anweisungen.
- Unterschiedliche Bewertungsmethoden wurden verwendet, um zu sehen, wie stark die Ergebnisse je nach Bewertung schwanken.
7. Gilt das auch für allgemeine Chatbots wie ChatGPT oder Claude?
Ja und nein. Die Erkenntnisse aus dieser Studie sind besonders relevant für Situationen, in denen KI systematisch und wiederholt getestet wird, beispielsweise bei der Entwicklung oder Optimierung von eigenen KI-gestützten Systemen. Das betrifft also insbesondere das Prompt Engineering für selbsttrainierte oder spezifisch konfigurierte KI-Modelle.
Für Alltagsanwendungen von Chatbots wie ChatGPT oder Claude bedeuten die Ergebnisse vor allem, dass:
- Antworten von Chatbots nicht immer konsistent sind – bei wiederholtem Fragen kann es zu Abweichungen kommen.
- Die Art der Fragestellung eine Rolle spielt, aber nicht in jedem Fall vorhersehbare Auswirkungen hat.
- Standardisierte Formate helfen können, um bessere Antworten zu bekommen.
- Mehrfaches Nachfragen oft sinnvoll ist, um eine zuverlässigere Antwort zu erhalten.
Fazit: Was bedeutet das für den Alltag?
Diese Ergebnisse haben direkte Auswirkungen auf die Nutzung von KI in der Praxis. Wer ein Sprachmodell nutzt, sollte sich bewusst sein:
- KI gibt nicht immer zuverlässige oder gleichbleibend richtige Antworten.
- Die Art der Fragestellung kann die Antwort beeinflussen – aber nicht immer vorhersehbar.
- Standardisierte Formate helfen, bessere Antworten zu bekommen.
- Eine einzige Antwort ist nicht immer aussagekräftig – es lohnt sich, mehrfach nachzufragen.
Wer sich auf KI verlässt, sollte also immer mitdenken und nicht blind vertrauen. Diese Studie zeigt eindrucksvoll, dass Künstliche Intelligenz nicht perfekt ist – aber mit der richtigen Herangehensweise trotzdem wertvolle Unterstützung bieten kann.
Quelle: Ethan Mollick, University of Pennsylvania
Sie wollen noch näher am KI Universum sein?
Dann ist unser hey-i Newsletter genau das Richtige für Sie!
Wir geben kuratierten Input, teilen unser Insiderwissen und zeigen die neuesten Anwendungen und die wirklich relevanten Prompts & Tools.