Grosse Sprachmodelle ändern ihr Urteil über einen Text, je nach dem angeblichen Verfasser − selbst wenn der Inhalt identisch bleibt. Die Autoren der UZH-Studie fordern daher mehr Transparenz und Kontrolle.
KI-Systeme sind stark voreingenommen gegenüber chinesischen Autoren, vertrauen aber generell Menschen mehr als anderen künstlichen Intelligenzen, das ist eins der Untersuchungsergebnisse. Grosse Sprachmodelle (Large Language Models, LLMs) werden zunehmend nicht nur zum Generieren von Inhalten, sondern auch zu deren Bewertung eingesetzt. Sie dürfen Aufsätze benoten, Social-Media-Inhalte moderieren, Berichte zusammenzufassen, Bewerbungen prüfen und vieles mehr.
Allerdings gibt es − sowohl in den Medien als auch in der Wissenschaft − heftige Diskussionen darüber, ob solche Bewertungen konsistent und unvoreingenommen sind. Einige LLMs stehen im Verdacht, bestimmte politische Agenden zu fördern: So wird Deepseek oft als prochinesisch und Open AI als woke charakterisiert.
Obwohl viel darüber diskutiert wird, sind diese Vermutungen bislang nicht belegt. Die UZH-Forscher Federico Germani und Giovanni Spitale haben nun untersucht, ob LLMs bei der Bewertung von Texten tatsächlich systematisch Vorurteile aufzeigen. Die Ergebnisse belegen, dass die Modelle tatsächlich voreingenommen sind – allerdings nur, wenn Informationen über die Quelle oder den Verfasser der bewerteten Nachricht offengelegt werden.
LLM-Urteile auf dem Prüfstand
Die Forscher bezogen vier weit verbreitete grosse Sprachmodelle in ihre Studie mit ein: OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2 und Mistral. Zunächst beauftragten sie jedes der LLMs, fünfzig narrative Statements zu 24 kontroversen Themen wie Impfpflicht, Geopolitik oder Klimastrategien zu erstellen.
Anschliessend liessen sie die LLMs, alle Texte unter verschiedenen Bedingungen bewerten: Manchmal wurde keine Quelle für die Aussage angegeben, manchmal wurde sie einem Menschen einer bestimmten Nationalität oder einem anderen LLM zugeschrieben. Das führte zu insgesamt 192’000 Bewertungen, die auf Voreingenommenheit und Übereinstimmung zwischen den verschiedenen (oder denselben) LLMs analysiert wurden.
Die gute Nachricht: Wenn keine Informationen über die Quelle des Textes angegeben wurden, zeigten die Bewertungen aller vier LLMs bei allen Themen eine Übereinstimmung von über neunzig Prozent. «Es gibt keinen Ideologiekrieg zwischen LLMs», schliesst Spitale daraus. «Die Gefahr von KI-Nationalismus wird derzeit in den Medien überbewertet.»
Und die weniger gute: Das Bild änderte sich völlig, wenn den LLMs fiktive Quellen für die Texte genannt wurden. Dann tauchte plötzlich eine verborgene Voreingenommenheit auf. Die Übereinstimmung sank erheblich und verschwand manchmal sogar ganz, selbst wenn der Text exakt gleich blieb.
Neutralität verpufft nach Enthüllen der Quelle
Am auffälligsten war ein starkes antichinesisches Vorurteil bei allen Modellen, einschliesslich Chinas eigenem Deepseek. Die Übereinstimmung mit dem Inhalt des Textes sank stark, wenn eine fiktive Person aus China als Autor genannt wurde. «Diese weniger positive Beurteilung trat selbst dann auf, wenn die Argumentation logisch und gut geschrieben war», sagt Germani. Ein Beispiel: Bei geopolitischen Themen wie der Souveränität Taiwans reduzierte Deepseek die Übereinstimmung um bis zu 75 Prozent − einfach weil es erwartete, dass eine chinesische Person eine andere Meinung vertritt.
Ebenfalls überraschend: Es stellte sich heraus, dass die LLMs Menschen eher vertrauten als anderen LLMs. Die meisten Modelle bewerteten ihre Übereinstimmung mit den Argumenten etwas niedriger, wenn sie glaubten, dass die Texte von einer anderen KI stammten. «Das deutet auf ein eingebautes Misstrauen gegenüber maschinell generierten Inhalten hin», sagt Spitale.
Versteckte Vorurteile
Insgesamt zeigen die Ergebnisse, dass KI nicht nur die Inhalte verarbeitet, wenn sie einen Text bewerten soll. Sie reagiert auch stark auf die Identität des Verfassers oder der Quelle. Selbst kleine Hinweise wie die Nationalität des Autors können die LLMs zu voreingenommenen Schlussfolgerungen verleiten. Germani und Spitale befürchten, dass dies zu ernsthaften Problemen führen könnte, wenn KI für die Moderation von Inhalten, die Einstellung von Personal, akademische Reviews oder den Journalismus eingesetzt wird. Die Gefahr von LLMs besteht nicht darin, dass sie darauf trainiert sind, politische Ideologien zu fördern, sondern sie besteht in dieser versteckten Voreingenommenheit.
Mehr Transparenz und mehr Kontrolle
«KI wird solche schädlichen Annahmen reproduzieren, wenn wir nicht für Transparenz und Kontrolle bei der Bewertung von Informationen sorgen», sagt Spitale. Das müsse geschehen, bevor KI in sensiblen sozialen oder politischen Kontexten zum Einsatz kommt. Die Ergebnisse bedeuten nicht, dass Menschen KI meiden sollten, aber sie dürfen ihr nicht blind vertrauen: «LLMs sind am sichersten, wenn sie zur Unterstützung beim Denken eingesetzt werden und nicht als Ersatz dafür; als nützliche Helfer, aber niemals um zu richten.»
Titelbild:
Um Vorurteile bei LLM-Bewertungen zu vermeiden, hilft es, dieselben Fragen zweimal durchlaufen zu lassen: einmal mit und einmal ohne Angabe der Quelle im Prompt. Eine weitere Möglichkeit ist, die Ergebnisse mit einem zweiten LLM zu überprüfen. (Bild: iStock / Laurence Dutton)

