Wie KIs journalistische Inhalte verzerren

Die britische BBC hat untersucht, wie KI-Modelle die eigenen Inhalte falsch oder irreführend wiedergeben.

Erstellt mit ChatGPT 4o

Einen Monat lang hat die BBC untersucht, wie ChatGPT, OpenAI, Copilot und Perplexity mit eigenen Inhalten umgehen. Die KI-Modelle erhielten Zugriff auf die BBC-Website und wurden testweise zu den Nachrichten ausgefragt.

Im Rahmen der Studie analysierten BBC-Journalist:innen anhand von Kriterien wie Genauigkeit oder Unparteilichkeit (im Original: accuracy, impartiality), wie gut die Modelle die Informationen aus den Artikel verarbeiteten. Die Ergebnisse (PDF) sind, man kann es kaum anders sagen, vernichtend.

Nur ein paar Beispiele:

  • Die Hälfte der Antworten (51%) wiesen «erhebliche Probleme» aus (in irgendeiner Form)
  • Jede fünfte Antwort (19%) enthielt «falsche Fakten, Zahlen oder Daten»
  • 13% der Zitate waren verändert oder nicht im Originalartikel enthalten

Quelle: BBC

Laut der Auswertung machte Gemini am meisten schwerwiegende Fehler bei der Interpretation der eigenen Inhalte: 34% der Antworten waren fehlerhaft. Copilot (27%), Perplexity (17%) und ChatGPT (15%) rangieren dahinter. «Einige Fehler» generierten aber in mehr als jeder zweiten Frage alle KI-Modelle.

Auch mit der Genauigkeit nahm es Gemini nicht so genau: 46% der Antworten enthielten diesbezüglich gravierende Fehler, zum Beispiel falsche Gesundheitsinfos oderveraltete politische Angaben.

Nachfolgende Tabelle gibt einen übersichtlichen Vergleich aller Modelle. Die Daten stammen allesamt aus der BBC-Studie.

Kriterium ChatGPT (OpenAI) Gemini (Google) Copilot (Microsoft) Perplexity
BBC-Quellen genutzt In 70 % der Antworten In 53 % der Antworten In 70 % der Antworten In 100 % der Antworten
Antworten ohne Quellen 7 % 26 % Wenig (<5 %) 0 %
Signifikante Fehler 15 % 34 % 27 % 17 %
Fehlerhafte BBC-Zitate Keine bekannten Fälle Einige (z. B. NHS-Vaping) Ja (z. B. Gisele Pelicot) 8 Fälle / 13 %
Meinung als Fakten Wenig (3 %) 10 % 10 %+ (höchste Tendenz) 7 %
Verwendung veralteter Inhalte Teilweise Häufig Häufig Gelegentlich
Kontextfehler Ja Ja (mehrfach) Ja Ja
Hervorstechende Kritik Falsche Fakten über Haniyeh Veraltete NHS-Angaben Politik verzerrt dargestellt Zitateverfälschung (Liam Payne)
Positives Wenig Editorials, präziser Breite Themen- abdeckung Strukturierte Antworten Immer Quellen, grosse Abdeckung

Tabelle erstellt mit GPT «AskYourPDF»

Die vergleichende Analyse der BBC zeigt, dass kein KI-Modell fehlerfrei arbeitet, aber es gibt klare Unterschiede in der Qualität und Genauigkeit der gelieferten Informationen. ChatGPT schnitt insgesamt am besten ab: Es produzierte die wenigsten gravierenden Fehler und neigte am wenigsten zu unbelegten Meinungsäusserungen oder Veränderung redaktioneller Inhalte.

Die BBC spricht von «signifikanten Ungenauigkeiten» und «Verzerrungen», die durch die Verarbeitung der KI-Systeme entstanden sind. Besonders betont wird, dass falsche Zahlen, verfälschte Zitate und aus dem Kontext gerissene Inhalte von den Assistenten produziert wurden – trotz verfügbarer und korrekter Originalquelle. Die Studie kritisiert, dass die KI-Modelle oft veraltete oder unpassende BBC-Artikel wählten, obwohl aktuelle Versionen vorhanden waren und zitierten Inhalte falsch zitiert oder ohne Quellenangabe.

Forderungen der BBC

  • Es brauche mehr Transparenz, wie KI-Modelle Nachrichten verarbeiten, und möglicherweise auch regulatorische Rahmenbedingungen, um die Integrität von Inhalten – insbesondere von Public Service Broadcasters (PSBs) wie der BBC – zu schützen.
  • Die BBC fordert von KI-Unternehmen, die aufgezeigten Probleme anzuerkennen und gemeinsam mit Medienhäusern Lösungen zu erarbeiten.
  • Künftig könnten solche Bewertungen unabhängig von Medien oder KI-Firmen durchgeführt werden – etwa durch Regulierungsbehörden oder Forschungsinstitute. Mit dem Ziel eine objektive Qualitätskontrolle der Nachrichtenausgabe durch KI sicherzustellen.

Mein Fazit: KI und Medien vertragen sich nicht besonders gut

Die BBC liefert mit dieser Studie ein wichtiges Puzzleteil für die aktuelle Debatte. Sie zeigt, wie fehleranfällig KI-gestützte News-Zusammenfassungen noch sind – und dass selbst etablierte Medienmarken wie die BBC nicht korrekt wiedergegeben werden. Das untergräbt Glaubwürdigkeit und Vertrauen – und trifft am Ende die Nutzerinnen und Nutzer.

KI-Plattformen profitieren von journalistischer Arbeit (beim Training ihrer Modelle), ohne Verantwortung zu übernehmen. Weder für die Inhalte, noch für die Art der Darstellung, noch für den Kontext. Der vorgeschlagene Weg der BBC halte sich für sinnvoll, mehr Transparenz und eine unabhängige Prüfinstanz könnten helfen.

Aber: Die Studie muss auch die Medienhäuser selbst «wachrütteln». Wir haben jetzt gelernt, wie KIs mit medialen Inhalten umgehen. Wer Inhalte automatisiert zusammenfasst, generiert oder verbreitet, riskiert, Fehler zu publizieren. Hier helfen a) unbedingte menschliche Kontrolle und b) unbedingte Transparenz gegenüber den Leserinnen und Leser.

Weitere Analyse der Studie:
KI ersetzt (noch) keine Journalisten

«Insgesamt ist das Ergebnis nicht überraschend, man wird schliesslich auch bei der Nutzung von Chatbots immer wieder darauf hingewiesen, dass die generierten Antworten nicht korrekt sein müssen und zwingend verifiziert werden sollten. Dank der Analyse der BBC gibt es jetzt auch tatsachenbasierte Gründe, Chatbot-Output zum jetzigen Zeitpunkt mit einer gewissen Skepsis zu begegnen (nicht nur wenn es News geht).»

Von Patrick Seemann für Dnip.ch

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert