Eine der Stärken von grossen Sprachmodellen wie ChatGPT ist es, lange Dokumente zusammenzufassen. Was aber, wenn die KI plötzlich aus anderen Dateien zitiert? Das ist kürzlich passiert – eine Nachzeichnung.

Ein 58 Seiten starkes Dokument zu einer Mit- und Stockwerkeigentümerversammlung wurde von ChatGPT zuerst zu einem IV-Antrag und dann zu einem Schweizer Zahlungsbefehl der Firma Intrum umgedeutet.
Aber von vorn
Ein Kontakt erzählte mir von zwei Chatverläufen mit ChatGPT. Er wollte ein Dokument seiner Hausverwaltung zusammenfassen lassen, eigentlich eine der leichteren Aufgaben für eine KI. Das Dokument enthielt eine Traktandenliste für die Versammlung und verschiedene Anträge für geplante bauliche Massnahmen. Mein Kontakt fragte nach einer Zusammenfassung und nach Widersprüchen der Anträge.

Im ersten Chatverlauf fantasierte ChatGPT von «unterschiedlichen Anträgen bzw. Eingaben einer Person an verschiedene Stellen (IV-Stelle, Gericht, Rechtsvertretung) und schrieb von Widersprüchen bei «Erwerbstätigkeit und Arbeitsfähigkeit» oder «Wohnsituation und Lebensumstände». Auch auf mehrere, unterschiedliche Nachfragen wich ChatGPT nicht von seinen Informationen ab, sondern blieb beim «IV-Case». Im weiteren Chatverlauf nennt die KI das Verwaltungsgericht, den regionalen Ärztlichen Dienst und die Kesb als handelnde Institutionen. Ausserdem vier Namen, die im Dokument explizit genannt würden. Alles falsch bzw. eben aus einem ganz anderen Dokument.

In einem zweiten Chatverlauf, bei dem dasselbe Dokument hochgeladen worden ist, fand ChatGPT, es handele sich um einen «Zahlungsbefehl gemäss SchKG (Schuldbetreibungs- und Konkursgesetz)». Die Gläubigerin sei Zalando, vertreten durch Intrum, und die Schuldnerin sei wohnhaft in Zürich. Den Namen entfernte ChatGPT.

Auch in diesem Chat wurde die KI auf ihre Fehler aufmerksam gemacht, blieb jedoch bei ihrer Darstellung. Und damit nicht genug: Auf Nachfrage gab ChatGPT Name und Adresse der angeblichen Schuldnerin bekannt. Diese Angaben würden aus dem hochgeladenen Dokument stammen – was aber nachweislich nicht der Fall ist.

Zwei Einzelfälle?
Dokumentiert ist von meinem Kontakt auch noch ein dritter Fall, bei dem eine weitere Datei zu einer amtlichen Betreibung umfantasiert worden ist. Reproduzieren konnte ich allerdings keinen der Fälle. Bei mir hat ChatGPT immer eine korrekte Zusammenfassung geliefert und auch mögliche Widersprüche richtig aufgelistet. Hinzu kommt: Die Adresse der genannten Schuldnerin in der Stadt Zürich existiert weder laut Google Maps noch laut Telefonbuch. Ob es die Person gibt? Laut Linkedin: ja, kann aber auch Zufall sein. Ist die Betreibung tatsächlich passiert? Möglich, aber unklar.
Ein weiterer, öffentlich dokumentierter Fall passierte 2023 bei Samsung: Auch dort führte die Nutzung von ChatGPT zu Datenlecks. Weitere, vergleichbare Fälle, sind mir keine bekannt. Mir selbst ist etwas ähnliches auch noch nie passiert. Handelt es sich deshalb um wenige Einzelfälle? Das ist schwierig zu beurteilen – aber kaum zu glauben.
Ob Einzelfall oder nicht: Was bei ChatGPT passiert ist, dürfte sich um einen schwerwiegenden Verstoss gegen geltende Datenschutzgesetze handeln. ChatGPT selbst sagt, dass «Dokumente oder Inhalte anderer Nutzer unter keinen Umständen in deine Antworten einfliessen» dürften. Passiert ist es trotzdem. Das sei ein «systemseitiger Fehler oder eine fehlerhafte Verknüpfung beim Dokumentenmanagement, was sehr ernst genommen werden» müsse. Im Normalfall sei «jede Sitzung mit ChatGPT ist nutzerspezifisch isoliert», was bedeute, dass «ich keinen Zugriff auf Inhalte aus anderen Nutzersitzungen oder von anderen Benutzern gespeicherte Dokumente habe».
Entsprechend sagt ChatGPT weiter:

Regulierung dringend nötig
Ein solcher Vorfall untergräbt das Vertrauen, dass KI-Tools datenisoliert und vertraulich arbeiten. Er zeigt, dass dringend davon abzuraten ist, vertrauliche Personendaten bei KI-Modellen wie ChatGPT hochzuladen – denn diese können, wie die beschriebenen Fälle zeigen, in Antworten anderer Nutzerinnen und Nutzern auftauchen.
Solche Risiken machen deutlich: Eine wirksame Regulierung der grossen US-Techplattformen ist dringlicher denn je. Und was alle User von ChatGPT und anderen KI-Modellen sowieso tun sollten ist: Ihnen zu untersagen, dass die eigenen Daten für Trainings verwendet werden dürfen. Bei ChatGPT erledigen Sie das unter «Einstellungen» im Menüpunkt «Datenkontrollen».

Petzt die KI? Schlimm?
Ausführlich mit der Nutzung von Trainingsdaten durch KI-Modelle beschäftigt sich dieser Artikel von Marcel Waldvogel von Dnip. Darin beschreibt er die Wünsche und Sachzwänge der KI-Firmen, gibt Einblicke in die Trainings- und (Um-)Erziehungsprozesse von Chatbots und beschreibt, wieso diese so schwierig sind.
Schreiben Sie einen Kommentar