Datenleak bei ChatGPT? Wenn die KI aus fremden Dokumenten zitiert

Eine der Stärken von grossen Sprachmodellen wie ChatGPT ist es, lange Dokumente zusammenzufassen. Was aber, wenn die KI plötzlich aus anderen Dateien zitiert? Das ist kürzlich passiert – eine Nachzeichnung.

themenbild datenleak chatgpt
Erstellt mit ChatGPT 4o

Ein 58 Seiten starkes Dokument zu einer Mit- und Stockwerkeigentümerversammlung wurde von ChatGPT zuerst zu einem IV-Antrag und dann zu einem Schweizer Zahlungsbefehl der Firma Intrum umgedeutet.

Aber von vorn

Ein Kontakt erzählte mir von zwei Chatverläufen mit ChatGPT. Er wollte ein Dokument seiner Hausverwaltung zusammenfassen lassen, eigentlich eine der leichteren Aufgaben für eine KI. Das Dokument enthielt eine Traktandenliste für die Versammlung und verschiedene Anträge für geplante bauliche Massnahmen. Mein Kontakt fragte nach einer Zusammenfassung und nach Widersprüchen der Anträge.

Ausschnitt aus dem 58-seitigen Originaldokument der Verwaltung.

Im ersten Chatverlauf fantasierte ChatGPT von «unterschiedlichen Anträgen bzw. Eingaben einer Person an verschiedene Stellen (IV-Stelle, Gericht, Rechtsvertretung) und schrieb von Widersprüchen bei «Erwerbstätigkeit und Arbeitsfähigkeit» oder «Wohnsituation und Lebensumstände». Auch auf mehrere, unterschiedliche Nachfragen wich ChatGPT nicht von seinen Informationen ab, sondern blieb beim «IV-Case». Im weiteren Chatverlauf nennt die KI das Verwaltungsgericht, den regionalen Ärztlichen Dienst und die Kesb als handelnde Institutionen. Ausserdem vier Namen, die im Dokument explizit genannt würden. Alles falsch bzw. eben aus einem ganz anderen Dokument.

ChatGPT zitiert aus einem anderen Dokument zum Thema IV.

In einem zweiten Chatverlauf, bei dem dasselbe Dokument hochgeladen worden ist, fand ChatGPT, es handele sich um einen «Zahlungsbefehl gemäss SchKG (Schuldbetreibungs- und Konkursgesetz)». Die Gläubigerin sei Zalando, vertreten durch Intrum, und die Schuldnerin sei wohnhaft in Zürich. Den Namen entfernte ChatGPT.

ChatGPT zitiert aus einem anderen Dokument zum Thema Betreibungen.

Auch in diesem Chat wurde die KI auf ihre Fehler aufmerksam gemacht, blieb jedoch bei ihrer Darstellung. Und damit nicht genug: Auf Nachfrage gab ChatGPT Name und Adresse der angeblichen Schuldnerin bekannt. Diese Angaben würden aus dem hochgeladenen Dokument stammen – was aber nachweislich nicht der Fall ist.

ChatGPT nennt eine Schuldnerin mit Namen und Adresse (Letztere existiert nicht).

Zwei Einzelfälle?

Dokumentiert ist von meinem Kontakt auch noch ein dritter Fall, bei dem eine weitere Datei zu einer amtlichen Betreibung umfantasiert worden ist. Reproduzieren konnte ich allerdings keinen der Fälle. Bei mir hat ChatGPT immer eine korrekte Zusammenfassung geliefert und auch mögliche Widersprüche richtig aufgelistet. Hinzu kommt: Die Adresse der genannten Schuldnerin in der Stadt Zürich existiert weder laut Google Maps noch laut Telefonbuch. Ob es die Person gibt? Laut Linkedin: ja, kann aber auch Zufall sein. Ist die Betreibung tatsächlich passiert? Möglich, aber unklar.

Ein weiterer, öffentlich dokumentierter Fall passierte 2023 bei Samsung: Auch dort führte die Nutzung von ChatGPT zu Datenlecks. Weitere, vergleichbare Fälle, sind mir keine bekannt. Mir selbst ist etwas ähnliches auch noch nie passiert. Handelt es sich deshalb um wenige Einzelfälle? Das ist schwierig zu beurteilen – aber kaum zu glauben.

Ob Einzelfall oder nicht: Was bei ChatGPT passiert ist, dürfte sich um einen schwerwiegenden Verstoss gegen geltende Datenschutzgesetze handeln. ChatGPT selbst sagt, dass «Dokumente oder Inhalte anderer Nutzer unter keinen Umständen in deine Antworten einfliessen» dürften. Passiert ist es trotzdem. Das sei ein «systemseitiger Fehler oder eine fehlerhafte Verknüpfung beim Dokumentenmanagement, was sehr ernst genommen werden» müsse. Im Normalfall sei «jede Sitzung mit ChatGPT ist nutzerspezifisch isoliert», was bedeute, dass «ich keinen Zugriff auf Inhalte aus anderen Nutzersitzungen oder von anderen Benutzern gespeicherte Dokumente habe».

Entsprechend sagt ChatGPT weiter:

Das Sprachmodell ChatGPT erklärt, was nicht passieren darf und was die Gründe sind, wenn es dennoch passiert.

Regulierung dringend nötig

Ein solcher Vorfall untergräbt das Vertrauen, dass KI-Tools datenisoliert und vertraulich arbeiten. Er zeigt, dass dringend davon abzuraten ist, vertrauliche Personendaten bei KI-Modellen wie ChatGPT hochzuladen – denn diese können, wie die beschriebenen Fälle zeigen, in Antworten anderer Nutzerinnen und Nutzern auftauchen.

Solche Risiken machen deutlich: Eine wirksame Regulierung der grossen US-Techplattformen ist dringlicher denn je. Und was alle User von ChatGPT und anderen KI-Modellen sowieso tun sollten ist: Ihnen zu untersagen, dass die eigenen Daten für Trainings verwendet werden dürfen. Bei ChatGPT erledigen Sie das unter «Einstellungen» im Menüpunkt «Datenkontrollen».

Unbedingt ausschalten: Das Modell für alle verbessern.

Petzt die KI? Schlimm?

Ausführlich mit der Nutzung von Trainingsdaten durch KI-Modelle beschäftigt sich dieser Artikel von Marcel Waldvogel von Dnip. Darin beschreibt er die Wünsche und Sachzwänge der KI-Firmen, gibt Einblicke in die Trainings- und (Um-)Erziehungsprozesse von Chatbots und beschreibt, wieso diese so schwierig sind.

Antworten

  1. Avatar von Christian Schuh
    Christian Schuh

    Ist das in einem Plus oder Teamskonto geschehen oder in der kostenfreien Version?

    1. Avatar von Reto Vogt

      Mit einem Team-Konto. Und niemand aus dem Team hat einen auch nur ansatzweise vergleichbaren Inhalt hochgeladen.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert