Chatbots, LLMs und Datenschutz

Wann werden wo personenbezogene Daten verarbeitet?

Am 15. Juli 2024 wurde das Diskussionspapier des HmbBfDI zur Frage der Anwendbarkeit der Datenschutz-Grundverordnung (DS-GVO) auf Large Language Models (LLMs) veröffentlicht. Darin festgestellt wird, dass in LLMs keine personenbezogenen Daten gespeichert werden und diese somit auch keine personenbezogenen Daten verarbeiten würden. Doch was hat diese Feststellung für Folgen für die Nutzung von Chatbots und anderen KI-Systemen durch Unternehmen, die LLMs beinhalten, wie beispielsweise ChatGPT? Wir arbeiten dies für Sie in folgendem Blogbeitrag anhand des Beispiels von ChatGPT auf.

Unternehmen stehen heute vor der Herausforderung, in einer zunehmend digitalen und datengetriebenen Welt wettbewerbsfähig zu bleiben. Dabei spielt die Verarbeitung personenbezogener Daten eine zentrale Rolle. Ob bei der Kundenbetreuung, im Marketing oder im Personalwesen – personenbezogene Daten sind essenziell, um Geschäftsprozesse effizient zu gestalten, Kundenbedürfnisse besser zu verstehen und maßgeschneiderte Angebote zu entwickeln.

Gleichzeitig setzen immer mehr Unternehmen auf Künstliche Intelligenz (KI), um diese Datenmengen effizient zu verarbeiten, neue Erkenntnisse zu gewinnen und ihre Innovationskraft zu steigern.

Allerdings bringt der Einsatz von KI auch neue Herausforderungen mit sich, u.a. in Bezug auf den Datenschutz. Unternehmen müssen sicherstellen, dass die Verarbeitung personenbezogener Daten durch KI-Systeme den gesetzlichen Anforderungen entspricht und gleichzeitig die Rechte der Betroffenen gewahrt bleiben. Dies erfordert eine sorgfältige Planung, den Einsatz geeigneter Technologien und die Einhaltung strenger Compliance-Vorgaben. Nur so kann das Potential von KI sicher und verantwortungsvoll genutzt werden.

Ein spezifisches Thema dazu greift aktuell der Hamburgische Beauftragte für den Datenschutz und die Informationsfreiheit (HmbBfDI) in einem Diskussionspapier zum Verhältnis der DSGVO zu Large Language Models (LLMs) auf. Ein LLM ist eine Komponente eines KI-Modells, die Sprachen verstehen, verarbeiten und generieren kann. Das bekannteste Beispiel für ein KI-Modell, welche ein LLM beinhaltet, ist ChatGPT. Bei der Nutzung eines LLMs können nicht nur im eigenen Prompt, den der Nutzer eingibt, sondern auch im sog. Output Angaben über natürliche Personen enthalten sein, insbesondere, wenn Nutzer das System explizit danach fragen. Das warf beim HmbBfDI die Frage auf, ob LLMs personenbezogene Daten speichern und daher quasi „aus sich heraus“ im Output produzieren. Der HmbBfDI sieht dies differenziert.

Wann ist die DSGVO bei der Nutzung von LLMs anwendbar?

Das Datenschutzrecht ist grundsätzlich auf jede Verarbeitung – also Verwendung – personenbezogener Daten in der EU oder von EU-Bürgern anwendbar. Ausgenommen sind ausschließlich persönliche und familiäre Tätigkeiten. Ist die DSGVO anwendbar, müssen diverse Anforderungen eingehalten werden. U.a. setzt die Verarbeitung einer Erlaubnisgrundlage voraus und die Betroffenen müssen rechtzeitig informiert werden, dass und wie ihre Daten verarbeitet werden. Viele Datenschutzerklärungen von Unternehmen sehen die Weiterverarbeitung personenbezogener (Kunden-) Daten in KI-Systemen noch nicht vor, so dass eine gesonderte Information notwendig ist (und zuvor geprüft werden muss, ob die Weiterverarbeitung in KI-Systemen eine kompatible Zweckänderung darstellt).

Der HamBfDI diskutiert in seinem Papier nun, wann genau es beim Einsatz von LLMs in KI-Systemen zu einer solchen Verarbeitung personenbezogener Daten kommt, die DSGVO-Anforderungen also wirklich in der Sache und durch wen einzuhalten sind.

In LLMs werden keine personenbezogenen Daten gespeichert

Trainingsdaten für LLMs und auch Inputs (sog. Prompts) können personenbezogene Daten enthalten. Die LLMs selbst speichern nach HmbBfDI aber keine personenbezogenen Daten. Dies bedeutet, dass im System selbst die beim Training verwendeten personenbezogenen Daten nicht mehr als solche vorhanden sind, sie haben lediglich zur Entwicklung der entsprechenden Gewichte und Tokens geführt.

Wer ein LLM speichert und hostet, verarbeitet daher auch noch keine personenbezogenen Daten i.S.v. Art. 4 Nr. 2 DSGVO. Das LLM ist insofern nur „Tool“, wie eine Software. Personenbezogene Daten werden mit diesem erst und nur dann verarbeitet, wenn es mit solchen trainiert wird oder aber im entsprechenden Input oder Output.

Ein LLM kann nicht selbst Gegenstand von Betroffenenrechten sein

Mangels Speicherung personenbezogener Daten im LLM, können die Betroffenenrechte der DSGVO auch nicht das LLM selbst zum Gegenstand haben. Sie können sich aber auf Trainingsdaten, Input oder Output eines KI-Systems, das ein LLM beinhaltet, beziehen. Das ist dann auch maßgeblich für die Person, der gegenüber die Betroffenenrechte geltend gemacht werden, ähnlich der bei Software bekannten Differenzierung zwischen Hersteller und Anwender der Software.

Training mit personenbezogenen Daten nur im Rahmen der DSGVO

LLMs dürfen nur im Rahmen des Datenschutzrechts mit personenbezogenen Daten trainiert werden. Auch die Betroffenenrechte müssen dabei selbstverständlich beachtet werden.

Allerdings wirkt sich ein Datenschutzverstoß beim Training des LLMs nicht auf die Rechtmäßigkeit seines Einsatzes aus, wenn mit dem HmbBfDi davon ausgegangen wird, dass das LLM selber keine personenbezogenen Daten speichert. Einem Unternehmen, welches Daten mit KI-Systemen verarbeitet, wird ein etwaiger Datenschutzverstoß beim Training des integrierten LLMs dann auch nicht zugerechnet. Allein der Entwickler des LLMs ist für das rechtmäßige Training seines Modells verantwortlich. Dies entlastet alle Nutzer von ChatGPT & Co. enorm, die immer wieder datenschutzrechtlichen Bedenken hinsichtlich ihres Trainings ausgesetzt sind.

Möchte ein Unternehmen jedoch selbst das LLM nachtrainieren, sollte darauf geachtet werden, dass personenbezogenen Daten nur unter strenger Einhaltung des Datenschutzrechts dafür verwendet werden.

Sehr gerne unterstützen wir Sie beim rechtssicheren Einsatz von KI-Systemen auch in Ihrem Unternehmen – unter Einhaltung von Datenschutz und allen weiteren rechtlichen Anforderungen und mit Minimierung der Haftungsrisiken. Mailen Sie uns gerne unter kristina.schreiber@loschelder.de oder diskutieren Sie mit uns auf LinkedIn unter https://www.linkedin.com/in/dr-kristina-schreiber-100339190/ !