Kurz erklärt!

RAG datenschutzrechtlich geprüftRAG datenschutzrechtlich geprüft

RAG-Verfahren können Sprachmodelle mit unternehmensinternen Informationen verbinden. Das verbessert nicht nur die Qualität der Antworten, sondern kann auch datenschutzrechtliche Risiken verringern. Wir erklären, worauf Unternehmen dabei achten sollten.

Sprachmodelle (Large Language Models – LLM) erfreuen sich in kleinen und mittleren Unternehmen (KMU) großer Beliebtheit. Verschiedene Retrieval Augmented Generation-Verfahren (RAG-Verfahren) können verwendet werden, um die Qualität der Antworten von LLM zu verbessern. Darüber hinaus können sie sogar bestimmte datenschutzrechtliche Risiken von LLM im Vergleich zum gleichen Anwendungsfall ohne RAG mindern. Zugleich bringt das RAG-Modell als KI-Modell im Gegenzug aber selbst datenschutzrechtliche Herausforderungen mit sich, die nicht ignoriert werden dürfen. Im folgenden Beitrag stellen wir datenschutzrechtliche Herausforderungen von LLM dar, erläutern wie man mithilfe von RAG diesen Herausforderungen begegnen kann und schließen mit datenschutzrechtlichen Herausforderungen von RAG, die man in der Entwicklung adressieren sollte.

Die Technik dahinter: RAG

KI-Systeme, die als Grundlage ein LLM wie GPTs (Generative Pretrained Transformer, dt. generative vortrainierte Transformer) nutzen, werden auch von KMU in verschiedenen Anwendungsszenarien verwendet. Sie werden etwa als Chatbots zur Kundenkommunikation oder zum internen Wissensmanagement genutzt. Larg Language Models können mit und ohne RAG-Verfahren verwendet werden.^{[1][2], [3]}

Bei RAG-Verfahren werden LLM mit Dokumenten aus unternehmenseigenen Informationen (Referenzdokumenten) kombiniert. Das Gesamtsystem besteht aus dem LLM sowie einem RAG-Subsystem, das wiederum selbst auch ein KI-System ist. Stellt der Nutzer eine Anfrage an das Gesamtsystem mittels Prompts, wird diese Anfrage zunächst vom RAG-Subsystem mit Informationen (Abschnitten) aus den Referenzdokumenten (sogenannten ‚Chunks‘) ergänzt. Erst danach wird die ergänzte Anfrage an das LLM weitergeleitet, das die Antwort formuliert. Das Large Language Model kann also Antworten aus den zur Verfügung gestellten Referenzdokumenten ableiten. Dabei wird es im Idealfall lediglich zur Erzeugung des Textes verwendet und steuert kein eigenes „Wissen“ zur Antwort bei. So können auch kleinere LLM, die allgemein trainiert sind und deren Antworten sonst von geringer Qualität sind, ohne große Anpassungen für spezielle Fragestellungen im Unternehmen verwendet werden.^[4]

Datenschutzrechtliche Herausforderungen von LLM

LLM bergen grundsätzlich, wie alle KI-Techniken, datenschutzrechtliche Herausforderungen (EDSA, Stellungnahme 28/2024).^[5]

Zum einen erfolgt das Training oft mit Daten, die nur bis zu einem bestimmten Zeitpunkt aktuell sind. Dadurch können KI-Systeme veraltete – also fehlerhafte – Ausgaben liefern. Neue Informationen werden vom LLM nicht berücksichtigt. Handelt es sich bei diesen falschen Informationen um personenbezogene Daten, steht die Ausgabe im Konflikt mit dem Datenschutzgrundsatz der ‚Richtigkeit‘ (Art. 5 Abs. 1 lit. d DSGVO).

Ein weiteres Risiko stellen Cyber-Angriffe auf Sprachmodelle dar, durch die sensible Daten kompromittiert werden könnten. Hier ergeben sich Reibungspunkte mit dem Datenschutzgrundsatz der ‚Integrität und Vertraulichkeit‘ (Art. 5 Abs. 1 lit. f DSGVO).

Schließlich müssen die Rechte betroffener Personen nach Kapitel 3 der DSGVO gewahrt werden. Insbesondere das Löschen von personsbezogenen Daten aus LLM (Art. 17 DSGVO) (Datenschutzgrundsatz der ‚Datensparsamkeit‘) stellt nicht nur bei großen und komplexen Modellen eine besondere Herausforderung dar.

Datenschutzrechtliche Vorteile von RAG-Verfahren

Wichtig ist, dass RAG-Verfahren keinen direkten Einfluss auf die datenschutzrechtlichen Eigenschaften des konkret verwendeten LLM haben. Allerdings kann der Einsatz einer LLM-RAG-Kombination (Gesamtsystem) einige datenschutzrechtliche Vorteile gegenüber dem Einsatz eines LLM ohne RAG-Verfahren für denselben Anwendungsfall haben (Orientierungshilfe ‚RAG‘).^[6]

RAG-Verfahren ermöglichen Richtigkeit und Genauigkeit (Art. 5 Abs. 1 lit. d DSGVO) der KI-Ergebnisse zu erhöhen.
- Durch den Rückgriff auf verlässliche und spezifische Datenquellen wird die Richtigkeit von Ausgaben gesteigert.
- Im RAG-Modell können falsche personenbezogene Daten aus technischen Gründen einfacher korrigiert werden als in Sprachmodellen.
RAG-Verfahren können ein Vorteil für die Datensparsamkeit (Art. 5 Abs. 1 lit. c DSGVO) des Gesamtsystems darstellen.
- Durch die Kombination von LLM mit RAG-Subsystemen können häufig kleinere LLM verwendet werden, die mit weniger Daten trainiert wurden. Dies liegt daran, dass das inhaltliche Ergebnis des Gesamtsystems nicht so stark von der Leistung des LLM abhängt. Der Inhalt wird vom RAG-Modell beigesteuert.
- Dass sich Daten im RAG-Modell einfacher löschen lassen (s.o.), stellt ebenfalls hinsichtlich des datenschutzrechtlichen Grundsatzes der Datensparsamkeit einen Vorteil dar.
RAG-Verfahren können die Vertraulichkeit und Integrität (Art. 5 Abs. 1 lit. f DSGVO) von Daten steigern, die zusätzlich in KI-Systeme eingebunden werden sollen.
- Können dank RAG kleinere Sprachmodelle verwendet werden, können diese häufig on-premise (innerhalb des Unternehmens) betrieben werden. Hierdurch entfällt die sicherheitskritische Datenübertragung an Dritte.
- Das ist insbesondere bei sensiblen oder besonderen Kategorien personenbezogener Daten, wie beispielsweise Gesundheitsdaten, von großer Bedeutung. Wichtig ist in diesem Zusammenhang, dass die Eingabedaten aus dem RAG-Modell nicht zu Trainingszwecken des Sprachmodells verwendet werden.

Datenschutzrechliche Herausforderungen von RAG-Verfahren

Neben diesen Vorteilen des RAG-Subsystems für das Gesamtsystem ergeben sich jedoch auch neue datenschutzrechtliche Herausforderungen. Beim Einsatz von RAG-Subsystemen muss, auf das Gesamtsystem gedacht, nicht nur der Datenschutz für das LLM, sondern auch für das RAG-Subsystem selbst gewährleistet werden. Dies betrifft insbesondere (Orientierungshilfe ‚RAG‘)^[6]:

Richtigkeit und Genauigkeit (Art. 5 Abs. 1 lit. d DSGVO) der Ausgaben des RAG-Subsystems müssen gewährleistet werden.
- Die Qualität, Aktualität und Vollständigkeit der unternehmenseigenen Referenzdokumente müssen stets gewährleistet sein, weshalb eine regelmäßige Prüfung unerlässlich ist.
- Auch die Datenaufbereitung spielt eine zentrale Rolle: Eine sorgfältige Bereinigung, das Aufteilen der Dokumente in geeignete Abschnitte (Chunks), mit denen Anfragen sinnvoll ergänzt werden können, und gegebenenfalls die Anonymisierung von Dokumenten sind wichtige Voraussetzungen.
- Damit die Antworten des Systems kontexttreu bleiben, sollte ein Systemprompt verwendet werden. Ein Systemprompt ist eine grundlegende, oft versteckte Anweisung an ein LLM. Er definiert den Rahmen und die Verhaltensregeln des LLM, bevor der Nutzer seinen ersten Prompt eingibt. Der Systemprompt sollte so gestaltet werden, dass für die Antwort ausschließlich Inhalte aus den hinterlegten Referenzdokumenten verwendet werden. Das LLM sollte möglichst keinen Einfluss auf den Inhalt der KI-Antworten haben, um die Informationen aus den Referenzdokumenten nicht zu verfälschen.
- Für eine hohe Ausgabequalität in deutscher Sprache sollten RAG-Verfahren bevorzugt mit deutschsprachigen LLMs eingesetzt werden. Sind die Sprachmodelle auf eine andere Sprache (z. B. Englisch) trainiert, kann das die Qualität der KI-Antworten verschlechtern.
Die Gewährleistung der Zweckbindung (Art. 5 Abs. 1 lit. b DSGVO) kann bei der Verwendung von RAG-Verfahren eine Herausforderung darstellen.
- Personenbezogene Daten dürfen nur für vorher festgelegte (z. B. in der Einwilligung des Betroffenen), eindeutige und legitime Zwecke erhoben und verarbeitet werden. Einmal erhobene Daten dürfen nicht ohne weiteres für andere Zwecke weiterverwendet werden.
- Beim Einsatz von RAG-Verfahren besteht das Risiko, dass personenbezogene Daten aus den Referenzdokumenten mit personenbezogenen Daten aus dem LLM verknüpft werden. Dieses Risiko muss schon bei der Konzeption mitgedacht und durch wirksame Maßnahmen gemindert werden.
Die Gewährleistung von Transparenz (Art. 5 Abs. 1 lit. a DSGVO) stellt bei RAG-Modellen wie bei anderen KI-Modellen eine grundsätzliche Herausforderung dar (Black-Box).

Fazit

Zusammenfassend lässt sich festhalten, dass RAG-Verfahren zahlreiche Chancen bieten, die datenschutzrechtliche Sicherheit von Systemen im Unternehmen gegenüber der Nutzung von großen LLM zu verbessern. Sie haben das Potenzial, die Richtigkeit, Datensparsamkeit sowie Vertraulichkeit und Integrität der verarbeiteten Daten zu steigern, wodurch insbesondere auch sensible Informationen besser geschützt sind. Allerdings bringen sie auch eigene datenschutzrechtliche Herausforderungen mit sich. Aspekte wie die Qualität und Aktualität der Referenzdokumente, die Datenaufbereitung und die Sicherstellung der Zweckbindung im Gesamtsystem erfordern eine sorgfältige Planung und u. U. regelmäßige Kontrolle.

Wenn alle genannten Aspekte sorgfältig berücksichtigt werden, lässt sich das RAG-Verfahren in KMU effizient, rechtssicher und gewinnbringend einsetzen.

Quellen und weiterführende Inhalte

Rauscher, A. (o. D.-a). Deep research mit LLMs. Mittelstand Digital Zentrum Chemnitz. https://digitalzentrum-chemnitz.de/wissen/deep-research-mit-llms/
Rauscher, A. (o. D.-b). Generative KI und Datenschutz sicher vereinen. Mittelstand Digital Zentrum Chemnitz. https://digitalzentrum-chemnitz.de/projekte/ki-gestuetzte-dokumentenanalyse-in-der-rechtsberatung/
Rauscher, A. (o. D.-c). Social Media Automatisierung: mehr Reichweite im Handwerk. Mittelstand Digital Zentrum Chemnitz. https://digitalzentrum-chemnitz.de/wissen/automatisierte-social-media-beitraege/
Folz, M. (o. D.). Augmented Retrieval Generation: effizientes Wissensmanagement. Mittelstand Digital Zentrum Chemnitz. https://digitalzentrum-chemnitz.de/wissen/unternehmenswissen-besser-nutzen-mit-ki-und-retrieval-augmented-generation
Stellungnahme 28/2024 zu gewissen Datenschutzaspekten der Verarbeitung personenbezogener Daten im Zusammenhang mit KI-Modellen | European Data Protection Board. (o. D.). https://www.edpb.europa.eu/our-work-tools/our-documents/opinion-board-art-64/opinion-282024-certain-data-protection-aspects_de
Konferenz der unabhängigen Datenschutzaufsichtsbehörden des Bundes und der Länder. (2025). Orientierungshilfe zu datenschutzrechtlichen Besonderheiten generativer KI-Systeme mit RAG-Methode [Report]. https://www.datenschutzkonferenz-online.de/media/oh/DSK_OH_RAG.pdf

Verfasst von

Ines Tacke
ist wissenschaftliche Mitarbeiterin am Lehrstuhl für Privatrecht und Recht des geistigen Eigentums der Technischen Universität Chemnitz. Im Mittelstand-Digital Zentrum Chemnitz ist sie als KI-Trainerin tätig und beschäftigt sie sich mit Innovations- und Technikrecht.
ines-maria.tacke@digitalzentrum-chemnitz.de