KI im Unternehmen – Trainingsdaten schützenKI im Unternehmen – Trainingsdaten schützen

Trainingsdaten können darüber entscheiden, wie gut eine KI funktioniert. Zu ihrem Schutz kommen verschiedene Ansätze in Frage.

Trainingsdaten schützen – Worum geht es?

Daten sind das Öl des 21ten Jahrhunderts. Insbesondere für das Training von künstlicher Intelligenz im Rahmen des Machine Learning spielen sie eine herausragende Rolle. Hierfür werden große Datensätze an hochqualitativen Daten benötigt, deren Erstellung oft einen großen Teil der Arbeit bei der Einführung einer KI-Lösung ausmacht. Entsprechend wertvoll sind diese Datensätze.
Daher wird großes Augenmerk darauf gelegt die Daten entsprechend zu schützen. Denn in der digitalen Form können diese natürlich recht einfach kopiert und unbefugt weiterverwendet werden. Zum Schutz der Trainingsdatensätze kommen physische Barrieren, wie beispielsweise ein gut gesicherter Serverraum, zum Einsatz. Daneben sollten die Datensätze aber auch durch digitale Barrieren geschützt werden. So sollten Zugriffsrechte nur denjenigen Mitarbeitenden eingeräumt werden, die auch tatsächlich mit diesen Daten arbeiten.
Neben diese Schutzmaßnahmen können aber auch juristische Schutzmaßnahmen treten um den wirtschaftlichen Nutzen aus den Trainingsdatensets nicht teilen zu müssen. Hier sind insbesondere die Schutzrechte aus dem Bereich des Immaterialgüterrechts relevant.
Dabei ist zu berücksichtigen, dass sich KI-Trainingsdaten und personenbezogene Rohdaten oder Maschinendaten nur zum Teil vergleichen lassen.[1] Auch sind Trainingsdaten nicht gleich Trainingsdaten. Vielmehr unterscheiden sie sich, je nachdem welche Art von Machine Learning damit betrieben werden soll.

Rechtliche Grundlagen, um Trainingsdaten zu schützen

Was jedoch zeichnet die Schutzrechte aus und wie können sie auf die jeweiligen Arten von Trainingsdatensätzen angewandt werden?
Nach geltendem Recht kommen hier verschiedene Schutzrechte in Betracht. So sind insbesondere das Urheberrecht, Datenbankschutz, Computerprogrammschutz, wettbewerblicher Leistungsschutz, sowie der Schutz als Geschäftsgeheimnis zu erwähnen.[2]
So können durch § 2 I Nr. 7 UrhG auch Tabellen geschützt werden. Dafür müssten diese jedoch eine individuelle Prägung aufweisen und eine persönliche geistige Schöpfung sein. Bei den meisten als Tabellen zusammengetragenen Daten dürften diese jedoch eher von repetitiver Arbeit als von geistiger Schöpfungshöhe geprägt sein, womit dieses Schutzrecht in der Regel nicht zur Anwendung gelangt.
Nach § 4 II UrhG ist ein Datenbankwerk ein Sammelwerk „dessen Elemente systematisch oder methodisch angeordnet und einzeln mithilfe elektronischer Mittel oder auf andere Weise zugänglich sind”. Zudem müssen deren Elemente auch noch eine gewisse geistige Schöpfungshöhe überschreiten.[2] Damit fallen die reinen Trainingsdaten jedoch aus diesem Schutzbegriff (vgl. Oben). Jedoch liegt hier, wenn die Trainingsdaten systematisch aufbereitet sind, eine Datenbank nach § 87a UrhG vor. Entsprechend ist diese Datenbank geschützt, jedoch nicht die einzelnen in ihr enthaltenen Daten.
Aufgrund der Nähe zu anderen Themen der Digitalisierung liegt auch ein Schutz als Computerprogramm nicht fern. Jedoch muss ein Programm mithilfe von Befehlen bestimmte definierte Rechenoperationen durchführen, um sich als solches zu qualifizieren. Bei den reinen Trainingsdaten ist das nicht gegeben, daher können diese auch nicht Schutz nach den §§ 69a ff. UrhG finden.
Neben dem Schutz aus dem UrhG kommt auch noch ein wettbewerbsrechtlicher Schutz der Daten in Betracht. Insbesondere, wenn mit denselben Daten ein Modell eines Wettbewerbers trainiert wurde. Allerdings muss dafür das geschützte Erzeugnis, also die Trainingsdaten, eine „wettbewerbliche Eigenschaft“ aufweisen. Nach BGH also, „wenn dessen konkrete Ausgestaltung oder bestimmte Merkmale geeignet sind, die interessierten Verkehrskreise auf seine betriebliche Herkunft oder seine Besonderheiten hinzuweisen.“[3] In Anbetracht dessen, dass die Nachvollziehbarkeit der Trainingsdaten aus dem trainierten Modell regelmäßig schwer bis unmöglich ist, dürfte auch das Schutzrecht nach § 4 Nr. 3 UWG wohl selten einschlägig sein.
Letztlich kann sich ein Schutz auch aus dem Gesetz zum Schutz von Geschäftsgeheimnissen ergeben. Dieses Schutzrecht findet Anwendung, wenn die Daten als Geschäftsgeheimnis nach § 2 GeschGehG einzustufen sind. Als solches qualifizieren sie sich, wenn sie weder allgemein bekannt und ohne Weiteres zugänglich sowie von wirtschaftlichem Wert sowie Gegenstand von angemessenen Geheimhaltungsmaßnahmen sind und ein berechtigtes Interesse an der Geheimhaltung besteht. Regelmäßig dürfte dies für die Trainingsdaten der Fall sein, so dass ein derartiger Schutz leicht zu erreichen ist.

Fazit

Da der Schutz des Urheberrechts gerade für die Trainingsdaten schwer zu erlangen ist, weil es zumeist an der Voraussetzung einer gewissen geistigen Schöpfungshöhe mangeln dürfte, sollte genau darauf geachtet werden, wem die jeweiligen Trainingsdaten zugänglich gemacht werden ,um nicht den meist einschlägigen Geschäftsgeheimnisschutz zu verlieren. Denn auch oder gerade bei Themen der künstlichen Intelligenz gilt, dass (aufbereitete) Daten bares Geld wert sind.

Referenzen

  1. P. Hacker, „A Legal Framework for AI Training Data – From First Principles to the Artificial Intelligence Act“. Rochester, NY, 18. März 2020. doi: 10.2139/ssrn.3556598.
  2. P. Hacker, „Immaterialgüterrechtlicher Schutz von KI-Trainingsdaten“, GRUR, Nr. 10, S. 1025–1033, 2020.
  3. BGH, 28. 5. 2009 – I ZR 124/06 – Wettbewerbliche Eigenart von Laufrädern, Bd. 2010. 2009, S. 80–84.