KI-Modelle müssen mit einer enormen Menge an Daten trainiert werden. Im Fall von bildgenerierender KI handelt es sich bei den Trainingsdaten um Bilder. An diesen Bildern können jedoch Rechte Dritter bestehen. Diese Rechte müssen beim Erstellen des Trainingsdatensatzes beachtet werden. Wir zeigen in diesem Beitrag anhand aktueller Rechtsprechung, (1) welche rechtlichen Herausforderungen adressiert werden müssen, um die Konformität des eigenen Datensatzes sicherzustellen und (2) wie ein Nutzungsvorbehalt gestaltet sein muss, um zu verhindern, dass Bilder von der eigenen Website unkontrolliert durch Dritte zum KI-Training verwendet werden können.
Rechtliche Grundlagen: Das Urheberrecht
Das Urheberrecht gewährt dem Schöpfer (Urheber) ein subjektives und absolutes Recht auf den Schutz seines Werkes (§ 1 Urhebergesetz – UrhG). Werke der bildenden Kunst sowie Lichtbildwerke (Fotographien) sind vom UrhG erfasst (§ 2 Abs. 1 Nr. 4, Nr.5 UrhG), sodass die KI-Trainingsbilder unter den Urheberrechtsschutz fallen können. Das Urheberrecht regelt dann den Inhalt und den Umfang sowie die Folgen der Verletzung des Rechtes. Dabei hat der Urheber unter anderem das Recht, das eigene Werk wirtschaftlich zu verwerten. Unter dieses Verwertungsrecht wird etwa das Vervielfältigungsrecht (§§ 15 Abs. 1, 16 UrhG) gefasst. Es reicht dabei für eine Vervielfältigung aus, wenn das Bild nur mit technischen Hilfsmitteln (etwa mit einem Computer) wahrgenommen werden kann.
Urheberrechtsverletzung durch das Erstellen von Datensätzen
Sowohl im Rahmen verschiedener Schritte des KI-Trainings als auch schon in der Vorbereitung des Trainings werden Vervielfältigungen von Werken angefertigt. Im Folgenden wird die Vorbereitung des Trainings durch das Erstellen eines Datensatzes betrachtet.
Hierbei werden durch das Speichern Vervielfältigungen von Bildern angefertigt. Grundsätzlich liegt das Recht, Vervielfältigungen eines Bildes anzufertigen bei dem Urheber des Originals (s. o.). Damit man einen Trainingsdatensatz erstellen kann, ist daher eine Berechtigung notwendig. Berechtigungen können grundsätzlich vertraglicher oder gesetzlicher Natur sein. Eine vertragliche Berechtigung liegt nach einer Lizensierung vor. Solche vertraglichen Lizenzierungn sind jedoch in Anbetracht der immensen Masse an für das KI-Training benötigten Bildern in der Praxis eher selten.
Neben der vertraglichen Erlaubnis kann sich die Berechtigung auch, wie erwähnt, aus dem Urhebergesetz ergeben: gesetzliche Erlaubnis. Vorteil der gesetzlichen Erlaubnis ist, dass sie nicht gesondert eingeholt werden muss, evtl. bei verschiedenen Rechteinhabern. Sie ‚liegt bereits vor‘, wenn die im Gesetz genannten Voraussetzungen erfüllt werden.
Text und Data Mining
Als eine solche gesetzliche Erlaubnis für das Erstellen eines Trainingsdatensatzes kommt u. a. § 44b UrhG in Betracht. § 44b UrhG beschränkt das Recht des Urhebers zu Gunsten von ‚Text und Data Mining‘. Unter ‚Text und Data Mining‘ ist die „automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken zu verstehen, mit dem Ziel daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen“. Die Ausnahme für Text und Data Mining gilt grundsätzlich auch für Bilder (als ‚Data‘) sowie das Training im Rahmen von Machine-Learning-Prozessen. Damit die Schranke des Urhebergesetzes greift, müssen drei Voraussetzungen erfüllt werden; (1) der rechtmäßige Zugang zu den Daten, (2) die Einhaltung der Löschpflicht nach Abschluss des Trainings sowie (3) die Beachtung des ausgeübten Opt-Out des Rechteinhabers (Originalurhebers).
Checkliste: Text und Data Mining
- rechtmäßiger Datenzugang
- Löschen der Daten nach dem Trainig
- Opt-Out/Nutzungsvorbehalt beachten
Unter dem rechtmäßigen Zugang ist laut Gesetzesbegründung ausdrücklich der freie Zugang über das Internet zu fassen. Kann also über das Internet auf ein Bild zugegriffen werden, darf es grundsätzlich zum Training von KI verwendet werden. Eine Ausnahme gilt für Bilder, für welche der Rechteinhaber (Urheber) einen Vorbehalt erklärt, also der Verwendung widersprochen hat (§ 44b Abs. 3 UrhG). Hat der Urheber einen solchen Opt-Out in maschinenlesbarer Form auf der Website eingetragen, dürfen die Bilder nicht verwendet werden. Wurde kein maschinenlesbarer Opt-Out identifiziert und wurde das Bild daher zu Trainingszwecken gespeichert, darf es nicht auf unbegrenzte Zeit behalten werden. Werden die Bilder für das KI-Training nicht mehr benötigt, sind sie zu löschen (§ 44b Abs. 2 UrhG).
2. Das Urteil des Landgerichts Hamburg vom 27. September 2024
Am 27. September verkündete das Landgericht Hamburg (LG Hamburg) sein Urteil zum Text und Data Mining (LG Hamburg, Urteil vom 27.09.2024 – 310 O 227/23).
Zum Sachverhalt
Ein Fotograph klagte wegen der Verwendung eines seiner Fotos für einen offenen Machine-Learning-Datensatz aus sechs Milliarden Bild-Text-Paaren. Das Bild war ursprünglich auf eine Bilddatenbank im Internet hochgeladen worden. Von dort wurde es auch mittels Text und Data Mining verwendet. In den Nutzungsbedingungen der Bilddatenbank heißt es allerdings, dass die Bilder nicht für „automated programms“ (= automatisierte Programme) genutzt werden dürfen. In dieser Klausel kann ein oben beschriebener, wirksamer Nutzungsvorbehalt/Opt-Out zu sehen sein, der das Text und Data Mining verbietet. In dem Fall hätte das Bild nicht benutzt werden dürfen. So zumindest die Ansicht des Klägers.
Text und Data Mining und Nutzungsvorbehalt/Opt-Out
Das LG Hamburg beschäftigte sich nun mit den Anforderungen an den oben zum Text und Data Mining beschriebenen maschinenlesbaren Nutzungsvorbehalt/Opt-Out. Dabei erörterte es unter anderem die sehr praxisrelevanten Frage der genauen Anforderungen an die Maschinenlesbarkeit des Out-Outs. Rechtlich abzugrenzen sind in diesem Fall die ‚Maschinenlesbarkeit im weiteren Sinne‘ gegen die ‚Maschinenlesbarkeit im engeren Sinne‘.
Im weiten Sinne maschinenlesbar ist der Nutzungsvorbehalt, wenn er wörtlich in den Nutzungsbedingungen enthalten ist. Käme es auf die Maschinenlesbarkeit im weiten Sinne an, wäre in der Klausel in den Nutzungsbedingungen ein wirksamer (maschinenlesbarer) Opt-Out zu sehen. Das Bild des Fotographen hätte also nicht benutzt werden dürfen.
Die Maschinenlesbarkeit im engeren Sinne stellt dahingegen strengere technische Anforderungen an den Opt-Out. Sie erfordert, dass die „Maschine“ den Nutzungsvorbehalt auch tatsächlich durch technische Maßnahmen auslesen kann. Für den Bereich der Suchmaschinen hat sich beispielsweise das Dateiformat robot.txt etabliert. Liest ein Webcrawler im Stammverzeichnis einer Website dieses Dateiformat aus, erkennt er dies als Nutzungsvorbehalt. Gleiches könnte man für den Nutzungsvorbehalt im Rahmen des Text und Data Mining fordern. Käme es also auf die Maschinenlesbarkeit im engeren Sinne an, wäre in der Klausel in den Nutzungsbedingungen mangels Maschinenlesbarkeit kein wirksamer Opt-Out zu sehen. Das Bild des Fotographen hätte also verwendet werden dürfen.
Die Entscheidung zur Maschinenlesbarkeit
Das LG Hamburg vertritt in seinem Urteil die Ansicht, dass in dem Fall des Text und Data Minings die Maschinenlesbarkeit im weiteren Sinne ausreichend ist. Sie erfüllt die Anforderungen an einen wirksamen Nutzungsvorbehalt. Nach der Meinung des Gerichts sei mit „maschinenlesbar“ auch „maschinenverständlich“ gemeint, was bei einem allein in „natürlicher Sprache“ verfassten Nutzungsvorbehalt der Fall sei. Dies begründet das Gericht damit, dass der Nutzungsvorbehalt lediglich „durch modernste Technologien“ zu erkennen sein müsse. Zu diesen Technologien zählen nach Überzeugung des Gerichts gerade auch KI-Anwendungen, die in der Lage sind, in natürlicher Sprache geschriebenen Text inhaltlich zu erfassen. Wer Daten für KI-Trainingsdatensätze sammelt, kann sich also nicht darauf berufen, dass der Opt-Out für ihn möglichst leicht zu erkennen sein muss. Damit ist der Nutzungsvorbehalt des Urhebers in dem oben beschriebenen Fall nach Ansicht des LG Hamburg wirksam und das Bild hätte nach § 44b UrhG nicht verwendet werden dürfen.
Allerdings kann davon ausgegangen werden, dass in der Sache das letzte Wort damit noch nicht gesprochen ist (siehe dazu Gesmann-Nuissl, InTeR 4/24 (173 ff.)). Auch auf europäischer Ebene wurden von der Kommission bereits im Rahmen der Entwürfe für den Praxisleitfaden zu Allzweck-KI-Modellen der Nutzungsvorbehalt und seine Ausgestaltung aufgegriffen. Mit der Veröffentlichung des Praxisleitfadens ist Mitte des Jahres 2025 zu rechnen.
Bedeutung des Urteils für KMU
Die Entscheidung zu den rechtlichen Anforderungen an einen Nutzungsvorbehalt von Bildern lässt sich auch auf weitere Daten übertragen, welche zum KI-Training aufgrund von Text und Data Mining verwendet werden. Die Entscheidung ist für KMU in zwei Situationen von Bedeutung. Zum einen können die Anforderungen ganz allgemein für die Rechtmäßigkeit des eigenen Text und Data Minings herangezogen werden. Insofern erlangt die Entscheidung bei der Zusammenstellung von Trainingsdatensätzen und bei der Entwicklung von verschiedenen KI-Modellen Bedeutung. Sie legt Anforderungen an die rechtmäßige Verwendung von Daten zum KI-Training fest. Der von Urhebern wirksam eingetragene Opt-Out muss beachtet werden.
Zum anderen wird jedoch auch klargestellt, wie man einen eigenen Nutzungsvorbehalt gestalten muss. Wird kein wirksamer (maschinenlesbarer) Opt-Out eingetragen, können Bilder von der eigenen Unternehmenswebsite unkontrolliert durch unbekannte Dritte zum Training von KI verwendet werden. Möchte man verhindern, dass die eigenen Bilder (unerkannt) zum KI-Training genutzt werden, muss ein maschinenlesbarer Opt-Out auf der Website eingetragen werden. Die Notwendigkeit einen Opt-Out wirksam einzutragen, kann sich dabei z. B. auch aus weiteren rechtlichen Verpflichtungen (etwa dem Datenschutzrecht) ergeben.
Zusammenfassung und Ausblick
KI-Modelle und damit auch ihr Training gewinnen immer weiter an Bedeutung. Die großen Datensätze, die hierfür notwendig sind, müssen und werden in Zukunft noch stärker durch die Verwendung von Daten aus dem Internet als große Datenquelle erzeugt werden. Die Anforderungen an das Text und Data Mining sind daher sowohl für Unternehmen von Bedeutung, welche Trainingsdatensätze erstellen und Nutzen, als auch für Unternehmen, welche potenziell von dem “Mining“ betroffen sind. Es ist notwendig, die oben beschriebenen Anforderungen an die Rechtmäßigkeit zu kennen, um die eigenen Interessen bestmöglich – etwa durch maschinenlesbaren Opt-Out – durchsetzen zu können. Insofern ist es für KMU, die ihre Bilder vor dem unkontrollierten „KI-Webscraping“ schützen wollen, vorteilhaft, dass nach Auffassung des LG Hamburg der einfache, in natürlicher Sprache verfasste Opt-Out in den Nutzungsbedingungen der Website ausreicht. Hat man allerdings selbst die Absicht, KI mittels Daten aus dem Internet zu trainieren, verkompliziert es die Situation, da intensiv nach verschiedenen Formen von Nutzungsvorbehalten gesucht werden muss. Es ist nicht ausreichend, das Stammverzeichnis einer Website nach einem bestimmten Dateiformat zu scannen. Wegen der Bedeutung des Urteils für das Erstellen von Datensätzen für das KI-Training ist es jedoch möglich, dass der Kläger in Berufung gehen wird. Dann überprüft das nächsthöhere Gericht, ob das Urteil rechtsgültig ist. Das letzte Wort in Sachen Text und Data Mining ist also noch nicht gesprochen. Aus diesem Grund lohnt es sich, aktuelle rechtliche Entwicklungen weiter zu verfolgen.
Weiterführende Informationen
- LG Hamburg, Urteil vom 27.09.2024 – 310 O 227/23. openJur. https://openjur.de/u/2495651.html