Welche Inhalte dürfen fürs Training von Sprachmodellen verwendet werden? – Fall des Monats April ’25
Das Team der Rechtsinformationsstelle ORCA.nrw unterstützt Lehrende aus Nordrhein-Westfalen bei rechtlichen Fragen. Im Format „Fall des Monats“ stellt es regelmäßig einen besonderen Sachverhalt vor, der sich aus einer zu bearbeitenden Anfrage oder aus aktueller Rechtsprechung ergibt.
Ausgangspunkt
Diese Ausgabe befasst sich mit der Eingabe von CC-lizenzierten Inhalten in Sprachmodellen zum Zwecke ihres Trainings. Sprachmodelle, sog. Large Language Models, sind in der Lage natürliche Sprache zu verstehen und zu generieren. Sie beruhen auf einem statistischen Modell, das Muster in Text- oder Sprachdaten identifiziert und diese nutzt, um Vorhersagen für zukünftige Texte oder Sprachdaten zu treffen, sie gelten daher als Künstliche Intelligenzen (KI) (https://www.intel.de/content/www/de/de/learn/large-language-models.html, letzter Aufruf: 16.04.2025). Um zuverlässige Ergebnisse zu erlangen, müssen diese Large Language Models trainiert werden, was unter anderem durch die Eingabe von Rohdaten geschieht. Es stellt sich die Frage, welche Inhalte für das Training verwendet werden dürfen. Hierbei wird ein Blick auf die relevanten CC-Lizenzen sowie auf möglicherweise einschlägige Schrankenregelungen geworfen.
Rechtliche Bewertung
Die Eingabe von Inhalten zum Training von Sprachmodellen ist regelmäßig als Eingriff in das urheberrechtliche Vervielfältigungsrecht anzusehen (1.). Bestehen keine Nutzungsrechte, so sind die Text- und Data-Mining-Schranke aus § 44b UrhG (2a.) und die Schranke für Text und Data Mining zum Zwecke der wissenschaftlichen Forschung aus § 60 d UrhG (2b.) zu prüfen. Hierzu wurde im September 2024 ein erstes Urteil vom Landgericht Hamburg verkündet.
1. Vervielfältigungen und Nutzungsrechte
Dem Urheber stehen die Verwertungsrechte für sein Werk zu, vgl. § 15 UrhG. Jede Nutzung, die das Verwertungsrecht des Urhebers einschränkt, ist ein Eingriff. Dieser kann rechtmäßig sein, wenn der Urheber gem. § 31 I UrhG Nutzungsrechte eingeräumt hat, Rechtfertigungsgründe vorliegen oder eine gesetzlich geregelte Schranke einschlägig ist. Die Eingabe von Werken in eine KI stellt einen Eingriff in die urheberrechtlichen Verwertungsrechte nach § 15 I UrhG dar, genauer einen Eingriff in das Vervielfältigungsrecht gem. § 16 UrhG des Urhebers (NJW; 2023, 3673 ff., Rn. 31). Nutzungsrechte ergeben sich in der Regel aus den Lizenzangaben. Die Nutzung ist bei Werken, die unter einer CC-0-, CC-BY- oder CC-BY-SA-Lizenz (https://www.orca.nrw/oer/oer-nutzen/cc-lizenzen/) veröffentlicht wurden unproblematisch, da die entsprechende Nutzung von der Lizenz umfasst ist. Bei Werken, die unter einer CC-BY-NC, CC-BY-NC-SA, CC-BY-ND oder CC-BY-NC-ND veröffentlicht wurden, ist die Nutzung nicht von der Lizenz gedeckt. Hier muss geklärt werden, ob die Nutzung durch gesetzliche Schranken ermöglicht wird.
2. Schranken
Eine urheberrechtliche Schranke ist eine gesetzliche Gestattung der Nutzung von urheberrechtlich geschützten Werken, die nicht der Zustimmung des Urhebers bedarf. Beim Training von Sprachmodellen könnten zwei Schranken einschlägig sein. Ob diese Schranken tatsächlich anwendbar sind, ist derzeit jedoch noch sehr umstritten.
a. § 44b UrhG – Text und Data Mining
Nach § 44b UrhG dürfen zur automatisierten Analyse von digitalen und digitalisierten Werken, also zur
Muster- und Informationengewinnung, Werke vorübergehend vervielfältigt werden. Hier gelten weitere
gesetzliche Grenzen, die bei der Eingabe von Inhalten beachtet werden müssen. Das Werk, das der Nutzer in die KI eingeben möchte, muss rechtmäßig zugänglich sein (vgl. § 44b Abs. 2 UrhG). Diese Voraussetzung liegt vor, wenn ein Werk frei im Internet zugänglich ist oder wenn der Nutzer rechtmäßig einen Zugang erhalten hat, z.B. über den lizenzierten Zugang einer Universitätsbibliothek (NJW, 2023, 3673 ff., Rn. 18). Außerdem darf nach Abs. 3 kein maschinenlesbarer Nutzungsvorbehalt vorliegen. Die Vervielfältigungen sind zu löschen, wenn sie nicht mehr für das Text und Data Mining erforderlich sind.
b. § 60d UrhG – Text und Data Mining für Zwecke der wissenschaftlichen Forschung
Darüber hinaus könnte der § 60d UrhG als Schranke greifen, wenn die Vervielfältigungen im Rahmen des Text und Data Mining für Zwecke der wissenschaftlichen Forschung genutzt werden. Der § 60d UrhG orientiert sich am § 44b UrhG, weist aber weitere Grenzen auf, um dem wissenschaftlichen Austausch und der Innovation gerecht zu werden. Die Schranke des § 60d UrhG ist demnach auch nur im Bereich der wissenschaftlichen Forschung anwendbar. Im Vergleich zu § 44b UrhG gelten z.B. nicht die Grenzen des rechtmäßig zugänglichen Werkes oder des ausdrücklichen Nutzungsvorbehalts (s.o.). Ob ein Fall der Schranke des § 60d UrhG auch beim Training von Sprachmodellen vorliegt, ist dann zusätzlich vom Zweck des Trainings entscheidend. Das Sprachmodell und das Training müssen der wissenschaftlichen Forschung dienen. Wissenschaftliche Forschung bezeichnet allgemein das methodisch-systematische Streben nach neuen Erkenntnissen (Dreier/Schulze/Dreier, 7. Aufl. 2022, UrhG § 60c Rn. 1). Nicht nur die unmittelbar mit der Erkenntnisgewinnung verbundenen Arbeitsschritte werden erfasst, sondern auch mittelbare Schritte, also solche die auf einen späteren Erkenntnisgewinn gerichtet sind. Dazu gehören z.B. Datensammlungen, um anschließend empirische Schlussfolgerungen zu ziehen. Ein späterer Forschungserfolg wird nicht vorausgesetzt. In einem ersten Urteil hat das Landgericht Hamburg im September 2024 entschieden, dass das Training von KI einen Fall des Text und Data Mining darstellt und unter den Voraussetzungen des § 60d UrhG zulässig ist. Hier klagte ein Fotograf gegen einen gemeinnützigen Verein (LAION e.V.). LAION e.V. entwickelt selbstlernende Algorithmen im Sinne künstlicher Intelligenz fort und stellt diese der breiten Öffentlichkeit zur Verfügung. LAION e.V. hält kostenfrei Datensätze und Modelle bereit, erstellt und testet eigene KI-Modelle auf Basis der Trainingsdaten (https://laion.ai/about/, letzter Aufruf: 16.04.2025). Der Verein fand ein Foto auf der Webseite Bigstock, auf welcher der Fotograf sein Werk zur Verfügung gestellt hatte, und nutzte dieses für die Erstellung eines Trainingssatzes – LAION 5B. Das LG Hamburg entschied, dass es sich bei dieser Vervielfältigung zur Erstellung eines Trainingsdatensatzes um Text und Data Mining für Forschungszwecke i.S.d. § 60d UrhG handelt (LG Hamburg, Urt. v. 27.9.2024 – 310 O 227/23, Rn. 54). Zur Argumentation führte das LG unter anderem auf, dass in der Gesetzesbegründung von § 60d UrhG das maschinelle Lernen als Basis-Technologie für KI als besonders wichtig eingestuft wurde (BT-Drs. 19/27426, S. 60). Dies ist jedoch bloß eine erstinstanzliche Entscheidung, die derzeit in Berufung ist. Es besteht demnach weiterhin Rechtsunsicherheit.
Fazit
Die Eingabe von lizenzierten Werken in ein Sprachmodell zu Trainingszwecken stellt eine Vervielfältigung dar, die in die Nutzungsrechte des Urhebers eingreift. Diese Nutzung kann jedoch rechtmäßig sein, wenn entweder die Nutzung durch eine entsprechende Lizenz (CC-0, CC-BY oder CC-BY-SA) erlaubt ist oder die Text- und Data-Mining-Schranke greift. Letzteres bleibt jedoch strittig. Die derzeitige Rechtsprechung tendiert zwar zu einer Anwendbarkeit, hat aber bislang noch wenig Aussagekraft. Hier muss die höchstrichterliche Rechtsprechung abgewartet werden. Aus diesem Grund empfiehlt es sich derzeit, nur entsprechend (CC-)lizenzierte Werke zum Training von KI zu verwenden.