Hat Metas Llama meine Bücher gelesen?

Zwei Mitarbeiter von OpenAI haben 2018 einmal notiert, was man für Fortschritte in der KI-Entwicklung vor allem braucht:

  • Daten

  • Rechenleistung

  • algorithmische Innovation – also Leute, die sich damit auskennen

Für Punkt zwei und drei dieser Liste geben Betreiber großer KI-Systeme viel Geld aus. Hinter »Rechenleistung« verbirgt sich jede Menge teure Hardware. Deshalb ist der KI-Hardware-Hersteller Nvidia an der Börse so immens wertvoll. Außerdem braucht man gewaltige Mengen Energie, Kühlwasser und so weiter. Und: Kompetente Fachleute zur Weiterentwicklung von KI-Systemen können gewaltige Gehälter kosten.

Die dritte Komponente bitte für lau

Für die Daten aber zahlen die KI-Giganten am liebsten gar nichts oder fast gar nichts. Bis heute.

Die Tatsache, dass große KI-Systeme vermutlich mit riesigen Mengen urheberrechtlich geschützten Materials gefüttert wurden, um sie zu dem zu machen, was sie sind, war in dieser Kolumne vor zwei Jahren schon einmal Thema. Damals hatte die »Washington Post« eine Studie veröffentlicht , derzufolge ein häufig genutzter Trainingsdatensatz nicht nur Texte aus Patentdatenbanken und Wikipedia enthielt – sondern zum Beispiel auch aus einem »notorischen Marktplatz für raubkopierte E-Books, der inzwischen vom US-Justizministerium beschlagnahmt wurde«.

Diese Woche nun hat das US-Magazin »The Atlantic« eine Suchmaschine verfügbar gemacht , mit der man eine weitere Datenbank für urheberrechtlich geschütztes Material durchsuchen kann. »Libgen« enthält vor allem wissenschaftliche Fachartikel und Bücher. Diese Datenbank wird in verschiedenen Versionen auf unterschiedlichen Rechnern vorgehalten, die laut dem US-Autorenverband Authors Guild  »aus Russland oder der Ukraine heraus operieren« und sich deshalb dem Zugriff der US-Justiz entziehen.

Hat Mark Zuckerberg persönlich zugestimmt?

Aus Gerichtsdokumenten , die kürzlich veröffentlicht wurden, geht hervor, dass die KI-Abteilung von Meta Libgen zum Training seines Sprachmodells Llama benutzt hat. Die Frage, ob man sich das erlauben soll, sei zuvor bis hin zu »MZ«, also mutmaßlich Mark Zuckerberg persönlich »eskaliert« worden, wie das im US-Firmensprech heißt. In der nun öffentlichen Meta-internen E-Mail , in der die frohe Botschaft verkündet wird, teilt ein Meta-Mitarbeiter noch etwas Interessantes mit: Man wisse »vom Hörensagen«, dass auch OpenAI und Mistral, ein französischer KI-Konkurrent, Libgen für Trainingsdaten nutzten.

Man werde das mit »bestimmten Einschränkungen« nun auch tun, aber »auf keinen Fall jemals öffentlich machen, dass wir mit Libgen traininert haben«. Diese E-Mails sind nun öffentlich, weil sie als Beweismittel in einem Prozess genutzt werden, den unter anderem die US-Komikerin und Autorin Sarah Silverman angestoßen hat.

Was genau die genannten »Einschränkungen« sind, ist unbekannt. »Es ist nicht klar, ob Meta jedes Buch in Libgen heruntergeladen und genutzt hat«, so die Author’s Guild. In jedem Fall aber seien »juristische Aktivitäten im Gang«. In den USA gibt es Sammelklagen gegen Meta, OpenAI, Microsoft, Anthropic und andere KI-Unternehmen. Star-Autoren wie John Grisham und George R.R. Martin  gehören zu den Klägern.

Hat Llama meine Bücher gelesen?

Libgen enthält nicht nur Bücher und wissenschaftliche Artikel in englischer Sprache. Viele Autorinnen und Autoren haben in der letzten Woche erstaunt festgestellt, wie viele ihrer Werke sich in Libgen finden. Auch der Autor dieser Kolumne ist betroffen: Sechs meiner wissenschaftlichen Publikationen und drei meiner Bücher sind der »Atlantic«-Suchmaschine zufolge in Libgen vertreten. Hat Lllama, haben womöglich auch ChatGPT von OpenAI und andere meine Bücher verdaut und daraus gelernt?

Diese Frage lässt sich im Moment nicht beantworten, und das ist ein Problem. Ein Jurist aus dem Vorstand der Verwertungsgesellschaft Wort (VG Wort), Robert Staats, hat Anfang der Woche ein fünfseitiges »Update KI« veröffentlicht , in dem er die aktuelle Rechtslage zusammenfasst. Kurz gesagt: Die Sache ist recht verworren. Welche Rechte etwa Verlage oder Autorinnen und Autoren gegenüber den KI-Giganten haben, ist noch weitgehend unklar, weil an unterschiedlichen Orten in den USA und Europa Gerichtsverfahren anhängig sind. Die VG Wort selbst hat vergangenes Jahr eine KI-Lizenz eingeführt, die aber nur für die interne Nutzung in Unternehmen gilt, und explizit nicht für Sprachmodelle, die offen im Netz stehen. Autorinnen und Autoren müssen einwilligen, dass ihre Werke so genutzt werden.

Von klugen und weisen Männern

Ein Richter im US-Staat Delaware, wo aus steuerlichen Gründen große Teile der US-Digitalwirtschaft ihren offiziellen Sitz haben, hat kürzlich eine interessante Entscheidung getroffen: Er wies das Argument zurück, beim Einsatz von Daten für das KI-Training ohne Vergütung handele es sich um »Fair Use«. Geklagt hatte die Nachrichtenagentur Thompson Reuters , und zwar schon vor fünf Jahren. Der Fall ist noch nicht abgeschlossen, zeigt aber, dass es in den USA Richter gibt, die die Aktivitäten der KI-Unternehmen aufmerksam beobachten und möglicherweise mittlerweile neu bewerten.

Der Richter im vorliegenden Fall hatte explizit seine zuvor formulierte Meinung geändert. Die Begründung des Gerichts  beginnt mit den Worten: »Ein kluger Mann weiß, wann er recht hat. Ein weiser Mann weiß, wann er Unrecht hat.« Nun stellte er sich auf die Seite der Rechteinhaber.

VG-Wort-Vorstandsmitglied Staats weist darauf hin, dass es generative KI-Systeme, »wie wir sie heute kennen und anwenden«, noch nicht gab, »als die gesetzlichen Regelungen in den Jahren 2019 und 2021 eingeführt wurden.« Er sagt: »Ohne eine angemessene Vergütung besteht die konkrete Gefahr, dass es für menschliche Schöpfungen nicht mehr genug Anreize gibt und echte Kreativität massiv durch maschinengemachte KI ersetzt wird.«

Das ist aber nur ein Aspekt. Es gibt auch noch einen geopolitischen.

Zähne zeigen, und zwar schnell

Die erst 2024 in Kraft getretene KI-Verordnung der EU  enthält nur sehr allgemeine Formulierungen  zu den Transparenzpflichten der KI-Unternehmen hinsichtlich ihrer Trainingsdaten. Die EU sollte hier Zähne zeigen, und zwar schnell.

Man kann und muss diese Vorgänge nämlich auch vor dem Hintergrund der aktuellen Aggression gegenüber Europa aus dem Weißen Haus betrachten. Die Regierung von Donald Trump möchte die Beziehungen zur EU ja künftig offenkundig auf Basis von Drohungen und Machtausübung gestalten. Die EU muss sich zur Wehr setzen – und dazu braucht es Hebel. Die Digitalwirtschaft und die so oft gescholtene EU-Regulierung in diesem Bereich bieten da prächtige Möglichkeiten.

Die EU sollte schleunigst dafür sorgen, dass die großen KI-Unternehmen gezwungen werden, absolute Transparenz über den Inhalt ihrer Trainingsdatensätze herzustellen. Im Moment kann niemand sagen, ob in Llama oder ChatGPT auch die eigenen Werke stecken. Plausibel ist das, gerade auch für Texte, die nicht auf Englisch erschienen sind: Die großen Sprachmodelle sprechen ja auch Deutsch, Französisch oder Italienisch, und irgendwoher muss das Material für qualitativ hochwertige Texte in diesen Sprachen ja stammen – vermutlich nicht aus den USA.

Ein hochrangiger Meta-Manager erklärte laut den jetzt veröffentlichten internen E-Mails, es sei für Meta »wirklich wichtig, so bald wie möglich an Bücher zu kommen«, denn die seien »tatsächlich wichtiger als Web-Inhalte«. Bezahlen wollte das Meta-Team dafür aber lieber nicht, denn das sei »unzumutbar teuer«.

Zur Erinnerung: Meta ist eines der wertvollsten börsennotierten Unternehmen der Welt und bezahlt selbstverständlich seine Stromrechnungen und die Computer, die es einsetzt. Nur eben die Trainingsdaten nicht.

Die EU glaubt, dass X europäisches Recht bricht

Bei der Münchner Sicherheitskonferenz vor einigen Wochen führte US-Vizepräsident J.D. Vance den neuen Ton der US-Regierung vor. Statt über den Ukrainekrieg und Europas Sicherheit sprach er lieber über die hier angeblich bedrohte »Meinungsfreiheit«. Eigentlich ging es da nicht zuletzt um seinen Förderer Elon Musk: Vance drohte den Europäern durch die Blume, ihnen die militärische Unterstützung der USA zu entziehen, wenn die EU ihre Gesetze auch gegen die mit Hass, Desinformation und Fake-Kommunikation gefüllten Plattformen wie Elon Musks X durchsetzt. Die EU ist der Meinung, dass X europäisches Recht bricht .

Vances markiger Auftritt verriet eine große Schwäche der Allianz von Tech-Fürsten und Trumps Regierung: Der europäische Markt ist für Mark Zuckerberg, Elon Musk und andere extrem wichtig.

Meta etwa macht ein Fünftel bis ein Viertel seines Umsatzes  in Europa. Es wird Zeit, dass die Europäische Union das Gewicht ihres Riesenmarktes auch im Digitalbereich in die Waagschale wirft: Mit Transparenzregeln für KI, der Drohung, die KI-Giganten für ihre Selbstbedienungsmentalität zur Kasse zu bitten und mit stringenter Durchsetzung von EU-Regulierung für soziale Medien und andere digitale Dienste.

Musk, Meta et al. brauchen Europa – und sie schulden uns womöglich eine Menge Geld.

Verwandte Artikel

Next Post