Large Language Models existierten schon vor ChatGPT
Mit der Einführung von ChatGPT wurde die Welt auf den Kopf gestellt – zumindest scheint es so. Tatsächlich existierten Large Language Models jedoch schon vor der Veröffentlichung von OpenAIs ChatGPT. Den Grundstein für die Transformation von „einfachem“ Natural Language Processing (NLP) hin zur Generative AI legten Google und die University of Toronto bereits 2017 in ihrem Paper „Attention is all you need“. Dort präsentierten sie die Transformers-Architektur, die mithilfe des Aufmerksamkeitsmechanismus Beziehungen zwischen Wörtern erfasst und Abhängigkeiten über längere Textsequenzen modelliert. So ist es möglich, längere, zusammenhängende Texte zu generieren und sogar ganze Dialoge zwischen Menschen und KI-Systemen zu erschaffen.
OpenAI führte 2018 sein erstes GPT-Modell (Generative Pre-trained Transformer) ein, das auf der Transformers-Architektur basiert. Seitdem wurden die Sprachmodelle kontinuierlich erweitert, sowohl durch die Erweiterung der Datensätze als auch durch die Vergrößerung der Modelle selbst – von den anfänglichen 115 Millionen Parametern (GPT-1) bis hin zu den gemunkelten 170 Billionen Parametern (GPT-4).
Nutzungsrechte
Nach der Veröffentlichung von ChatGPT im November 2022 gewann die Community an Fahrt und es wurden zahlreiche neue Modelle vorgestellt. Ein kritischer Aspekt bei der Betrachtung dieser Modelle liegt in ihrer Transparenz und den Nutzungsrechten. Obwohl einige Modelle als Open Source gekennzeichnet sind, sind sie aufgrund ihrer Entwicklungsgrundlage nicht für kommerzielle Zwecke geeignet. Manche Modelle nutzen beispielsweise mit ChatGPT generierte Dialoge als Trainingsdaten. Dies macht die Nutzung dieser Modelle rechtlich schwierig, denn OpenAIs Nutzungsrechte gestatten die Verwendung der API zur Erzeugung von Konkurrenzprodukten nicht. Einige Modelle verwenden hingegen das geleakte Meta LLaMA, das nur für die Wissenschaft verwendet werden darf. Um die LLaMA-Ableger nutzen zu können, müssen deren Delta-Gewichte auf das originale LLaMA angewendet werden. Die Delta-Gewichte laufen hier unter der Apache-2.0-Lizenz, das darunter liegende Meta-Modell jedoch unter einer nichtkommerziellen Lizenz. Das wirft ein Schlaglicht darauf, dass es oft nicht nur eine, sondern zwei Lizenzen für ein Modell gibt: eine für den Inferenzcode (die oft etwas generöser ist) und eine weitere für die Gewichte des Modells, die (zum Beispiel bei LLaMA) oft etwas restriktiver ist und eine kommerzielle Nutzung ausschließt. Mit diesem Schachzug kann sich ein Unternehmen das Label „Open Source“ verleihen (der Code steht unter einer entsprechenden Lizenz), gleichzeitig kann aber die kommerzielle Nutzung des eigenen Know-hows verhindert werden (denn der Code nützt ohne die Modellgewichte nichts).
In jüngster Zeit sind jedoch bei wichtigen Modellen die Lizenzen (auch für die Gewichte) im Nachhinein durch permissivere ersetzt worden. Falcon ist ein solches Beispiel, das zunächst eine kommerzielle Nutzung nur gegen Lizenzgebühren zuließ, bald danach aber unter eine Apache-2.0-Lizenz gestellt wurde. Auch die Lizenz von LLaMA-2 lässt, anders als bei LLaMA, eine kommerzielle, gebührenfreie Nutzung zu – jedoch in eingeschränktem Umfang. Wenn die Anzahl der aktiven Nutzer:innen in einem Monat die Schwelle von 700 Millionen überschreitet, ist eine Nutzungsgenehmigung von Meta erforderlich.
Die kommerzielle Bereitstellung und Nutzbarkeit von Modellen als Alternativen zu ChatGPT ist für die Entwicklung neuer LLM-Applikationen erstrebenswert, das zeigt die Entstehung der Projekte, die diesen offenen Ansatz verfolgen und deshalb eigene Architekturen und bereinigte, bzw. durch Crowdsourcing gesammelte, Datensätze zum Einsatz bringen. Ein prominentes Beispiel dafür ist Dolly 2.0, für das Databricks mit eigenen Angestellten in einer massiven Crowdsourcing-Anstrengung über 15.000 Trainingsdaten generiert hat, nachdem das erste Modell Dolly 1.0 auf mit ChatGPT erzeugten Daten trainiert wurde und kommerziell nicht zulässig war. Ein weiteres Beispiel ist das Projekt RedPajama von together.ai, das das originale Meta LLaMA Dataset reproduzierte und schließlich selbst Modelle trainierte und unter permissiver Lizenz veröffentlichte.
Datensicherheit
Ein weiterer kritischer Aspekt betrifft die Nutzung und damit die Sicherheit der Daten, mit denen LLMs interagieren. Wo werden die unternehmenssensiblen Daten für das Finetuning der Modelle oder die Anreicherung der Prompts gespeichert und wie werden sie ggf. weiterverwendet? Dieselbe Frage stellt sich für die im Chat ausgetauschten (vielleicht sogar zum Teil personenbezogenen) Daten. Die Nutzung von OpenAIs Modellen wurde diesbezüglich stark hinterfragt und kritisiert. Mittlerweile hat OpenAI hier nachgeschärft, sodass das Teilen der Daten mit OpenAI zur Weiterentwicklung von AI-Modellen über ein Opt-in von dem/der Nutzer:in selbst gesteuert werden kann. OpenAI behält sich aber vor, die Daten zum Missbrauchsmonitoring 30 Tage aufzubewahren. Ebenso hält es Microsoft mit seinem Azure OpenAI Service, über den auf die OpenAI-Modelle per REST-APIs zugegriffen werden kann.
Das deutsche Start-up Aleph Alpha positioniert sich in dieser Debatte eindeutig in Richtung Datensicherheit – es setzt auf ein eigenes Rechenzentrum in Deutschland und legt großen Wert auf die Einhaltung der Datenschutz-Grundverordnung (DSGVO). Zusätzlich nutzt das Start-up Explainable-AI-Methoden, um die KI-Ausgabe nachvollziehen und sogar Ausgaben ohne vertrauenswürdige Quelle unterdrücken zu können. Die Plattform von MosaicML für Modelltraining und Deployment positioniert sich ebenfalls und verspricht, die Daten weder zu nutzen noch zu speichern.
Diese Themen sind dann relevant, wenn ein Unternehmen sich dafür entscheidet, das LLM nicht selbst zu hosten, sondern die Daten für das Finetuning sowie die Nutzer-Prompts an eine externe API zu versenden. Gerade deswegen sind Open-Source-Modelle für Unternehmen attraktiv, da sie auf der eigenen Infrastruktur deployt werden können und damit die Kontrolle über die eigenen Daten gewährleistet ist.