Themenbild Services der RTR

Risikostufen KI-Modelle

KI-Modelle mit allgemeinem Verwendungszweck

Die gesetzgebenden EU-Organe fokussierten sich zu Beginn auf die Regulierung von KI-Systeme, welche für einen mehr oder weniger spezifischen Zweck (z. B. autonomes Fahren) entwickelt wurden. Seitdem KI-Tools wie ChatGPT & Co auch die breite Öffentlichkeit erreichte, wandte sich dann auch der Blick auf „KI-Modelle mit allgemeinem Verwendungszweck“.

Die Infografik fasst den Fließtext zusammen und beschreibt die Risikostufen von KI-Modellen
KI-Modelle werden entsprechend der Höhe des Risikos reguliert, das von ihnen ausgeht. © RTR (CC BY 4.0)

Was sind KI-Modelle mit allgemeinem Verwendungszweck?

KI-Modelle mit allgemeinem Verwendungszweck – im Englischen als General Purpose AI Models (GPAI) oder Foundation Model bezeichnet – sind KI-Modelle (nicht zu verwechseln mit KI-Systemen, siehe Erwägungsgründe 97f), die ein breites Spektrum von Aufgaben zu bewältigen können, anstatt für eine spezifische Aufgabe oder Anwendung optimiert worden zu sein. Diese Modelle sind oft in der Lage, große Mengen an unstrukturierten Daten wie Text, Bildern, Audio und Videos zu verarbeiten und auch Aufgaben wie Klassifizierung, Generierung und Vorhersagen zu übernehmen.

Aufgrund der Flexibilität und Anpassungsfähigkeit werden diese Modelle in einer Vielzahl von Fällen und verschiedenen Branchen eingesetzt. Sie bilden auch oftmals die Basis für Feinjustierungen in Bezug auf spezifische KI-Systeme. Zu den Beispielen für GPAI-Modelle zählen etwa die auf Transformer-Modelle beruhenden großen Sprachmodelle („Large Language Models [LLM])“ von OpenAI („GPT-3.5/GPT-4“), Meta („LLama“) oder Mistral („Mixtral“). GPAI-Modelle beschränken sich allerdings nicht auf Sprachmodelle, auch andere Modelle beispielsweise zur Klassifikation können unter diese Definition fallen.

Um mögliche für GPAI-Modelle spezifische Risiken (etwa unerwünschte Ergebnisse, Urheber- und Datenschutzverstöße bei der Entwicklung) zu begegnen, werden den Anbieter:innen insbesondere Dokumentations- und Informationspflichten (siehe Art. 53 AIA) auferlegt.

In welchem Zusammenhang stehen KI-Modelle, GPAI-Modelle und KI-Systeme?

Zwischen den Begriffen „KI-Systeme“ und „KI-Modelle“ ist klar zu trennen. In den Anwendungsbereich des AI Act fallen nicht alle KI-Modelle, sondern ausschließlich GPAI-Modelle. GPAI-Modelle können zwar Teil eines KI-Systems sein, sie bilden allerdings isoliert betrachtet kein KI-System. Damit ein GPAI-Modell zu einem KI-System werden kann, wird das Hinzufügen weiterer Komponenten – wie z. B. einer Nutzerschnittstelle – notwendig. In diesem Fall wird dann von einem KI-System mit allgemeinem Verwendungszweck (bzw. GPAI-System) im Sinne des Art. 3 Ziffer 66 AIA gesprochen.

Die Infografik fasst den Fließtext zusammen und beschreibt den Unterschied zwischen KI-Systemen und KI-Modellen
Zwischen den Begriffen „KI-Systeme“ und „KI-Modelle“ ist klar zu trennen. In den Anwendungsbereich des AI Act fallen nicht alle KI-Modelle, sondern ausschließlich GPAI-Modelle © RTR (CC BY 4.0)

Sind GPAI und generative KI dasselbe?

GPAI und generative KI sind ähnliche Konzepte, aber nicht genau dasselbe. GPAI-Modelle sind darauf ausgelegt, ein breites Anwendungsspektrum zu bedienen und erfassen verschiedenste KI-Modelle. Generative KI bezieht sich hingegen auf Modelle, die auf das Erzeugen von Texten, Bildern, Videos, Musik und anderen Inhalten ausgerichtet sind (GPAI-Systeme wie z. B. ChatGPT für das Generieren von Texten; Midjourney oder DALL-E für das Generieren von Bilder und Videos etc.). Generative KI ist daher ein spezifischer Unterbereich von GPAI-Modellen. 
Kurzgefasst haben GPAI-Modelle vielseitige Einsatzmöglichkeiten, während generative KI-Systeme sich speziell auf die Fähigkeit beziehen, Daten oder Inhalte zu generieren.

Wann liegt ein GPAI-Modell mit systemischem Risiko vor?

Eine Sonderstellung nehmen GPAI-Modelle mit systemischen Risiken ein. Mit „Systemrisiko“ referiert der Unionsgesetzgeber auf Risiken, die für ein GPAI-Modell, welche über Fähigkeiten mit einem hohen Wirkungsgrad („high impact capabilities“) verfügt, spezifisch sind (Art. 3 Ziffer 65 Teilsatz 1 AIA). Ein GPAI-Modell, welches Fähigkeiten mit einem hohen Wirkungsgrad verfügt, liegt dann vor, wenn die Fähigkeiten des in Rede stehenden GPAI-Modells jene der fortschrittlichsten GPAI-Modelle entsprechen oder diese sogar übertreffen (Art. 3 Ziffer 64 AIA). Diese Modelle haben eine gewisse Reichweite bzw haben diese für die öffentliche Gesundheit, die Sicherheit, die öffentliche Sicherheit, die Grundrechte oder die Gesellschaft tatsächlich oder vernünftigerweise vorhersehbare negative Folgen, die insgesamt erhebliche Auswirkungen auf den Unionsmarkt haben, die sich in großem Umfang über die gesamte Wertschöpfungskette hinweg verbreiten können (vgl. Art. 3 Ziffer 65 Teilsatz 2 AIA).

Ein GPAI-Modell mit systemischem Risiko liegt vor, wenn eines der folgenden Kriterien erfüllt ist (Art. 51 Abs. 1 AIA):

  • Es verfügt über Fähigkeiten mit einem hohen Wirkungsgrad, welche auf der Grundlage geeigneter technischer Instrumente und Methodologien, einschließlich Indikatoren und Benchmarks ermittelt wird (z. B. wird dies angenommen, wenn die im Training des Modells notwendige Anzahl an Berechnungen, welche in Gleitkommaoperationen, oder kurz „FLOP“ („Floating Point Operation“) gemessen wird, über 1025 liegt, siehe Art. 51 Abs. 2 AIA);
  • Es liegt eine von Amts wegen ergangene Entscheidung der Kommission oder eine qualifizierte Warnung durch das wissenschaftliche Gremium vor, wonach das GPAI-Modell Fähigkeiten oder Auswirkungen hat, die den oben genannten Kriterien gleichwertig sind.

Exkurs: Was ist eigentlich ein FLOP?

Als Gleitkommaoperation (Englisch: FLoating Point OPeration, FLOP) definiert der AI Act in Art. 3 Z. 67 jede Rechenoperation mit Gleitkommazahlen. Davon umfasst sind etwa Grundrechenoperationen wie Addition und Multiplikation. Eine einfache Rechnung wie „42 * 42 + 17,32“ wären damit zwei FLOPs (42*42; 1764 + 17,32).

Die Anzahl der Gleitkommaoperationen, die in der Trainingsphase notwendig waren, verwendet der AIA als Substitut für die Mächtigkeit eines Modells. So geht der AI Act davon aus, dass beim derzeit festgelegten Schwellenwert von 1025 FLOPs (ausgeschrieben: 10.000.000.000.000.000.000.000.000 Rechenoperationen) ein Modell mit hohem Wirkungsgrad entsteht. Aktuelle Open Source-Modelle überschreiten diese Grenze bereits: Das von Meta im Juli 2024 als Open Source veröffentlichte LLama-3-Modell 405B erreicht in der aufgewendeten Trainingsleistung 3,8 x 1025 FLOPS.

Um diese Zahl einzuordnen: Ein aktueller Smartphone-Chip schafft derzeit eine Größenordnung von mehreren 1012 FLOPs pro Sekunde („Teraflop/s“), eine aktuelle Heimanwender-Grafikkarte mehr als das vierzigfache davon. Aktuelle Rechenzentren-GPUs schaffen derzeit bereits fast 2.000 Teraflops pro Sekunde bei einfachen Rechenoperationen. Ein aktuelles Smartphone müsste damit 100.000 Jahre am Stück rechnen, um die Grenze der 1025 Rechenoperationen zu erreichen.

Die Relationen sind in der untenstehenden Grafik zusammengefasst.

Die Infografik beschreibt den Begriff „FLOP“ und verdeutlicht Relationen unterschiedlicher Geräte.
Die Infografik beschreibt den Begriff „FLOP“ und verdeutlicht Relationen unterschiedlicher Geräte. © RTR (CC BY 4.0)

Zur Beurteilung, ob ein GPAI-Modell mit systemischem Risiko vorliegt, sind folgende Parameter gemäß Anhang XIII zu berücksichtigen:

  • Anzahl der Parameter des Modells;
  • Qualität oder Größe des Datensatzes, zum Beispiel gemessen durch Tokens;
  • der für das Training des Modells verwendete Rechenaufwand, gemessen in FLOPs oder angegeben durch eine Kombination anderer Variablen wie geschätzte Kosten des Trainings, geschätzte Zeit, geschätzter Zeitbedarf für das Training oder geschätzter Energieverbrauch für das Training;
  • Eingabe- und Ausgabemodalitäten des Modells, zum Beispiel Text-zu-Text (große Sprachmodelle), Text zu Bild, Multimodalität, Schwellenwerte auf dem Stand der Technik für die Bestimmung von Fähigkeiten mit hohem Wirkungsgrad für jede Modalität sowie die spezifische Art der Inputs und Outputs (z. B. biologische Sequenzen);
  • Benchmarks und Bewertungen der Fähigkeiten des Modells, einschließlich der Berücksichtigung der Anzahl der Aufgaben ohne zusätzliches Training, Anpassungsfähigkeit zum Erlernen neuer, unterschiedlicher Aufgaben, seinen Grad an Autonomie und Skalierbarkeit sowie die Werkzeuge, zu denen es Zugang hat;
  • ob es hat aufgrund seiner Reichweite große Auswirkungen auf den Binnenmarkt hat, wovon auszugehen ist, wenn es mindestens 10 000 registrierten gewerblichen Nutzern zur Verfügung gestellt wurde mit Sitz in der Union zur Verfügung steht;
  • Anzahl der registrierten Endnutzer:innen.

Aufgrund des Risikopotentials werden den Anbieter:innen von GPAI-Modellen mit systemischen Risiken über Art. 53 AIA hinausgehende Pflichten auferlegt. Anbieter:innen haben insbesondere Maßnahmen zur Ermittlung, Bewertung und Minderung von Systemrisiken zu treffen (siehe Art. 55 AIA).

Europäisches Parlament: General-purpose artificial intelligence (EN)