Künstliche Intelligenz und sog. Large Language Models werden in Datenschutzkreisen seit Monaten heiß diskutiert (und da werden Datenschützer auch plötzlich zu den größten KI-Experten…). U. a. geht es um die Frage, wie Betroffenenansprüche zu erfüllen sind bzgl. der Daten, die in den Modellen gespeichert sind. Denn dass da personenbezogene Daten drin gespeichert („memorisiert“) sind, ist doch klar. Woher soll denn ChatGPT sonst wissen, dass Joe Biden der aktuelle US-Präsident ist?
Aber ist das wirklich so (also das mit den Daten, nicht Joe Biden)? Der Hamburgische Datenschutzbeauftragte wagte sich im Juli mit einem „Debattenimpuls“ nach vorne: In LLMs sind gar keine personenbezogenen Daten gespeichert, sondern nur Sprachinformationen als Fragmente in Form „numerischer Tokens“. Beispiel: [I][st][ e][in][ LL][M][ person][en][be][z][ogen][?]. Alles Weitere ist – vereinfacht gesagt – nur ziemlich abgefahrene Stochastik. Betroffenenrechte könnten sich folglich nur auf den Input und den Output eines LLM-basierten KI-Systems beziehen, nicht auf den Zauber dazwischen.
[Das][ n][enne][ ich][ mal][ praxis][nah][.]