La mise à disposition courant 2022 du système d’IA ChatGPT a été sans précédent avec un nombre d’utilisateurs avoisinant aujourd’hui les 400 millions d’utilisateurs inscrits. Ce système d’IA[1],ci-après «SIA », repose sur différents modèles d’IA[2] (GPT-4o, o1, GPT3-5 turbo etc.). Ces modèles, moteur du SIA sont spécialisés dans le traitement automatisé des langues ou « TAL ». Ils ont été conçus pour déduire et apprendre les langues avec la capacité de générer des traductions, des textes dans un format structuré et cohérent même s’ils ne sont pas exempts d’erreurs. Le développement de ces modèles s’est appuyé sur l’ingestion d’énormes quantités d’informations via notamment le recours à des bases de données structurées, mais à 99% sur des données collectées automatiquement via des techniques de « web-scrapping » ou encore de « moissonnage »[3]. Or ces techniques de collecte massive mettent en tension la sauvegarde de la vie privée des individus (notamment les principes du Règlement Général sur la Protection des Données, ci-après « RGPD »), et la préservation de l’innovation. C’est dans ce cadre qu’intervient la sanction prononcée par l’autorité italienne de protection des données (ci-après Garante) rendue le 2 novembre 2024 à l’encontre de la société OpenAI[4]. Nous analyserons dans un premier temps le contexte initial (I). Nous nous pencherons ensuite sur les mesures correctives et les sanctions infligées, en examinant leurs portées immédiates et leurs implications pour OpenAI (II) et enfin, nous aborderons l’avenir de cette affaire (III).
1. Origine et contexte de la sanction
Le 20 mars 2023, une violation de données[5] a été identifiée sur le service ChatGPT. Un bug a permis à certains utilisateurs d’avoir accès à l’historique des titres de conversation d’autres utilisateurs, ainsi que les prénoms, les noms, les adresses électroniques, ainsi que les quatre derniers chiffres et la date d’expiration des cartes de crédit. A la suite de cette violation et constatant l’absence de notification, la Garante, s’est saisie d’office, a procédé à une demande d’information et a commencé à identifier plusieurs indices de non-conformité, parmi lesquels la collecte de données sans base légale claire, l’absence de mécanisme de vérification de l’âge et le défaut de précision des informations fournies aux utilisateurs et au non-utilisateurs.
S’agissant des manquements relatifs à la transparence, le RGPD impose aux responsables de traitement des obligations de transparence et d’information claires, en vertu des articles 5, 12 et 13. L’exception prévue à l’article 14.5.b)[6] dispense le responsable de traitement d’informer individuellement les personnes concernées uniquement si cela est impossible ou entraîne des efforts disproportionnés, à condition que l’information soit rendue accessible au plus grand nombre, notamment via le site internet du responsable[7]. En l’espèce, l’incapacité technique est flagrante, les données collectées sont à 99% collectées via des techniques de scraping sur des sources publiques[8]. Cependant, Garante a constaté que la politique de confidentialité d’OpenAI présentait des imprécisions concernant les utilisateurs et ne fournissait notamment aucune information aux non-utilisateurs dont les données étaient massivement collectées sans qu’il n’y ait aucun processus d’anonymisation. De plus, OpenAI n’a pas rendu ces informations facilement accessibles. En conséquence, OpenAI a donc violé les articles 5, 12 et 13 du RGPD en ne respectant pas ses obligations de transparence et d’information, car elle n’a ni informé individuellement les personnes concernées ni rendu ces informations de manière suffisamment accessible conformément à l’exception de l’article 14 paragraphe 5 b).[9]
S’agissant de l’identification d’une base légale entre le lancement de ChatGPT le 30 novembre 2022 et le 30 mars 2023, OpenAI n’avait pas correctement identifié de base légale pour le traitement des données à des fins de formation des modèles. En effet, les éléments de sa politique de confidentialité faisaient référence à la fois au contrat et à l’intérêt légitime. De plus, il ressort des éléments versés par OpenAI une absence d’éléments relatifs à une étude spécifique du choix de la base légale relative à l’entrainement du modèle. Et enfin que si l’évaluation[10] nécessaire à la mise en place de l’intérêt légitime a été réalisée, elle ne s’est faite qu’a posteriori de la mise en place du traitement[11]. Or ce manquement constitue une violation des articles 5.2 et 6 du RGPD relatifs à la licéité du traitement.
De plus, l’autorité relève l’absence de mécanismes efficaces pour empêcher l’accès des mineurs de moins de 13 ans et de mécanismes de vérification du consentement parental des mineurs âgés de 13 à 18 ans. Ce manquement viole les articles 8, 24 et 25 du RGPD, relatifs à la protection des mineurs et à l’intégration des principes de privacy by design[12] dans les processus de traitement.
Enfin, l’approche probabiliste de l’IA générative utilisée par OpenAI entraîne la production de résultats biaisés ou inexacts. Bien que des mesures aient été mises en place pour limiter ces erreurs, elles ont été jugées insuffisantes par la Garante, ce qui constitue une violation du principe d’exactitude prévu à l’article 5.1.d du RGPD.
2. Mesures correctives et sanctions
Le 30 mars 2023, soit moins de 10 jours après la violation de données, la Garante a imposé une série de mesures d’urgence à OpenAI afin de pallier ces manquements ainsi qu’une limitation du traitement sur le territoire italien. Notamment, la société a été contrainte de publier des informations détaillées sur le traitement des données sur son site web et de mettre à disposition des outils permettant aux utilisateurs et non-utilisateurs d’exercer leurs droits (formulaire d’opposition, d’exercice des droits de rectification et de suppression). Concernant les mentions d’information d’OpenAI, intégrant à la fois le contrat et l’intérêt légitime, la Garante leur a intimé l’obligation de rechercher une base légale adéquate pour l’entraînement des modèles, à savoir soit le recours à l’intérêt légitime ou au consentement. L’entreprise américaine a également dû mettre en œuvre des mécanismes de vérification de l’âge pour protéger les mineurs. Enfin, une campagne d’information publique devait être réalisée avant le 15 mai 2023 pour informer les utilisateurs et non-utilisateurs des traitements de données à caractère personnel réalisés ainsi que de leurs droits.
Il est très rare de voir une autorité soumettre un responsable de traitement à la réalisation d’une campagne d’information publique. Or, cette mesure n’est pas nouvelle car déjà prévue dans les lignes directrices relatives à la transparence détaillant les mesures complémentaires à mettre en œuvre en cas de recours à l’exception de l’article 14.5 b) du RGPD[13] et est spécifiquement là pour remédier à l’absence d’information des personnes concernées. Cependant, d’une part OpenAI n’a pas respecté les modalités de l’ordonnance de la Garante en s’affranchissant de la validation préalable du contenu, et de la forme qu’allait prendre cette campagne. D’autre part, le contenu n’était pas suffisamment clair ni accessible pour atteindre efficacement le public concerné. Obligeant OpenAI à réviser entièrement sa campagne tant sur le fond que sur la forme. En mai 2023, une nouvelle stratégie de communication a été élaborée en concertation avec la Garante. Cette fois, la campagne s’appuiera sur des médias nationaux majeurs, incluant des annonces dans des journaux, des vidéos explicatives et des messages diffusés sur des plateformes numériques.
En conséquence de l’ensemble de ces manquements, la Garante a infligé une amende totale de 15 millions d’euros à OpenAI. Cette somme inclut 9 millions d’euros pour les manquements aux obligations du RGPD, 320 000 euros pour la violation des obligations de notification des violations de données, et 5,68 millions d’euros pour le non-respect de l’injonction relative à la campagne d’information.
Cependant, la Garante a dû se dessaisir de certains manquements qu’elle avait constatés.
3. Une suite de l’affaire en préparation
En cours de procédure, en février 2024, OpenAI a désigné la Data Protection Commission d’Irlande (ci-après DPC) comme autorité-chef de file[14] au sein de l’Union européenne, conformément au mécanisme de guichet unique du RGPD, entrainant un transfert de compétences.
Cependant, ce transfert n’est pas absolu, et la Garante va procéder à une qualification de l’ensemble des manquements et déterminer le caractère continu[15] ou non des infractions. Si l’infraction est continue, l’appréciation du manquement sera transférée à la DPC. En revanche, si l’infraction est reconnue comme étant réalisée avant la nomination de la DPC, la Garante restera compétente.
En l’espèce, les manquements relatifs au défaut de précision, et aux manquements relatifs à la base légale ont été transférés à la DPC, ce qui explique en partie le montant « modéré » de l’amende prononcée au regard des manquements relevés. Toutefois, la DPC devra juger de la gravité des manquements d’OpenAI, et potentiellement prononcer une sanction financière et/ou, d’imposer des mesures de correctives dont peut être la suppression du modèle ou l’anonymisation du modèle. Il est à souligner que la DPC a déjà sollicité l’avis de l’European Data Protection Board sur les éléments que les autorités doivent contrôler dans le cadre du développement et déploiement de modèles d’IA[16]. On suivra avec attention le dénouement de cette procédure.
[1] RIA – Règlement (UE) 2024/1689 du 13 Juin 2024 article 3 1) : «un système automatisé qui est conçu pour fonctionner à différents niveaux d’autonomie et peut faire preuve d’une capacité d’adaptation après son déploiement, et qui, pour des objectifs explicites implicites, déduit à partir des entrées qu’il reçoit, la manière de générer des sorties telles que des prédictions, du contenu, des recommandations ou des décisions qui peuvent influencer les environnements physiques ou virtuels ; »
[2] Ibid,article 3, 63) « «modèle d’IA à usage général», un modèle d’IA, y compris lorsque ce modèle d’IA est entraîné à l’aide d’un grand nombre de données utilisant l’auto-supervision à grande échelle, qui présente une généralité significative et est capable d’exécuter de manière compétente un large éventail de tâches distinctes, indépendamment de la manière dont le modèle est mis sur le marché, et qui peut être intégré dans une variété de systèmes ou d’applications en aval, à l’exception des modèles d’IA utilisés pour des activités de recherche, de développement ou de prototypage avant leur mise sur le marché »;
[3] Outils de moissonnage des données (« web scraping ») mise en œuvre des techniques d’extraction des contenus web, via des scripts ou programmes automatisés. » CNIL Recommandations – réutilisateurs des données publiées sur internet;
[4] Sanction de la Garante du 2 novembre 2024 [10085455]
[5] Définition de violation de données par la CNIL : Une violation de la sécurité se caractérise par la destruction, la perte, l’altération, la divulgation non autorisée de données à caractère personnel transmises, conservées ou traitées d’une autre manière, ou l’accès non autorisé à de telles données, de manière accidentelle ou illicite.
[6] Article 14 5. b) « b) la fourniture de telles informations se révèle impossible ou exigerait des efforts disproportionnés, en particulier pour le traitement à des fins archivistiques dans l’intérêt public, à des fins de recherche scientifique ou historique ou à des fins statistiques sous réserve des conditions et garanties visées à l’article 89, paragraphe 1, ou dans la mesure où l’obligation visée au paragraphe 1 du présent article est susceptible de rendre impossible ou de compromettre gravement la réalisation des objectifs dudit traitement. En pareils cas, le responsable du traitement prend des mesures appropriées pour protéger les droits et libertés ainsi que les intérêts légitimes de la personne concernée, y compris en rendant les informations publiquement disponibles; »
[7] Groupe de travail « Article 29 » Lignes directrices sur la transparence au sens du règlement (UE) 2016/679
[8] Élément fourni par OpenAI dans le cadre de la procédure « Prot. No56039/23 » : « source acessible au public toute information librement et ouvertement disponible sur l’internet et qui, avant d’utiliser ces données, applique des filtres pour supprimer les informations dont le modèle ne devrait pas “apprendre”, telles que les discours haineux, les contenus pour adultes, les sites d’agrégation de contenus et les spams”
[9] Et notamment voir en détail « lignes directrices sur transparence au sens règlement UE2016/679 » du G29 ;
[10] Voir en ce sens https://www.cnil.fr/fr/les-bases-legales/interet-legitime;
[11] Transmission par OpenAI au Garante d’un DPIA (analyse d’impact) et d’une balance des intérêts légitimes(LIA) le 19 mai et le 20 novembre 2023 ;
[12] EDPB Guidelines 4/2019 on Article 25 Data Protection by Design and by Default : « Conformément à l’article 25, paragraphe 1, le responsable du traitement met en œuvre des mesures techniques et organisationnelles appropriées, qui sont destinées à mettre en œuvre les principes relatifs à la protection des données et à assortir le traitement des garanties nécessaires pour répondre aux exigences et protéger les droits et libertés des personnes concernées. »
[13] Voir page 25 Groupe de travail « Article 29 » Lignes directrices sur la transparence au sens du règlement (UE) 2016/679
[14] Article 56 du RGPD : Définition et compétences de l’autorité de contrôle chef de file
[15] Cour européenne des droits de l’Homme, Grande Chambre, 18 avril 2013, Rohlena/République tchèque, n° 59552/08 : « une violation “continue” s’entend d’une action (ou d’une omission) qui dure pendant une certaine période, tandis qu’une violation “continue” s’entend de plusieurs actions qui contiennent tous les éléments d’un même acte illicite (ou d’un acte illicite similaire) commis pendant une certaine période ».
[16] EDPB opinion on AI models: GDPR principles support responsible AI