Les 4 thématiques prioritaires de contrôle de la CNIL

Disposant d’un pouvoir discrétionnaire, la CNIL peut contrôler les organismes qui traitent des données personnelles, à la suite de plaintes qu’elle reçoit, de signalements qui lui sont faits, ou parce qu’elle décide de se saisir d’un cas particulier. Dans le cas où l’Autorité de contrôle française constate des manquements concernant la réglementation sur les données personnelles, elle peut décider d’une mise en demeure publique ou non, prononcer différentes mesures ou amendes administratives.
Chaque année, la CNIL se positionne sur des thématiques prioritaires pour orienter sa politique de contrôle sur les sujets de grande importance pour le public et également pour évaluer la conformité des acteurs choisis.

Le saviez-vous ? Ces thématiques représentent 30 % de ses contrôles effectués.

Pour 2024, la CNIL se concentrera sur 4 priorités :

Collecte de données dans le cadre des Jeux Olympiques et Paralympiques
Vu l’ampleur et le caractère international de l’évènement, qui implique de nombreuses personnes concernées, et au regard du nombre de partenaires étant susceptibles d’effectuer du transfert de données, pour la CNIL, il est nécessaire de vérifier les conditions de collecte des données personnelles, les informations fournies aux personnes concernées, ainsi que les mesures de sécurité mises en place.
La CNIL contrôlera les aspects sécuritaires et commerciaux des JO :

  • Sur la sécurité : Le strict usage des dispositifs de sécurité déployés dans le cadre de cet événement. La mise en place de QR code pour les zones à accès restreints, les habilitations d’accès et l’utilisation de caméras augmentées.
  • Sur l’aspect commercial : La collecte des données opérée dans le cadre des services de billetterie.

Données des mineurs collectées en ligne
L’utilisation des réseaux sociaux, sites de rencontre ou plateformes de jeux en ligne expose les mineurs à une collecte massive de leurs informations personnelles qui présentent des dangers pour leur vie privée, leur bien-être physique ou leur avenir socioprofessionnel.
En réponse à ces dangers, la CNIL vérifiera sur les applications et sites les plus appréciés par des enfants et adolescents, la mise en place de mécanismes de contrôle de l’âge, les mesures de sécurité et le respect de la minimisation des données personnelles.

Programme de fidélité et tickets de caisse dématérialisés
La CNIL souligne que la loi relative à la lutte contre le gaspillage et à l’économie circulaire peut entraîner des traitements complémentaires de données personnelles à des fins des envois du ticket par SMS ou courriel. À cette fin, elle se concentra sur l’information partagée avec les consommateurs et elle contrôlera le respect du consentement pour la réutilisation des données à des fins marketing.

Droit d’accès des personnes concernées
Dans le cadre d’une action coordonnée, le CEPD, Comité européen de la protection des données personnelles, donne un axe prioritaire à un certain sujet sur lequel les autorités de protection des données européennes doivent travailler au niveau national.
Par la suite, les résultats de leurs actions nationales sont regroupés et analysés. L’objectif du CEPD est de mieux comprendre le sujet et d’assurer un suivi ciblé au niveau national et européen.
Pour sa troisième action coordonnée, le CEPD a choisi le thème de la mise en oeuvre du droit d’accès par les responsables du traitement.
Comme les autres autorités de contrôle, la CNIL aussi, au niveau national, vérifiera les conditions de mise en œuvre du droit d’accès.

———-

Pour en savoir plus, vous pouvez consulter ce lien :

https://www.cnil.fr/fr/les-controles-de-la-cnil-en-2024-donnees-des-mineurs-jeux-olympiques-droit-dacces-et-tickets-de

LUMIÈRE SUR… La sécurisation juridique des opérations de prospection commerciale

Les acteurs de l’écosystème de la prospection commerciale, et de la publicité ciblée, cherchent souvent à s’affranchir des règles juridiques au détriment de leurs concurrents et de la protection des droits et libertés des individus.

En outre, le domaine de la prospection fait parfois intervenir une multitude d’acteurs, formant une « chaîne » par laquelle transitent les données des prospects. Cette multiplicité d’acteurs augmente le risque de non-respect des règles juridiques. Ainsi, il arrive parfois que « chaque maillon de la chaîne achète des données du maillon précédent en fermant les yeux sur la légalité de la collecte originelle ». Par conséquent, « une ignorance volontaire ou involontaire de la loi à un seul endroit dans la chaîne [suffis] pour que les données personnelles de millions de personnes soient marchandées illégalement avec des centaines d’entreprises »[1].

Afin de responsabiliser l’ensemble des acteurs, la CNIL[2] adopte une interprétation stricte des dispositions légales applicables, dont le RGPD[3] ainsi que les autres dispositions spécifiques[4] aux opérations de prospection commerciale ou de retargeting publicitaire. Ainsi, la CNIL a récemment sanctionné deux sociétés dans le cadre de leurs pratiques en matière de prospection respectivement[5] et de retargeting publicitaire en ligne[6]. Dans les deux cas de figure était notamment en cause le respect des obligations en matière de recueil du consentement des personnes concernées, et de preuve de la validité de ce dernier.

Ainsi, afin de sécuriser les opérations de prospection commerciale, il est primordial de respecter les (I.) règles juridiques en matière de prospection commerciale, dont la CNIL a une interprétation stricte (II.) notamment en matière d’information des prospects lors du recueil de leur consentement à des fins de prospection commerciale. Lorsqu’une chaîne d’intermédiaires est impliquée dans les opérations de prospection, la sécurisation passe par (III.) un encadrement et une collaboration étroite entre les prospecteurs et les primo-collectant des données.


I. Les règles juridiques applicables aux opérations de prospection commerciale

En réalité, toutes les opérations de prospections de prospection commerciales ne nécessitent pas nécessairement de recueillir préalablement le consentement des prospects. Dans certains cas de figure, le Responsable de traitement peut opérer un choix entre le consentement (dit « opt-in »), et l’intérêt légitime[7] (ou « opt-out »).

Ainsi, le recueil du consentement est imposé dans les cas de figure suivants :

  • Pour le dépôt de cookies ayant des finalités publicitaires, ou de suivi à des fins publicitaires[8] ;
  • Ainsi que pour la prospection directe par voie électronique (par SMS, MMS, e-mail)[9].

Lorsque les opérations de prospection commerciale, ou de retargeting publicitaire, sont fondées sur le consentement de la personne concernée, le Responsable de traitement doit s’assurer de la validité de ce dernier[10]. Il doit notamment informer la personne concernée[11], mettre en place un mécanisme pour que ce dernier se manifeste par un acte positif de la personne concernée [11], et lui fournir un moyen lui permettant de retirer ce consentement à tout moment[12].

La CNIL reconnaît la possibilité de choisir entre le consentement, et l’intérêt légitime, pour les cas de figure suivants :

  • La prospection commerciale par mail d’une personne déjà cliente pour des produits ou services analogues à ceux déjà achetés[13] ;
  • La prospection commerciale à destination de professionnels lorsqu’elle est en lien avec leur profession[14] ;
  • La prospection commerciale par voie postale, ou téléphonique hors automates d’appel[15].

Dès lors, il sera nécessaire de prévoir cumulativement : l’information de la personne concernée[16], et un mécanisme permettant de s’opposer à la prospection commerciale lors de la collecte des données ainsi qu’à tout moment lors des activités de prospection commerciale[17].

En cas de non-respect de ces dispositions, le Responsable de traitement s’expose notamment à une sanction administrative de la CNIL d’un montant maximal de 20 millions d’euros, ou 4 % du chiffre d’affaires annuel mondial total de l’exercice précédent, le montant le plus élevé étant retenu[18]. Ce dernier s’expose également à une sanction pénale pour tout détournement de finalités, pouvant aller jusqu’à 5 ans d’emprisonnement et 300 000 euros d’amende[19].


II. L’importance de l’information des prospects lors du recueil de leur consentement à des fins de prospection commerciale

Dans de nombreux cas de figure, le prospecteur ne collecte pas directement les coordonnées du prospect. Un intermédiaire, dit « primo-collectant » transmet alors les données collectées auprès des prospects au prospecteur. Lorsque les opérations de prospection commerciale reposent sur le consentement, il sera nécessaire de s’assurer que le primo-collectant a correctement collecté le consentement de ces des prospects.

Ainsi, le prospect consent-t ’il à la transmission de ses données à des prospecteurs clairement identifiés, ou peut-il seulement consentir à la transmission de ses données à des catégories de prospecteurs ?    

La CNIL avait déjà pris position dans une précédente sanction en date du 24 novembre 2022 en considérant que pour que le consentement soit valide « les personnes doivent notamment être clairement informées de l’identité du prospecteur pour le compte duquel le consentement est collecté et des finalités pour lesquelles les données seront utilisées »[20]. Cette exigence équivaut donc à fournir clairement les objectifs de prospections commerciales liées à la transmission des données, ainsi que la liste exhaustive des prospecteurs.

Cette position est confirmée dans la récente sanction à l’encontre de la société CANAL +[5] prononcé par la CNIL. Il faudra alors fournir aux prospects, lors du recueil du consentement, « une liste exhaustive et mise à jour, […] par exemple directement sur le support de collecte ou, si celle-ci est trop longue, via un lien hypertexte renvoyant vers ladite liste et les politiques de confidentialité des prestataires et fournisseurs ». Juridiquement, la CNL fait une lecture « combinée des articles L. 34-5 du CPCE et 7, paragraphe 1, du RGPD » tel qu’éclairé par « l’article 4, paragraphe 11, du RGPD », pour établir que le consentement ne peut être informé que lorsque la personne a expressément consenti au traitement de ses données par ce même Responsable de traitement prospecteur.

En d’autres termes, pour la CNIL, le prospect ne consent qu’à la transmission de ses données auprès des seuls prospecteurs clairement identifiés comme destinataires des données lors de la collecte du consentement. Ainsi, une double information est donc à fournir aux prospects dans ce cas de figure. Du point de vue du primo collectant, il s’agit d’une collecte directe[21] ce dernier devra donc fournir les mentions d’information relative à l’article 13 RGPD. Le prospecteur se voyant transmettre les données, dois fournir dans le cadre de la collecte indirecte des données l’ensemble des mentions d’informations ainsi que la source des données[22].

En outre, si les seules catégories de destinataires figurent dans les mentions d’informations lors du recueil du consentement, une solution de contournement devra être mise en place. Afin de permettre au prospecteur de prospecter par voie électronique les personnes concernées, ce dernier pourra leur envoyer un premier mail « neutre » afin de recueillir leur consentement à la prospection commerciale. Ce mail « neutre » devra comporter : les finalités des opérations de prospection, les mentions d’informations complètes du prospecteur, la source auprès de laquelle les données des prospects ont été recueillies, et enfin un mécanisme permettant de recueillir le consentement.


III. Comment encadrer les relations entre prospecteurs et primo-collectant des données ?

Plutôt qu’opposer les primo-collectant des données aux prospecteurs, il est préférable d’envisager une collaboration étroite entre ces derniers qui permettra d’une part de sécuriser les opérations de prospection commerciale du prospecteur, et d’autre part de valoriser le flux de prospects transmis par le primo-collectant.

Ainsi, en amont, prospecteurs et primo-collectant doivent encadrer contractuellement leurs relations. Ce contrat doit prévoir à minima :

  • Les qualifications juridiques de chacun des acteurs, et le cas échéant inclure dans le contrat les mentions spécifiques relatives à la Sous-traitance[23] ou à la Responsabilité conjointe de traitement[24];
  • Les obligations de chacun au regard du recueil valide du consentement, de la fourniture des mentions d’informations, ainsi que de la gestion des demandes d’exercice de droit ;
  • La conservation et la documentation des preuves du consentement des prospects ;
  • Et également, la responsabilité de chacun des acteurs en cas de manquement à leurs obligations.

De plus, tout au long de leur relation, ces derniers devront prévoir des mécanismes spécifiques afin de garantir le respect des obligations légales dont :

  • La gestion des demandes d’exercice de droit des prospects dans un délai maximal de 1 mois, ainsi que la transmission effective de ces demandes entre les différents acteurs de la chaîne : telles les demandes de retrait du consentement, d’exercice du droit d’opposition ;
  • La transmission des preuves du consentement des prospects, notamment pour démontrer leur validité dans le cadre d’un contrôle de la CNIL auprès de l’un des acteurs ;
  • Lorsque cela s’avère nécessaire, la mise en place d’une campagne de recueil du consentement des prospects (notamment si seules les catégories de destinataires ont été fournies lors du recueil du consentement ;
  • Et enfin, assurer la traçabilité du consentement des prospects, et la conservation d’une liste des prospecteurs pour lesquels ils ont consenti.

Dans tous les cas, une attention particulière doit être apportée à la sécurité des flux de données des coordonnées des prospects transmises entre le primo-collectant et le prospecteur[25].

———————————————-


BIBLIOGRAPHIE

[1] Le Monde Tribune de Lucie Audibert, et Eliot Bendinelli, Criteo : « La décision de la CNIL s’attaque à la chaîne de production de données irresponsable qui règne dans l’industrie publicitaire en ligne », publié le 30 août 2023, consultable en ligne : https://www.lemonde.fr/idees/article/2023/08/30/criteo-la-decision-de-la-cnil-s-attaque-a-la-chaine-de-production-de-donnees-irresponsable-qui-regne-dans-l-industrie-publicitaire-en-ligne_6187094_3232.html

[2] Commission Nationale de l’Informatique et des Libertés

[3] Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016, relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE (règlement général sur la protection des données ou « RGPD »), consultable en ligne : https://eur-lex.europa.eu/legal-content/FR/TXT/HTML/?uri=CELEX:32016R0679

[4] Certaines règles de droit spéciales encadrent les opérations de prospection commerciale et de retargeting publicitaire, comme les articles L34-5 du Code des Postes et des Communications électroniques, ainsi que l’Article 82 de la Loi Informatique et Libertés n° 78-17 du 6 janvier 1978

[5] CNIL, n°SAN-2023-015 du 12 octobre 2023 concernant la société CANAL +, sanction d’un montant de 600 000 euros, consultable en ligne : https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000048222771

[6] CNIL, n°SAN-2023-009 du 15 juin 2023 concernant la société CRITEO, sanction d’un montant de 40 millions d’euros, consultable en ligne : https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000047707063

[7] RGPD, Considérant 47 : « le traitement de données à caractère personnel à des fins de prospection peut être considéré comme étant réalisé pour répondre à un intérêt légitime »

[8] Loi Informatique et libertés n° 78-17 du 6 janvier 1978, article 82

[9] Code des Postes et des Communications électroniques, Article L34-5 alinéa 1er

[10] RGPD, Article 7.1

[11] RGPD, Article 4.11 : le « consentement » de la personne concernée, toute manifestation de volonté, libre, spécifique, éclairée et univoque par laquelle la personne concernée accepte, par une déclaration ou par un acte positif clair, que des données à caractère personnel la concernant fassent l’objet d’un traitement

[12] RGPD, Article 7.3

[13] Code des Postes et des Communications Électroniques, Article L34-5 4ème alinéa

[14] CNIL, La prospection commerciale par courrier électronique, 18 mai 2009, consultable en ligne : https://www.cnil.fr/fr/la-prospection-commerciale-par-courrier-electronique

[15] CNIL, La prospection commerciale par courrier postal et appel téléphonique, 26 janvier 2022, consultable en ligne : https://www.cnil.fr/fr/la-prospection-commerciale-par-courrier-postal-et-appel-telephonique

[16] RGPD, Articles 12 à 14

[17] RGPD, Article 21.1 à 21.4

[18] RGPD, Article 83.5

[19] Code Pénal, Article L226-21

[20] CNIL, FR, 24 novembre 2022, SANCTION, n° SAN-2022-021, publié, consultable en ligne : https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000046650733?isSuggest=true

[21] RGPD, Article 13

[22] RGPD, Article 14

[23] RGPD, Article 28

[24] RGPD, Article 26

[25] RGPD, Articles 28 et 32

LUMIÈRE SUR … Les risques liés à la confidentialité des données utilisées pour l’entraînement des modèles d’Intelligence Artificielle

Lumière sur ... Les risques liés à la confidentialité des données utilisées pour l’entraînement des modèles d’Intelligence Artificielle - 1

Partage d’un modèle d’intelligence artificielle : attention au risque de réidentification des données utilisées pour l’entraînement du modèle

Pour automatiser la pseudonymisation de ses décisions, la Cour de cassation est progressivement passée d’un moteur de règles[1] à un système d’intelligence artificielle reposant sur l’apprentissage automatique. Cette nouvelle approche est définie par la CNIL comme : « un champ d’études de l’intelligence artificielle qui vise à donner aux machines la capacité d’apprendre à partir de données, via des modèles mathématiques », soit un « procédé par lequel les informations pertinentes sont tirées d’un ensemble de données d’entraînement »[2].

Ainsi, ce changement de paradigme permet à la Cour de cassation de réaliser des gains de temps, et d’adapter son outil de pseudonymisation à une plus grande variété de contextes. Néanmoins, le recours aux modèles d’apprentissage automatique génère de nouveaux risques : notamment la potentielle réidentification des données personnelles ayant été utilisées pour l’entraînement de ce dernier.

Ainsi, le 31 janvier 2023, un justiciable a demandé à l’administration la communication du code source du logiciel, ainsi que le modèle d’intelligence artificielle en tant que tel, utilisé par la Cour de cassation afin de pseudonymiser ses décisions de justice avant leur publication. Si le code source du logiciel fait lui déjà l’objet d’une diffusion publique, le Président de la Cour a toutefois expressément refusé la communication du modèle d’intelligence artificielle entraîné.

Ainsi, l’avis rendu par la Commission d’accès aux documents administratifs (CADA) en date du 30 mars 2023[3] dernier consacre la possibilité d’obtenir la communication des modèles d’intelligence entraînés utilisés par l’administration (I.), sous réserve que cette communication ne permette pas à des tiers de procéder à la réidentification des données personnelles présentes dans les données d’entraînement du modèle (II.). Ainsi, il est nécessaire de garantir la confidentialité des données d’entraînement d’un modèle d’intelligence artificielle mis en production (III.).

 

1. Les modèles d’intelligence artificielle entraînés : des documents administratifs susceptibles d’être communiqués

Le modèle d’intelligence artificielle utilisé par la Cour de cassation est composé de deux modèles d’intelligence artificielle ayant chacun subi une phase d’apprentissage propre[4] :

  • Tout d’abord, un apprentissage non supervisé[5] d’un modèle de langage, qui permet d’obtenir des vecteurs multidimensionnels de mots, a été réalisé sur plus de 2 millions de décisions de justice ;
  • Puis, un apprentissage supervisé[6] d’un algorithme de reconnaissance d’entités nommées, qui est une sous-tâche du premier, a été réalisé sur plusieurs milliers de décisions annotés.

Dès lors, la Commission d’Accès aux Documents Administratifs[7] (ou « CADA ») considère que de tels modèles, même entraînés, revêtent le caractère de documents administratifs, et peuvent le cas échéant faire l’objet d’une communication[3].

Pour rappel, l’article L300-2[8] du code des relations entre le public et l’administration définit les documents administratifs comme « les documents produits ou reçus, dans le cadre de leur mission de service public, par l’État, les collectivités territoriales ainsi que par les autres personnes de droit public ou les personnes de droit privé chargées d’une telle mission » ; et ce, « quels que soient leur date, leur lieu de conservation, leur forme et leur support ».

 

2. Le risque de réidentification des données : l’extraction des données personnelles d’entraînement à partir d’un modèle d’intelligence artificielle

Le principe de libre communication des documents administratifs connaît certaines exceptions, notamment lorsque ces derniers sont susceptibles de porter atteinte à la protection de la vie privée d’une personne comme prévu par l’article L311-6 du code des relations entre le public et l’administration [9]. Le cas échéant, seule la personne concernée peut obtenir la communication des informations présentes dans ledit document.

En effet, il est possible dans certains cas de figure de reconstituer les données utilisées pour entraîner un modèle d’intelligence artificielle : le risque de réidentification des données personnelles utilisées pour entraîner le modèle. Ainsi, ce risque résulte :

  • De la structure de certains modèles d’intelligence artificielle qui conservent au sein de leurs paramètres les données d’entraînement dans leur forme initiale[10] ;
  • Mais également de certaines formes d’attaques, dont les attaques « par inversion du modèle »[11] qui visent spécifiquement à reconstruire le jeu de données ayant permis d’entraîner un modèle.

Or en l’espèce, le président de la Cour de cassation considère que les données pseudonymisées dans les décisions rendues publiques peuvent être reconstitués via des opérations de rétro-ingénierie, sur la base des paramètres de configuration des modèles entraînés. En outre, l’algorithme de reconnaissance des entités nommées est un modèle génératif[12] ayant la capacité de mémoriser les données d’entraînement. Par conséquent, la CADA en déduit que « en l’état actuel des connaissances scientifiques » le risque de réidentification des personnes figurant dans les décisions présente « un caractère suffisant de vraisemblance pour être tenu pour acquis ».

En effet, un attaquant disposant du modèle et de l’ensemble de ses paramètres (soit une attaque menée en mode « boîte blanche »[13]) aurait davantage de facilités à reconstituer les données occultées présentes dans les décisions pseudonymisées, dès lors que ces dernières font partie du jeu de données d’entraînement du modèle. Ainsi, un modèle d’intelligence artificielle sera d’autant plus performant lorsqu’il est confronté à ses propres données d’entraînement.

Ainsi, la CADA considère que la communication desdits modèles d’intelligence artificielle est de nature à porter atteinte à la protection de la vie privée d’autrui, en permettant à des tiers de reconstituer le jeu de données utilisé aux fins d’apprentissage du modèle. Par conséquent, ces derniers peuvent réidentifier les personnes concernées dans les décisions de la Cour de cassation pseudonymisées.

 

3. Les mesures afin de limiter les risques de réidentification des données d’entraînement

Lors du recours à un modèle d’apprentissage automatique, il est important de garantir la confidentialité des données ayant été utilisées afin d’entraîner le modèle, et de s’assurer que ces dernières ne soient pas rendues accessibles à des tiers (attaquants ou partenaires).

Le risque de réidentification des données d’entraînement doit donc être analysé en amont de la mise en production du modèle. En outre, il faut prendre en considération la structure du modèle ainsi que les différents scénarios d’attaque possibles. Cette analyse doit faire l’objet d’une documentation par le Responsable du traitement.

D’autre part, afin de limiter le risque, et selon le contexte, plusieurs mesures peuvent être envisagées, dont notamment :

  • Privilégier le recours à des types d’algorithmes ne conservant pas les données d’entraînement dans la structure du modèle.
  • Utiliser des données synthétiques[14] afin d’entraîner le modèle d’intelligence artificielle, dès lors que les données utilisées pour l’entraînement ne sont pas des données personnelles le risque de réidentification d’un individu est minimisé.
  • Recourir à des API[15] plutôt qu’au partage du modèle en tant que tel[16], et limiter la fréquence et la portée des requêtes afin d’empêcher les attaquants d’accéder aux données d’entraînement.
  • Brider la performance d’un modèle, ou en interdire les utilisations et applications, dans le cadre d’une tâche ou d’un contexte distinct.
  • Restreindre l’accès à certaines informations aux attaquants, dont par exemple le score de confiance associé à une décision donnée, en le remplaçant par une simple mention sans précisions supplémentaires.
  • Analyser l’ensemble des bibliothèques, et codes sources, utilisés afin de prévenir la présence de vulnérabilités, ou de failles de sécurité, permettant à des tiers de récupérer les données d’entraînement (notamment par le biais d’une porte dérobée).
 

-bibliographie

[1] Un logiciel permettant d’automatiser des décisions à l’aide d’une logique prédéfinie.

[2] CNIL, Glossaire de l’intelligence artificielle, consultable en ligne : https://www.cnil.fr/fr/definition/apprentissage-automatique#:~:text=L’apprentissage%20automatique%20(machine%20learning,donn%C3%A9es%2C%20via%20des%20mod%C3%A8les%20math%C3%A9matiques.

[3] CADA, Avis n°20230314 – Séance du 30/03/2023, consultable en ligne : https://www.cada.fr/20230314

[4] Cour de cassation, Moteur de pseudonymisation de la Cour de cassation, 14 Février 2023, https://github.com/Cour-de-cassation/moteurNER

[5] « L’apprentissage non supervisé est un procédé d’apprentissage automatique dans lequel l’algorithme utilise un jeu de données brutes et obtient un résultat en se fondant sur la détection de similarités entre certaines de ces données », CNIL, Glossaire de l’intelligence artificielle, consultable en ligne : https://www.cnil.fr/fr/definition/apprentissage-automatique#:~:text=L’apprentissage%20automatique%20(machine%20learning,donn%C3%A9es%2C%20via%20des%20mod%C3%A8les%20math%C3%A9matiques.

[6] « L’apprentissage supervisé est un procédé d’apprentissage automatique dans lequel l’algorithme s’entraîne à une tâche déterminée en utilisant un jeu de données assorties chacune d’une annotation indiquant le résultat attendu », CNIL, Glossaire de l’intelligence artificielle, consultable en ligne : https://www.cnil.fr/fr/definition/apprentissage-automatique#:~:text=L’apprentissage%20automatique%20(machine%20learning,donn%C3%A9es%2C%20via%20des%20mod%C3%A8les%20math%C3%A9matiques.

[7] La Commission d’accès aux documents administratifs est une autorité administrative indépendante créer par la loi no 78-753 du 17 juillet 1978 ayant pour mission de fournir des avis aux personnes dont les demandes de communications de documents détenus par l’administration ont fait l’objet d’un refus

[8] https://www.legifrance.gouv.fr/codes/article_lc/LEGIARTI000033218936

[9] Article L311-6 1° du code des relations entre le public et l’administration : « Ne sont communicables qu’à l’intéressé les documents administratifs : 1° Dont la communication porterait atteinte à la protection de la vie privée », legifrance.gouv.fr/codes/article_lc/LEGIARTI000037269056

[10] A titre d’exemple, la CNIL cite : « les algorithmes de clustering k-NN et de classification SVM », Laboratoire Numérique d’Innovation de la CNIL, Dossier Sécurité des systèmes d’IA, Avril 2022, p. 20, consultable en ligne https://linc.cnil.fr/sites/linc/files/atoms/files/linc_cnil_dossier-securite-systemes-ia.pdf

[11] Dit également « model inversion attacks », Les  attaques par inversion visent à extraire une représentation moyenne de chacune des classes sur lesquelles le modèle a été entrainé », Laboratoire Numérique d’Innovation de la CNIL, Dossier Sécurité des systèmes d’IA, Avril 2022, p. 20, consultable en ligne https://linc.cnil.fr/sites/linc/files/atoms/files/linc_cnil_dossier-securite-systemes-ia.pdf

[12] « Par opposition à un modèle discriminatif, le modèle génératif permet à la fois de générer de nouveaux exemples à partir des données d’entraînement et d’évaluer la probabilité qu’un nouvel exemple provienne ou ait été généré à partir des données d’entraînement », CNIL, Glossaire de l’Intelligence Artificielle https://www.cnil.fr/fr/definition/modele-generatif

[13] Contrairement à une attaque en mode « boîte noire » l’attaquant connaît ici de nombreuses informations sur le système d’IA : « la distribution des données ayant servi à l’apprentissage du modèle (potentiellement l’accès à certaines parties de celles-ci), l’architecture du modèle, l’algorithme d’optimisation utilisé, ainsi que certains paramètres (par exemples les poids et les biais d’un réseau de neurones) », Laboratoire Numérique d’Innovation de la CNIL, Dossier Sécurité des systèmes d’IA, Avril 2022, p. 20, consultable en ligne : https://linc.cnil.fr/sites/linc/files/atoms/files/linc_cnil_dossier-securite-systemes-ia.pdf]

[14] La synthèse de données est une technique visant à générer des données par le biais d’un modèle d’intelligence artificielle dédié répliquant les caractéristiques et les propriétés statistiques de données réelles tout en introduisant une part d’aléatoire. Ces données sont alors dénommées « données synthétiques », elles peuvent alors être des données anonymes au sens du RGPD et être utilisés afin d’entraîner un modèle d’intelligence artificielle. Voir en ce sens : Information Commissionner’s Office, Guidance on Privacy-enhancing technologies (PETs), 19 juin 2023, https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/data-sharing/privacy-enhancing-technologies/what-pets-are-there/synthetic-data/

[15] « Une API (application programming interface ou « interface de programmation d’application ») est une interface logicielle qui permet de « connecter » un logiciel ou un service à un autre logiciel ou service afin d’échanger des données et des fonctionnalités », CNIL, Glossaire, https://www.cnil.fr/fr/definition/interface-de-programmation-dapplication-api

[16] Information Commissionner’s Office, Guidance on AI And Data Proteciton, septembre 2023, consultable en ligne : https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/artificial-intelligence/guidance-on-ai-and-data-protection/how-should-we-assess-security-and-data-minimisation-in-ai/#whatsecurityrisks