Lumière sur … Les principaux apports de la loi SREN en matière de protection des données et, plus particulièrement, en matière de données à caractère personnel

La loi visant à sécuriser et à réguler l’espace numérique (SREN) a été promulguée le 21 mai 2024. Elle a été publiée au journal officiel du 22 mai 2024.

En premier lieu, la loi SREN a pour objectif d’adapter le droit français à de nouveaux textes européens tels que le règlement sur les services numériques (DSA), le règlement sur le marché numérique (DMA), le règlement sur la gouvernance européenne des données ou « Data Gouvernance Act » (DGA). Ici, il ne s’agit pas d’une transposition de ces textes européens par la loi SREN en droit français, car ce sont des règlements et non des directives, mais cette loi permet d’adapter le droit français pour pouvoir appliquer ce « parquet numérique » européen.

En second lieu, la loi SREN prévoit un ensemble de mesures permettant de mieux réguler l’espace numérique, protéger les internautes, ainsi que les entreprises. Les sujets abordés par la loi sont nombreux comme la protection des enfants de la pornographie, la mise en place d’un filtre de cybersécurité anti-arnaque à destination du grand public, la lutte contre la désinformation de médias étrangers, la réglementation de l’informatique en nuage (le Cloud), etc.

Mais ce qui attire le plus l’attention dans cette loi en matière de données personnelles sont les dispositifs de la loi SREN concernant la gestion et la protection des données. Ces dispositifs ne visent pas uniquement les données non personnelles, mais également, dans certains cas, les données à caractère personnel.

Il serait intéressant de faire un tour rapide sur les points de la loi SREN ayant des enjeux en matière de protection des données personnelles :

La protection des données stratégiques et sensibles dans le cloud

La loi SREN consacre un chapitre à la protection des données stratégiques et sensibles qui sont stockées sur un cloud privé fourni par les fournisseurs de services cloud.

Avant tout, il faut souligner qu’elles ne concernent pas uniquement des données à caractère personnel. La loi précise que les données d’une sensibilité particulière sont des données à caractère personnel ou non si leur violation peut entraîner une atteinte à l’ordre publique, à la santé, à la vie privée des personnes ou à la propriété intellectuelle.

Selon la définition, la qualification des données d’une sensibilité particulière sont les données relevant de secrets protégés par la loi et les données qui sont nécessaires à l’accomplissement des missions essentielles de l’État. Par conséquent, les données d’une sensibilité particulière englobent des données non-personnelles, ainsi que des données personnelles, notamment les données de santé à caractère personnel.

Vu l’importance des données d’une sensibilité particulière pour l’accomplissement des missions de l’État, les nouvelles dispositions de la loi SREN indiquent que lorsque les administrations de l’État, de ses 400 opérateurs ou des groupements d’intérêt public, y compris le Health Data Hub, confient le stockage des données stratégiques et sensibles aux prestataires privés de cloud, ils doivent veiller à ce que ces fournisseurs de cloud mettent en œuvre des mesures de sécurité et de protection des données afin d’éviter tout accès à ces données par des autorités publiques des États tiers.

Dans un délai de 18 mois à partir de la promulgation de la loi SREN, le gouvernement va remettre au parlement un rapport. Ce dernier aura l’objectif d’évaluer les moyens supplémentaires qui pourront être pris en compte afin d’augmenter la protection face aux risques et menaces que les législations extraterritoriales peuvent apporter aux données qualifiées comme ayant une sensibilité particulière. De plus, ce rapport va évaluer la possibilité de soumettre les entreprises de cloud, établies en dehors de l’Union européenne à un chiffrement certifié par l’Agence nationale de sécurité des systèmes d’information (ANSSI).

Quant à l’hébergement des données de santé, la loi mentionne qu’un décret va préciser les exigences en matière de transfert ou d’accès non autorisé par des États tiers.

L’élargissement du champ de compétence de la CNIL

Au titre du DGA

La loi SREN désigne la CNIL comme autorité compétente pour l’altruisme des données prévu par le règlement « Data Gouvernance Act » (DGA).

L’altruisme des données, ou data altruism en anglais est un modèle prévu par le DGA. Il permet aux parties prenantes (entreprises, particuliers, etc.) de partager les données pour des motifs d’intérêt général fondés sur le consentement par les personnes concernées ou l’autorisation accordée par les détenteurs de données à caractère personnel.

Selon ses nouvelles compétences, la CNIL pourra recevoir et traiter des demandes de notification d’organisations d’organisation altruistes en matière de données (OAD). De plus, la CNIL assurera la tenue du registre national des organisations altruiste en matière des données et le cas échéant traitera les plaintes relatives à ces organisations.

En cas de manquement de l’organisation altruiste à ses obligations, prévue par le DGA, la CNIL peut prononcer à leur égard des mesures correctrices comme la mise en demeure, la radiation du registre national ou une amende ne pouvant excéder 10 millions d’euros ou 2 % du chiffre d’affaires annuel mondial.

Au titre du DSA

La CNIL est désignée comme l’autorité compétente pour contrôler le respect de certaines obligations issues du DSA à l’égard des plateformes en ligne. Le champ des compétences de la CNIL concerne le contrôle du respect des obligations renforcées par ces plateformes sur la transparence en matière de publicité ciblée, l’interdiction du profilage sur la base des données sensibles ou le profilage des mineurs. A cette fin, la CNIL a de nouveaux moyens de contrôle : le pouvoir de saisir tout document sous le contrôle du juge et la possibilité d’enregistrer les réponses des personnes auditionnées.

Attribution aux juridictions d’une autorité de contrôle au sens RGPD

La loi SREN apporte des changements au code de justice administrative, au code de l’organisation judiciaire, ainsi qu’au code des juridictions financières. Selon ces modifications, le Conseil d’État, la Cour de cassation et la Cour de compte, chacun aura une autorité contrôle élue pour une durée de trois ans, renouvelable une fois, pour contrôler les traitements de données à caractère personnel effectuées par les juridictions administratives et judiciaires dans leurs fonctions juridictionnelles.

Modification apportée à la loi pour la confiance dans l’économie numérique (LCEN)

L’article 48 de la loi SREN apporte des modifications à la LCEN qui impliquent pour les éditeurs d’un service de communication au public en ligne de mettre à disposition du public « le cas échéant, le nom, la dénomination ou la raison sociale et l’adresse des personnes physiques ou morales qui assurent, même à titre gratuit, le stockage de données traitées directement par elles dans le cadre de l’édition du service ».

Que signifie cela dans la pratique par exemple pour les éditeurs d’un site internet ou d’une application ?

Cela renforce le principe de transparence à l’égard des utilisateurs. En effet, désormais les éditeurs des sites internet, applications… doit mentionner via leurs mentions légales non seulement l’hébergeur de leurs sites ou applications, mais également les fournisseurs de cloud qui assurent l’hébergement des données des utilisateurs de services en ligne proposés par ces sites internet ou applications.

 

LUMIÈRE SUR… la conformité RGPD du système de vente aux enchères de données personnelles dans le cadre d’une publicité ciblée

Un nouvel arrêt vient ajouter une précision sur le mécanisme de suggestion de publicité ciblée à un utilisateur de site internet ou d’application.

En effet, le 7 mars 2024, la Cour de Justice de l’Union européenne (CJUE) s’est prononcée sur l’affaire opposant l’autorité de contrôle belge (APD) et l’IAB Europe.

L’IAB Europe est une association qui regroupe à la fois les entreprises du secteur de l’industrie de la publicité et du marketing numérique, et les associations nationales du même secteur. Celle-ci propose à ses membres un cadre de règles, appelé «Transparency Consent Framework (TCF)», afin d’assurer la conformité RGPD du traitement des données personnelles des utilisateurs dans le cadre du Protocole Real Time Bidding (RTB). En d’autres termes, ce protocole permet la vente et l’achat en temps réel d’espaces publicitaires sur internet par les opérateurs.

Pour contextualiser, en 2022, l’APD a rendu une décision à l’encontre de l’IAB Europe. Par cette décision, cette dernière a été qualifiée de responsable du traitement sur l’enregistrement dans une TC String des préférences de l’utilisateur selon les règles du TCF. La TC String (Transparency & Consent String) est une chaîne de lettres et de caractères dans laquelle les préférences des utilisateurs, notamment leur consentement ou non, sont codées et stockées. Combinée à un cookie, la TC String peut être liée à l’adresse IP de l’utilisateur. Par conséquent, elle a été considérée par l’APD comme étant une donnée personnelle.

L’IAB Europe a contesté la décision de l’APD devant la Cour d’appel de Bruxelles qui, à son tour, a posé des questions préjudicielles à la CJUE, notamment si la TC String est une donnée personnelle ou non (I), et si l’IAB Europe peut être considérée comme responsable conjoint du traitement (II).

I.             Sur le caractère personnel de la TC String

L’article 4.1 du RGPD définit les données à caractère personnel comme étant «toute information se rapportant à une personne physique (…) qui peut être identifiée directement ou indirectement». L’identification peut donc se faire par le recours à des informations supplémentaires. Le considérant 26 du RGPD ajoute même que les informations permettant d’identifier une personne peuvent ne pas se trouver entre les mains d’une seule personne.

En effet, la TC String contient des informations sur les préférences d’un utilisateur, donc se rapporte à une personne physique. Avec la combinaison des préférences de l’utilisateur et de son identifiant (notamment son adresse IP), il est possible pour les opérateurs de créer un profil sur celui-ci.

Certes, l’IAB Europe estime ne pas pouvoir combiner toute seule les informations sur la TC String et l’identifiant, mais cela n’enlève en rien le caractère personnel de la TC String. De plus, cet organisme a la possibilité de demander la communication de toutes les informations qui pourraient lui permettre d’identifier l’utilisateur. Elle possède donc les moyens raisonnables pour identifier une personne physique.

La TC String est donc considérée comme une donnée à caractère personnel.

II.            Sur la qualification juridique de l’IAB Europe

L’IAB Europe est considérée comme un responsable conjoint de traitement (RCT) avec ses membres. En effet, non seulement elle influe à des fins qui lui sont propres sur le traitement concernant la TC String, mais elle détermine également les moyens et les finalités du traitement avec ses membres. Cette influence se consolide par TCF, qui est un cadre de règles que les membres doivent accepter pour adhérer à l’association. La TCF contient entre autres : la manière dont les Consent Management Platform (CMP) recueillent les préférences des utilisateurs, ainsi que le stockage et le partage des TC String. De plus, selon la décision du 2 février 2022, il est possible pour les membres de consulter les préférences des utilisateurs dans le TC String.

Néanmoins, il est important de préciser que la responsabilité de l’IAB Europe n’est pas automatiquement engagée dans le cadre des traitements ultérieurs réalisés par des tiers, sur la base des préférences utilisateurs. En effet, un traitement de données peut être effectué sous plusieurs opérations, toutes à des stades différents. Sa responsabilité ne pourra être engagée que si elle a exercé une influence sur la détermination des finalités et des modalités des traitements ultérieurs.

Les 4 thématiques prioritaires de contrôle de la CNIL

Disposant d’un pouvoir discrétionnaire, la CNIL peut contrôler les organismes qui traitent des données personnelles, à la suite de plaintes qu’elle reçoit, de signalements qui lui sont faits, ou parce qu’elle décide de se saisir d’un cas particulier. Dans le cas où l’Autorité de contrôle française constate des manquements concernant la réglementation sur les données personnelles, elle peut décider d’une mise en demeure publique ou non, prononcer différentes mesures ou amendes administratives.
Chaque année, la CNIL se positionne sur des thématiques prioritaires pour orienter sa politique de contrôle sur les sujets de grande importance pour le public et également pour évaluer la conformité des acteurs choisis.

Le saviez-vous ? Ces thématiques représentent 30 % de ses contrôles effectués.

Pour 2024, la CNIL se concentrera sur 4 priorités :

Collecte de données dans le cadre des Jeux Olympiques et Paralympiques
Vu l’ampleur et le caractère international de l’évènement, qui implique de nombreuses personnes concernées, et au regard du nombre de partenaires étant susceptibles d’effectuer du transfert de données, pour la CNIL, il est nécessaire de vérifier les conditions de collecte des données personnelles, les informations fournies aux personnes concernées, ainsi que les mesures de sécurité mises en place.
La CNIL contrôlera les aspects sécuritaires et commerciaux des JO :

  • Sur la sécurité : Le strict usage des dispositifs de sécurité déployés dans le cadre de cet événement. La mise en place de QR code pour les zones à accès restreints, les habilitations d’accès et l’utilisation de caméras augmentées.
  • Sur l’aspect commercial : La collecte des données opérée dans le cadre des services de billetterie.

Données des mineurs collectées en ligne
L’utilisation des réseaux sociaux, sites de rencontre ou plateformes de jeux en ligne expose les mineurs à une collecte massive de leurs informations personnelles qui présentent des dangers pour leur vie privée, leur bien-être physique ou leur avenir socioprofessionnel.
En réponse à ces dangers, la CNIL vérifiera sur les applications et sites les plus appréciés par des enfants et adolescents, la mise en place de mécanismes de contrôle de l’âge, les mesures de sécurité et le respect de la minimisation des données personnelles.

Programme de fidélité et tickets de caisse dématérialisés
La CNIL souligne que la loi relative à la lutte contre le gaspillage et à l’économie circulaire peut entraîner des traitements complémentaires de données personnelles à des fins des envois du ticket par SMS ou courriel. À cette fin, elle se concentra sur l’information partagée avec les consommateurs et elle contrôlera le respect du consentement pour la réutilisation des données à des fins marketing.

Droit d’accès des personnes concernées
Dans le cadre d’une action coordonnée, le CEPD, Comité européen de la protection des données personnelles, donne un axe prioritaire à un certain sujet sur lequel les autorités de protection des données européennes doivent travailler au niveau national.
Par la suite, les résultats de leurs actions nationales sont regroupés et analysés. L’objectif du CEPD est de mieux comprendre le sujet et d’assurer un suivi ciblé au niveau national et européen.
Pour sa troisième action coordonnée, le CEPD a choisi le thème de la mise en oeuvre du droit d’accès par les responsables du traitement.
Comme les autres autorités de contrôle, la CNIL aussi, au niveau national, vérifiera les conditions de mise en œuvre du droit d’accès.

———-

Pour en savoir plus, vous pouvez consulter ce lien :

https://www.cnil.fr/fr/les-controles-de-la-cnil-en-2024-donnees-des-mineurs-jeux-olympiques-droit-dacces-et-tickets-de

LUMIÈRE SUR… La sécurisation juridique des opérations de prospection commerciale

Les acteurs de l’écosystème de la prospection commerciale, et de la publicité ciblée, cherchent souvent à s’affranchir des règles juridiques au détriment de leurs concurrents et de la protection des droits et libertés des individus.

En outre, le domaine de la prospection fait parfois intervenir une multitude d’acteurs, formant une « chaîne » par laquelle transitent les données des prospects. Cette multiplicité d’acteurs augmente le risque de non-respect des règles juridiques. Ainsi, il arrive parfois que « chaque maillon de la chaîne achète des données du maillon précédent en fermant les yeux sur la légalité de la collecte originelle ». Par conséquent, « une ignorance volontaire ou involontaire de la loi à un seul endroit dans la chaîne [suffis] pour que les données personnelles de millions de personnes soient marchandées illégalement avec des centaines d’entreprises »[1].

Afin de responsabiliser l’ensemble des acteurs, la CNIL[2] adopte une interprétation stricte des dispositions légales applicables, dont le RGPD[3] ainsi que les autres dispositions spécifiques[4] aux opérations de prospection commerciale ou de retargeting publicitaire. Ainsi, la CNIL a récemment sanctionné deux sociétés dans le cadre de leurs pratiques en matière de prospection respectivement[5] et de retargeting publicitaire en ligne[6]. Dans les deux cas de figure était notamment en cause le respect des obligations en matière de recueil du consentement des personnes concernées, et de preuve de la validité de ce dernier.

Ainsi, afin de sécuriser les opérations de prospection commerciale, il est primordial de respecter les (I.) règles juridiques en matière de prospection commerciale, dont la CNIL a une interprétation stricte (II.) notamment en matière d’information des prospects lors du recueil de leur consentement à des fins de prospection commerciale. Lorsqu’une chaîne d’intermédiaires est impliquée dans les opérations de prospection, la sécurisation passe par (III.) un encadrement et une collaboration étroite entre les prospecteurs et les primo-collectant des données.


I. Les règles juridiques applicables aux opérations de prospection commerciale

En réalité, toutes les opérations de prospections de prospection commerciales ne nécessitent pas nécessairement de recueillir préalablement le consentement des prospects. Dans certains cas de figure, le Responsable de traitement peut opérer un choix entre le consentement (dit « opt-in »), et l’intérêt légitime[7] (ou « opt-out »).

Ainsi, le recueil du consentement est imposé dans les cas de figure suivants :

  • Pour le dépôt de cookies ayant des finalités publicitaires, ou de suivi à des fins publicitaires[8] ;
  • Ainsi que pour la prospection directe par voie électronique (par SMS, MMS, e-mail)[9].

Lorsque les opérations de prospection commerciale, ou de retargeting publicitaire, sont fondées sur le consentement de la personne concernée, le Responsable de traitement doit s’assurer de la validité de ce dernier[10]. Il doit notamment informer la personne concernée[11], mettre en place un mécanisme pour que ce dernier se manifeste par un acte positif de la personne concernée [11], et lui fournir un moyen lui permettant de retirer ce consentement à tout moment[12].

La CNIL reconnaît la possibilité de choisir entre le consentement, et l’intérêt légitime, pour les cas de figure suivants :

  • La prospection commerciale par mail d’une personne déjà cliente pour des produits ou services analogues à ceux déjà achetés[13] ;
  • La prospection commerciale à destination de professionnels lorsqu’elle est en lien avec leur profession[14] ;
  • La prospection commerciale par voie postale, ou téléphonique hors automates d’appel[15].

Dès lors, il sera nécessaire de prévoir cumulativement : l’information de la personne concernée[16], et un mécanisme permettant de s’opposer à la prospection commerciale lors de la collecte des données ainsi qu’à tout moment lors des activités de prospection commerciale[17].

En cas de non-respect de ces dispositions, le Responsable de traitement s’expose notamment à une sanction administrative de la CNIL d’un montant maximal de 20 millions d’euros, ou 4 % du chiffre d’affaires annuel mondial total de l’exercice précédent, le montant le plus élevé étant retenu[18]. Ce dernier s’expose également à une sanction pénale pour tout détournement de finalités, pouvant aller jusqu’à 5 ans d’emprisonnement et 300 000 euros d’amende[19].


II. L’importance de l’information des prospects lors du recueil de leur consentement à des fins de prospection commerciale

Dans de nombreux cas de figure, le prospecteur ne collecte pas directement les coordonnées du prospect. Un intermédiaire, dit « primo-collectant » transmet alors les données collectées auprès des prospects au prospecteur. Lorsque les opérations de prospection commerciale reposent sur le consentement, il sera nécessaire de s’assurer que le primo-collectant a correctement collecté le consentement de ces des prospects.

Ainsi, le prospect consent-t ’il à la transmission de ses données à des prospecteurs clairement identifiés, ou peut-il seulement consentir à la transmission de ses données à des catégories de prospecteurs ?    

La CNIL avait déjà pris position dans une précédente sanction en date du 24 novembre 2022 en considérant que pour que le consentement soit valide « les personnes doivent notamment être clairement informées de l’identité du prospecteur pour le compte duquel le consentement est collecté et des finalités pour lesquelles les données seront utilisées »[20]. Cette exigence équivaut donc à fournir clairement les objectifs de prospections commerciales liées à la transmission des données, ainsi que la liste exhaustive des prospecteurs.

Cette position est confirmée dans la récente sanction à l’encontre de la société CANAL +[5] prononcé par la CNIL. Il faudra alors fournir aux prospects, lors du recueil du consentement, « une liste exhaustive et mise à jour, […] par exemple directement sur le support de collecte ou, si celle-ci est trop longue, via un lien hypertexte renvoyant vers ladite liste et les politiques de confidentialité des prestataires et fournisseurs ». Juridiquement, la CNL fait une lecture « combinée des articles L. 34-5 du CPCE et 7, paragraphe 1, du RGPD » tel qu’éclairé par « l’article 4, paragraphe 11, du RGPD », pour établir que le consentement ne peut être informé que lorsque la personne a expressément consenti au traitement de ses données par ce même Responsable de traitement prospecteur.

En d’autres termes, pour la CNIL, le prospect ne consent qu’à la transmission de ses données auprès des seuls prospecteurs clairement identifiés comme destinataires des données lors de la collecte du consentement. Ainsi, une double information est donc à fournir aux prospects dans ce cas de figure. Du point de vue du primo collectant, il s’agit d’une collecte directe[21] ce dernier devra donc fournir les mentions d’information relative à l’article 13 RGPD. Le prospecteur se voyant transmettre les données, dois fournir dans le cadre de la collecte indirecte des données l’ensemble des mentions d’informations ainsi que la source des données[22].

En outre, si les seules catégories de destinataires figurent dans les mentions d’informations lors du recueil du consentement, une solution de contournement devra être mise en place. Afin de permettre au prospecteur de prospecter par voie électronique les personnes concernées, ce dernier pourra leur envoyer un premier mail « neutre » afin de recueillir leur consentement à la prospection commerciale. Ce mail « neutre » devra comporter : les finalités des opérations de prospection, les mentions d’informations complètes du prospecteur, la source auprès de laquelle les données des prospects ont été recueillies, et enfin un mécanisme permettant de recueillir le consentement.


III. Comment encadrer les relations entre prospecteurs et primo-collectant des données ?

Plutôt qu’opposer les primo-collectant des données aux prospecteurs, il est préférable d’envisager une collaboration étroite entre ces derniers qui permettra d’une part de sécuriser les opérations de prospection commerciale du prospecteur, et d’autre part de valoriser le flux de prospects transmis par le primo-collectant.

Ainsi, en amont, prospecteurs et primo-collectant doivent encadrer contractuellement leurs relations. Ce contrat doit prévoir à minima :

  • Les qualifications juridiques de chacun des acteurs, et le cas échéant inclure dans le contrat les mentions spécifiques relatives à la Sous-traitance[23] ou à la Responsabilité conjointe de traitement[24];
  • Les obligations de chacun au regard du recueil valide du consentement, de la fourniture des mentions d’informations, ainsi que de la gestion des demandes d’exercice de droit ;
  • La conservation et la documentation des preuves du consentement des prospects ;
  • Et également, la responsabilité de chacun des acteurs en cas de manquement à leurs obligations.

De plus, tout au long de leur relation, ces derniers devront prévoir des mécanismes spécifiques afin de garantir le respect des obligations légales dont :

  • La gestion des demandes d’exercice de droit des prospects dans un délai maximal de 1 mois, ainsi que la transmission effective de ces demandes entre les différents acteurs de la chaîne : telles les demandes de retrait du consentement, d’exercice du droit d’opposition ;
  • La transmission des preuves du consentement des prospects, notamment pour démontrer leur validité dans le cadre d’un contrôle de la CNIL auprès de l’un des acteurs ;
  • Lorsque cela s’avère nécessaire, la mise en place d’une campagne de recueil du consentement des prospects (notamment si seules les catégories de destinataires ont été fournies lors du recueil du consentement ;
  • Et enfin, assurer la traçabilité du consentement des prospects, et la conservation d’une liste des prospecteurs pour lesquels ils ont consenti.

Dans tous les cas, une attention particulière doit être apportée à la sécurité des flux de données des coordonnées des prospects transmises entre le primo-collectant et le prospecteur[25].

———————————————-


BIBLIOGRAPHIE

[1] Le Monde Tribune de Lucie Audibert, et Eliot Bendinelli, Criteo : « La décision de la CNIL s’attaque à la chaîne de production de données irresponsable qui règne dans l’industrie publicitaire en ligne », publié le 30 août 2023, consultable en ligne : https://www.lemonde.fr/idees/article/2023/08/30/criteo-la-decision-de-la-cnil-s-attaque-a-la-chaine-de-production-de-donnees-irresponsable-qui-regne-dans-l-industrie-publicitaire-en-ligne_6187094_3232.html

[2] Commission Nationale de l’Informatique et des Libertés

[3] Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016, relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE (règlement général sur la protection des données ou « RGPD »), consultable en ligne : https://eur-lex.europa.eu/legal-content/FR/TXT/HTML/?uri=CELEX:32016R0679

[4] Certaines règles de droit spéciales encadrent les opérations de prospection commerciale et de retargeting publicitaire, comme les articles L34-5 du Code des Postes et des Communications électroniques, ainsi que l’Article 82 de la Loi Informatique et Libertés n° 78-17 du 6 janvier 1978

[5] CNIL, n°SAN-2023-015 du 12 octobre 2023 concernant la société CANAL +, sanction d’un montant de 600 000 euros, consultable en ligne : https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000048222771

[6] CNIL, n°SAN-2023-009 du 15 juin 2023 concernant la société CRITEO, sanction d’un montant de 40 millions d’euros, consultable en ligne : https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000047707063

[7] RGPD, Considérant 47 : « le traitement de données à caractère personnel à des fins de prospection peut être considéré comme étant réalisé pour répondre à un intérêt légitime »

[8] Loi Informatique et libertés n° 78-17 du 6 janvier 1978, article 82

[9] Code des Postes et des Communications électroniques, Article L34-5 alinéa 1er

[10] RGPD, Article 7.1

[11] RGPD, Article 4.11 : le « consentement » de la personne concernée, toute manifestation de volonté, libre, spécifique, éclairée et univoque par laquelle la personne concernée accepte, par une déclaration ou par un acte positif clair, que des données à caractère personnel la concernant fassent l’objet d’un traitement

[12] RGPD, Article 7.3

[13] Code des Postes et des Communications Électroniques, Article L34-5 4ème alinéa

[14] CNIL, La prospection commerciale par courrier électronique, 18 mai 2009, consultable en ligne : https://www.cnil.fr/fr/la-prospection-commerciale-par-courrier-electronique

[15] CNIL, La prospection commerciale par courrier postal et appel téléphonique, 26 janvier 2022, consultable en ligne : https://www.cnil.fr/fr/la-prospection-commerciale-par-courrier-postal-et-appel-telephonique

[16] RGPD, Articles 12 à 14

[17] RGPD, Article 21.1 à 21.4

[18] RGPD, Article 83.5

[19] Code Pénal, Article L226-21

[20] CNIL, FR, 24 novembre 2022, SANCTION, n° SAN-2022-021, publié, consultable en ligne : https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000046650733?isSuggest=true

[21] RGPD, Article 13

[22] RGPD, Article 14

[23] RGPD, Article 28

[24] RGPD, Article 26

[25] RGPD, Articles 28 et 32

LUMIÈRE SUR … Les risques liés à la confidentialité des données utilisées pour l’entraînement des modèles d’Intelligence Artificielle

Lumière sur ... Les risques liés à la confidentialité des données utilisées pour l’entraînement des modèles d’Intelligence Artificielle - 1

Partage d’un modèle d’intelligence artificielle : attention au risque de réidentification des données utilisées pour l’entraînement du modèle

Pour automatiser la pseudonymisation de ses décisions, la Cour de cassation est progressivement passée d’un moteur de règles[1] à un système d’intelligence artificielle reposant sur l’apprentissage automatique. Cette nouvelle approche est définie par la CNIL comme : « un champ d’études de l’intelligence artificielle qui vise à donner aux machines la capacité d’apprendre à partir de données, via des modèles mathématiques », soit un « procédé par lequel les informations pertinentes sont tirées d’un ensemble de données d’entraînement »[2].

Ainsi, ce changement de paradigme permet à la Cour de cassation de réaliser des gains de temps, et d’adapter son outil de pseudonymisation à une plus grande variété de contextes. Néanmoins, le recours aux modèles d’apprentissage automatique génère de nouveaux risques : notamment la potentielle réidentification des données personnelles ayant été utilisées pour l’entraînement de ce dernier.

Ainsi, le 31 janvier 2023, un justiciable a demandé à l’administration la communication du code source du logiciel, ainsi que le modèle d’intelligence artificielle en tant que tel, utilisé par la Cour de cassation afin de pseudonymiser ses décisions de justice avant leur publication. Si le code source du logiciel fait lui déjà l’objet d’une diffusion publique, le Président de la Cour a toutefois expressément refusé la communication du modèle d’intelligence artificielle entraîné.

Ainsi, l’avis rendu par la Commission d’accès aux documents administratifs (CADA) en date du 30 mars 2023[3] dernier consacre la possibilité d’obtenir la communication des modèles d’intelligence entraînés utilisés par l’administration (I.), sous réserve que cette communication ne permette pas à des tiers de procéder à la réidentification des données personnelles présentes dans les données d’entraînement du modèle (II.). Ainsi, il est nécessaire de garantir la confidentialité des données d’entraînement d’un modèle d’intelligence artificielle mis en production (III.).

 

1. Les modèles d’intelligence artificielle entraînés : des documents administratifs susceptibles d’être communiqués

Le modèle d’intelligence artificielle utilisé par la Cour de cassation est composé de deux modèles d’intelligence artificielle ayant chacun subi une phase d’apprentissage propre[4] :

  • Tout d’abord, un apprentissage non supervisé[5] d’un modèle de langage, qui permet d’obtenir des vecteurs multidimensionnels de mots, a été réalisé sur plus de 2 millions de décisions de justice ;
  • Puis, un apprentissage supervisé[6] d’un algorithme de reconnaissance d’entités nommées, qui est une sous-tâche du premier, a été réalisé sur plusieurs milliers de décisions annotés.

Dès lors, la Commission d’Accès aux Documents Administratifs[7] (ou « CADA ») considère que de tels modèles, même entraînés, revêtent le caractère de documents administratifs, et peuvent le cas échéant faire l’objet d’une communication[3].

Pour rappel, l’article L300-2[8] du code des relations entre le public et l’administration définit les documents administratifs comme « les documents produits ou reçus, dans le cadre de leur mission de service public, par l’État, les collectivités territoriales ainsi que par les autres personnes de droit public ou les personnes de droit privé chargées d’une telle mission » ; et ce, « quels que soient leur date, leur lieu de conservation, leur forme et leur support ».

 

2. Le risque de réidentification des données : l’extraction des données personnelles d’entraînement à partir d’un modèle d’intelligence artificielle

Le principe de libre communication des documents administratifs connaît certaines exceptions, notamment lorsque ces derniers sont susceptibles de porter atteinte à la protection de la vie privée d’une personne comme prévu par l’article L311-6 du code des relations entre le public et l’administration [9]. Le cas échéant, seule la personne concernée peut obtenir la communication des informations présentes dans ledit document.

En effet, il est possible dans certains cas de figure de reconstituer les données utilisées pour entraîner un modèle d’intelligence artificielle : le risque de réidentification des données personnelles utilisées pour entraîner le modèle. Ainsi, ce risque résulte :

  • De la structure de certains modèles d’intelligence artificielle qui conservent au sein de leurs paramètres les données d’entraînement dans leur forme initiale[10] ;
  • Mais également de certaines formes d’attaques, dont les attaques « par inversion du modèle »[11] qui visent spécifiquement à reconstruire le jeu de données ayant permis d’entraîner un modèle.

Or en l’espèce, le président de la Cour de cassation considère que les données pseudonymisées dans les décisions rendues publiques peuvent être reconstitués via des opérations de rétro-ingénierie, sur la base des paramètres de configuration des modèles entraînés. En outre, l’algorithme de reconnaissance des entités nommées est un modèle génératif[12] ayant la capacité de mémoriser les données d’entraînement. Par conséquent, la CADA en déduit que « en l’état actuel des connaissances scientifiques » le risque de réidentification des personnes figurant dans les décisions présente « un caractère suffisant de vraisemblance pour être tenu pour acquis ».

En effet, un attaquant disposant du modèle et de l’ensemble de ses paramètres (soit une attaque menée en mode « boîte blanche »[13]) aurait davantage de facilités à reconstituer les données occultées présentes dans les décisions pseudonymisées, dès lors que ces dernières font partie du jeu de données d’entraînement du modèle. Ainsi, un modèle d’intelligence artificielle sera d’autant plus performant lorsqu’il est confronté à ses propres données d’entraînement.

Ainsi, la CADA considère que la communication desdits modèles d’intelligence artificielle est de nature à porter atteinte à la protection de la vie privée d’autrui, en permettant à des tiers de reconstituer le jeu de données utilisé aux fins d’apprentissage du modèle. Par conséquent, ces derniers peuvent réidentifier les personnes concernées dans les décisions de la Cour de cassation pseudonymisées.

 

3. Les mesures afin de limiter les risques de réidentification des données d’entraînement

Lors du recours à un modèle d’apprentissage automatique, il est important de garantir la confidentialité des données ayant été utilisées afin d’entraîner le modèle, et de s’assurer que ces dernières ne soient pas rendues accessibles à des tiers (attaquants ou partenaires).

Le risque de réidentification des données d’entraînement doit donc être analysé en amont de la mise en production du modèle. En outre, il faut prendre en considération la structure du modèle ainsi que les différents scénarios d’attaque possibles. Cette analyse doit faire l’objet d’une documentation par le Responsable du traitement.

D’autre part, afin de limiter le risque, et selon le contexte, plusieurs mesures peuvent être envisagées, dont notamment :

  • Privilégier le recours à des types d’algorithmes ne conservant pas les données d’entraînement dans la structure du modèle.
  • Utiliser des données synthétiques[14] afin d’entraîner le modèle d’intelligence artificielle, dès lors que les données utilisées pour l’entraînement ne sont pas des données personnelles le risque de réidentification d’un individu est minimisé.
  • Recourir à des API[15] plutôt qu’au partage du modèle en tant que tel[16], et limiter la fréquence et la portée des requêtes afin d’empêcher les attaquants d’accéder aux données d’entraînement.
  • Brider la performance d’un modèle, ou en interdire les utilisations et applications, dans le cadre d’une tâche ou d’un contexte distinct.
  • Restreindre l’accès à certaines informations aux attaquants, dont par exemple le score de confiance associé à une décision donnée, en le remplaçant par une simple mention sans précisions supplémentaires.
  • Analyser l’ensemble des bibliothèques, et codes sources, utilisés afin de prévenir la présence de vulnérabilités, ou de failles de sécurité, permettant à des tiers de récupérer les données d’entraînement (notamment par le biais d’une porte dérobée).
 

-bibliographie

[1] Un logiciel permettant d’automatiser des décisions à l’aide d’une logique prédéfinie.

[2] CNIL, Glossaire de l’intelligence artificielle, consultable en ligne : https://www.cnil.fr/fr/definition/apprentissage-automatique#:~:text=L’apprentissage%20automatique%20(machine%20learning,donn%C3%A9es%2C%20via%20des%20mod%C3%A8les%20math%C3%A9matiques.

[3] CADA, Avis n°20230314 – Séance du 30/03/2023, consultable en ligne : https://www.cada.fr/20230314

[4] Cour de cassation, Moteur de pseudonymisation de la Cour de cassation, 14 Février 2023, https://github.com/Cour-de-cassation/moteurNER

[5] « L’apprentissage non supervisé est un procédé d’apprentissage automatique dans lequel l’algorithme utilise un jeu de données brutes et obtient un résultat en se fondant sur la détection de similarités entre certaines de ces données », CNIL, Glossaire de l’intelligence artificielle, consultable en ligne : https://www.cnil.fr/fr/definition/apprentissage-automatique#:~:text=L’apprentissage%20automatique%20(machine%20learning,donn%C3%A9es%2C%20via%20des%20mod%C3%A8les%20math%C3%A9matiques.

[6] « L’apprentissage supervisé est un procédé d’apprentissage automatique dans lequel l’algorithme s’entraîne à une tâche déterminée en utilisant un jeu de données assorties chacune d’une annotation indiquant le résultat attendu », CNIL, Glossaire de l’intelligence artificielle, consultable en ligne : https://www.cnil.fr/fr/definition/apprentissage-automatique#:~:text=L’apprentissage%20automatique%20(machine%20learning,donn%C3%A9es%2C%20via%20des%20mod%C3%A8les%20math%C3%A9matiques.

[7] La Commission d’accès aux documents administratifs est une autorité administrative indépendante créer par la loi no 78-753 du 17 juillet 1978 ayant pour mission de fournir des avis aux personnes dont les demandes de communications de documents détenus par l’administration ont fait l’objet d’un refus

[8] https://www.legifrance.gouv.fr/codes/article_lc/LEGIARTI000033218936

[9] Article L311-6 1° du code des relations entre le public et l’administration : « Ne sont communicables qu’à l’intéressé les documents administratifs : 1° Dont la communication porterait atteinte à la protection de la vie privée », legifrance.gouv.fr/codes/article_lc/LEGIARTI000037269056

[10] A titre d’exemple, la CNIL cite : « les algorithmes de clustering k-NN et de classification SVM », Laboratoire Numérique d’Innovation de la CNIL, Dossier Sécurité des systèmes d’IA, Avril 2022, p. 20, consultable en ligne https://linc.cnil.fr/sites/linc/files/atoms/files/linc_cnil_dossier-securite-systemes-ia.pdf

[11] Dit également « model inversion attacks », Les  attaques par inversion visent à extraire une représentation moyenne de chacune des classes sur lesquelles le modèle a été entrainé », Laboratoire Numérique d’Innovation de la CNIL, Dossier Sécurité des systèmes d’IA, Avril 2022, p. 20, consultable en ligne https://linc.cnil.fr/sites/linc/files/atoms/files/linc_cnil_dossier-securite-systemes-ia.pdf

[12] « Par opposition à un modèle discriminatif, le modèle génératif permet à la fois de générer de nouveaux exemples à partir des données d’entraînement et d’évaluer la probabilité qu’un nouvel exemple provienne ou ait été généré à partir des données d’entraînement », CNIL, Glossaire de l’Intelligence Artificielle https://www.cnil.fr/fr/definition/modele-generatif

[13] Contrairement à une attaque en mode « boîte noire » l’attaquant connaît ici de nombreuses informations sur le système d’IA : « la distribution des données ayant servi à l’apprentissage du modèle (potentiellement l’accès à certaines parties de celles-ci), l’architecture du modèle, l’algorithme d’optimisation utilisé, ainsi que certains paramètres (par exemples les poids et les biais d’un réseau de neurones) », Laboratoire Numérique d’Innovation de la CNIL, Dossier Sécurité des systèmes d’IA, Avril 2022, p. 20, consultable en ligne : https://linc.cnil.fr/sites/linc/files/atoms/files/linc_cnil_dossier-securite-systemes-ia.pdf]

[14] La synthèse de données est une technique visant à générer des données par le biais d’un modèle d’intelligence artificielle dédié répliquant les caractéristiques et les propriétés statistiques de données réelles tout en introduisant une part d’aléatoire. Ces données sont alors dénommées « données synthétiques », elles peuvent alors être des données anonymes au sens du RGPD et être utilisés afin d’entraîner un modèle d’intelligence artificielle. Voir en ce sens : Information Commissionner’s Office, Guidance on Privacy-enhancing technologies (PETs), 19 juin 2023, https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/data-sharing/privacy-enhancing-technologies/what-pets-are-there/synthetic-data/

[15] « Une API (application programming interface ou « interface de programmation d’application ») est une interface logicielle qui permet de « connecter » un logiciel ou un service à un autre logiciel ou service afin d’échanger des données et des fonctionnalités », CNIL, Glossaire, https://www.cnil.fr/fr/definition/interface-de-programmation-dapplication-api

[16] Information Commissionner’s Office, Guidance on AI And Data Proteciton, septembre 2023, consultable en ligne : https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/artificial-intelligence/guidance-on-ai-and-data-protection/how-should-we-assess-security-and-data-minimisation-in-ai/#whatsecurityrisks