A l’heure où la collecte et le traitement des données personnelles deviennent des incontournables de la vie des affaires, l’anonymisation, comme moyen d’échapper à la réglementation sur les données personnelles, est de plus en plus envisagée.
L’anonymisation est une technique appliquée aux données à caractère personnel afin d’empêcher leur identification de façon irréversible. En l’absence d’irréversibilité, les techniques mises en place relèvent essentiellement de la pseudonymisation, laquelle, en réduisant simplement la corrélation d’un ensemble de données avec l’identité originale d’une personne concernée, ne permet pas de se soustraire à la réglementation relative aux données personnelles.
I. L’anonymisation.
1.1. Approche générale de la notion d’anonymisation.
L’anonymisation offre une double garantie : celle de la sécurisation de l’exploitation des données personnelles et celle du respect des droits fondamentaux des personnes dont les données personnelles sont traitées.
L’appréciation du caractère irréversible de l’anonymisation, lequel offre la possibilité ou non d’identifier une personne, dépend « des moyens susceptibles d’être raisonnablement mis en œuvre, soit par le RT, soit par une autre personne ».
Dans le cas où un responsable de traitement transfère certaines données non identifiantes mais n’efface pas les données personnelles de ses systèmes, il doit être considéré que les données transmises constituent encore des données à caractère personnel, et ce même si les identifiants directs ont été supprimés.
Dans ce type de cas, seule la transformation des données en données statistiques agrégées à un niveau supérieur assure une réelle anonymisation, par exemple « le samedi, dans la boutique Y, le nombre de visiteurs est supérieur de 350 % à celui du lundi ».
Au regard de la Loi Informatique et Libertés, l’anonymisation a vocation à être utilisée à deux stades différents :
l’anonymisation à bref délai : dans ce cas, le processus d’anonymisation suit immédiatement la collecte des données (quelques minutes). Toutefois, du fait de l’existence d’un temps, bien que bref, entre la collecte des données et leur anonymisation réelle, la CNIL reste compétente pour autoriser la mise en place du procédé d’anonymisation. Dans la mesure où l’anonymisation à bref délai permet à l’entreprise de se voir exemptée d’appliquer certaines règles de la loi de 1978 (notamment en matière d’information préalable des personnes), la CNIL appréciera l’efficacité du procédé envisagé afin de garantir la sécurité des personnes dont les données personnelles sont traitées (voir l’article sur l’arrêt du Conseil d’Etat JC DECAUX),
l’anonymisation « ultérieure », en tant que second traitement des données : le processus d’anonymisation se fera un certain temps après la collecte, imposant dès lors à l’entreprise le respect de toutes les exigences légales et règlementaires en matière de données personnelles, jusqu’à ce qu’elles soient effectivement anonymisées.
1.2. Les techniques d’anonymisation.
Deux grandes familles de techniques visent à altérer le lien entre les données personnelles collectées et l’individu auxquelles elles se rapportent : la randomisation et la généralisation.
Par soucis de compréhension, nous précisons que chaque individu peut faire l’objet lors d’une collecte d’un ou de plusieurs enregistrements, chacun étant constitué de valeurs (ex : 178 cm) se rapportant à des attributs (ex : taille).
1.2.1. La randomisation :
Pour altérer le lien entre données et individu, les techniques de randomisation altèrent la véracité des données collectées. Parmi les procédés existants, la technique d’ajout de bruit consiste à modifier des attributs dans l’ensemble de données pour les rendre moins précis, tout en conservant la distribution générale. Pour traiter un ensemble de données, un observateur supposera que les valeurs sont exactes, même si cela ne sera vrai qu’à un certain degré. Par exemple, si la taille d’un individu a été mesurée à l’origine au centimètre près, l’ensemble de données anonymisées peut présenter une précision de ± 10 cm seulement. L’ajout de bruit devra ordinairement être combiné avec d’autres techniques d’anonymisation comme la suppression des attributs évidents et des quasi-identifiants. Le niveau de bruit devrait dépendre du niveau d’information requis et de l’impact que la divulgation des attributs protégés aurait sur le respect de la vie privée des individus.
1.2.2. La généralisation :
Cette approche consiste à diluer (ou généraliser), les attributs des personnes concernées en modifiant leur échelle ou leur ordre de grandeur respectif (par exemple, une région plutôt qu’une ville, un mois plutôt qu’une semaine). Si la généralisation peut être efficace pour empêcher l’individualisation, elle ne garantit pas une anonymisation effective à 100% et doit donc être combinée avec d’autres techniques.
1.3. Degré d’efficacité des techniques d’anonymisation.
Rendre impossible l’identification d’une personne ne consiste pas en la seule suppression des éléments directement identifiants la concernant. Il existe en effet une série de procédés permettant d’exploiter un ensemble de données afin d’identifier un ou des individus.
L’appréciation du degré d’efficacité d’une technique d’anonymisation s’apprécie en imaginant qu’une personne malveillante pourrait procéder à des recoupements relevant de ces trois situations :
• L’individualisation : correspond à la possibilité d’isoler une partie ou la totalité des enregistrements identifiant un individu dans l’ensemble de données ;
• La corrélation : consiste dans la capacité de relier entre eux, au moins, deux enregistrements se rapportant à la même personne concernée ou à un groupe de personnes concernées (soit dans la même base de données, soit dans deux bases de données différentes).
Si une attaque permet d’établir (par exemple, au moyen d’une analyse de corrélation) que deux enregistrements correspondent à un même groupe d’individus, mais ne permet pas d’isoler des individus au sein de ce groupe, la technique résiste à l’« individualisation », mais non à la corrélation ;
• L’inférence : est la possibilité de déduire, avec un degré de probabilité élevé, la valeur d’un attribut à partir des valeurs d’un ensemble d’autres attributs.
Une solution résistant à ces trois risques offrirait par conséquent une protection fiable contre les tentatives de réidentification, même si aucune technique n’est infaillible.
II. La pseudonymisation.
L’article 4 du RGPD définit la pseudonymisation de la manière suivante : « (…) on entend par pseudonymisation : le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable. »
2.1. Approche de la notion de pseudonymisation.
La pseudonymisation permet toujours d’identifier un individu grâce à ses données personnelles car elle consiste simplement à remplacer un attribut par un autre au sein d’un enregistrement. En effet, le considérant 26 du RGPD rappelle que « Les données à caractère personnel qui ont fait l’objet d’une pseudonymisation et qui pourraient être attribuées à une personne physique par le recours à des informations supplémentaires devraient être considérées comme des informations concernant une personne physique identifiable ».
Le Règlement communautaire qui entrera en vigueur le 25 mai 2018 évoque beaucoup la notion de pseudonymisation comme technique de respect du principe du Privacy By Design et de la minimisation des données (article 25 du RGPD notamment).
2.2. Techniques de pseudonymisation.
Les techniques de pseudonymisation sont nombreuses et offrent des garanties de sécurité variées, d’autant plus que les erreurs dans leur mise en œuvre sont courantes.
• Système cryptographique à clé secrète :
Dans le cas d’un système cryptographique à clé secrète, le détenteur de la clé peut aisément réidentifier chaque personne concernée en décryptant l’ensemble de données, puisque les données à caractère personnel y figurent toujours, quoique sous une forme cryptée. En supposant qu’un système cryptographique conforme à l’état de la technique a été appliqué, le décryptage ne serait possible qu’à condition de connaître la clé.
• Fonction de hachage :
La fonction de hachage renvoie un résultat de taille fixe, quelle que soit la taille de l’entrée encodée (l’entrée peut être un attribut unique ou un ensemble d’attributs). Evidemment, le risque consiste en la découverte de la fourchette dans laquelle se situent les valeurs. Afin de réduire ce risque, la fonction de hachage avec salage (où une valeur aléatoire, appelée « sel », est ajoutée à l’attribut qui fait l’objet du hachage) permet de réduire la probabilité de reconstituer la valeur d’entrée.
• Fonction de hachage par clé, avec clé enregistrée :
Il s’agit d’une fonction de hachage particulière qui utilise une clé secrète comme entrée supplémentaire (à la différence d’une fonction de hachage avec salage, où le « sel » n’est généralement pas secret). Un responsable de traitement des données peut réexécuter la fonction sur l’attribut en se servant de la clé secrète, mais il est beaucoup plus difficile pour un attaquant de réexécuter la fonction sans connaître la clé car le nombre de possibilités à tester est suffisamment grand pour rendre la tâche impraticable.
• Chiffrement déterministe ou fonction de hachage par clé avec suppression de la clé :
Cette technique équivaut à sélectionner un nombre aléatoire comme pseudonyme pour chaque attribut de la base de données et à supprimer ensuite la table de correspondances. En supposant qu’un algorithme conforme à l’état de la technique soit appliqué, il sera difficile pour un attaquant, en termes de puissance de calcul requise, de décrypter ou de réexécuter la fonction, car cela supposerait d’essayer chaque clé possible, puisque la clé n’est pas disponible.
Les sanctions prévues par le RGPD (20 millions d’euros d’amende ou 4% du chiffre d’affaires mondial) vont sans nul doute inciter de nombreuses sociétés à recourir à l’anonymisation dès qu’elles le pourront.
Discussions en cours :
Je suis surpris de voir les techniques de hash mentionnées parmi celles utilisées pour réaliser de la pseudonymisation.
L’une des qualités des fonctions de hash réside dans leur irréversibilité (à partir d’une empreinte, il doit être impossible de remonter à la valeur d’origine (Pour une explication vulgarisée du hash, voir http://www.afcdp.net/Sesame-ouvre-toi). Or la pseudonymisation sous-entend une phase de "levée du pseudonymat", pour revenir justement à la donnée d’origine de façon contrôlée. En tant que CIL nous utilisons le hash dans le cadre des stratégies d’anonymisation (entre autres), et non de pseudonymisation.
Par contre, la fonction qui aurait mérité d’être signalée dans la rubrique Pseudonymisation est la tokenisation, très utilisée par les acteurs qui doivent se conformer au standard de sécurité PCI DSS (traitement des transactions en ligne réglées en cartes bleues), mais pas assez connue en France. Ainsi tous les n° de CB sont remplacés par des tokens (des faux n° de CB). Cette technique est utilisée fréquemment en Grande-Bretagne dans les hôpitaux (qui remplacent tous les n° de sécurité sociale par des token - c’est à dire de faux numéro de sécurité sociale). Implémentée en respectant l’état de l’art, cette approche devrait permettre de bénéficier de l’exemption de communication aux personnes concernées en cas de violation de données, au titre de l’article 34.3.a du RGPD (http://www.afcdp.net/Reglement-annote-et-commente-avec)
En tant que futurs DPO, c’est l’une des mesures techniques que nous mettons en oeuvre au titre des analyses d’impact afin de réduire les risques pour les personnes.
Bruno Rasle - Délégué général de l’AFCDP- delegue.general chez afcdp.net - Tel. +33 (0)6 1234 0884 - www.afcdp.net
Cher Monsieur,
Mon article est essentiellement basé sur le l’avis du G29 n°05/2014 qui constitue pour l’heure une des rares sources de travail sur le thème de l’anonymisation des données personnelles. Le groupe de l’article 29 considère explicitement que le hachage est une technique relevant de la pseudonymisation et non de l’anonymisation : https://www.cnil.fr/fr/le-g29-publie-un-avis-sur-les-techniques-danonymisation-0.
Concernant la tokenisation, je suis tout à fait d’accord avec vous et il est vrai que cette technique mérite d’être, en France, plus sollicitée. Mon article ne se voulait pas exhaustif et je vous remercie donc pour votre mise en lumière de la tokenisation, qui j’en suis sure, aura séduit les lecteurs les plus attentifs.
Bonjour,
En effet, je partage le point de vue de Monsieur Rasle.
Les fonctions de hachage, par leur aspect irréversible me semble en effet être des techniques d’anonymisation.
Je pense qu’il s’agit d’une erreur.
Cordialement,
Clément
Dommage que les commentaires soient à coté de la plaque !! Il n’y a pas d’erreurs du G29 qui sont les experts européens, ni de l’article qui reprend correctement l explication.
Gros mélange entre l’anonymisation, la pseudo anonymisation et un chiffrement !
Un hash n’est pas faire de l anonymisation, mais du chiffrement et donc de la pseudo anonymisation. Et oui même si c est irréversible il est facile de retrouver le mot d’origine en faisant un dictionnaire de mots hashés puis de rechercher le hash et donc de trouver le mot d’origine hashé !
L’anonymisation est donc un ensemble de techniques brouillant la donnée afin de ne pas pouvoir isoler un individu. Il est aussi conseillé d’avoir certaines données personnelles hashées, selon le traitement déclaré au registre des traitements du DPO.
Sachez que MEME si vous supprimez certaines données comme les identifiants directs d’un individu il est encore possible d isoler cette personne (de la retrouver) dans des données spacio temporelles par ex.
Ne pas confondre l’identité d’une personne et isoler une personne, ça n’a rien à voir.
Une fois compris cela, vous comprendrez alors que l on peut déduire des données sur un individu inconnu son comportement sur sa religion par exemple (compteur électrique connecté) ou d’autres choses.
Bossez les définitions (ex les données personnelles de la loi liberté et informatique etc) avant de dire qu il y a une erreur ou parce que vous comprenez pas...
Maintenant c’est un sujet qui demande de se poser pour comprendre les risques, la portée, GDPR.
Pour finir AUCUNS logiciels ne fait de l anonymisation, c est un abus de langage...le masquage, le chiffrement etc ne sont que de la pseudo anonymisation.
L anonymisation demande à avoir un expert métier et un expert statistique (codeur aussi) pour y arriver car de la donnée sera alterée/détruite/bruitée selon les cas d usages !
Article clair & concis.
Toutes les informations sont regroupées et tout est très compréhensible.
Merci beaucoup.