Une étude de Stanford nous a appris récemment que Facebook nous connaitrait mieux que notre meilleur ami ou que n’importe quel membre de notre famille. Fascinant…ou inquiétant ? Pour A. Rouvroy, philosophe, nous faisons face à un court-circuitage des capacités d’entendement, de volonté et d’énonciation de la personne par l’informatique, à une hypertrophie de la sphère privée et à une raréfaction de la sphère publique c’est à dire des choses qui n’ont pas été pré-vues pour un individu. Bienvenue dans l’ère du Big Data, « The Black Box Society [1] » .
Que nous le voulions ou non et plus vite qu’on ne l’imagine, le Big Data fera partie de notre quotidien.
A l’ère du Big Data, plus que jamais et comme l’écrivit en son temps Antoine de Saint Exupery, il ne s’agit pas plus de prévoir l’avenir, mais de le rendre possible [2].
Le Big Data cache en réalité des traitements de données mis en œuvre à l’aide de plusieurs techniques à l’instar du « machine learning », analyse prédictive ou préemptive, de la fusion ou de la fouille des données. Ces techniques visent toutes un même objectif : donner du sens aux données. Outre des données brutes, cela concerne des données de localisation, de navigation, des métadonnées, des informations issues des réseaux sociaux ou provenant de l’administration.
A partir de ce qui a été et de ce qui est, les algorithmes prédisent ce qui sera ou ce qui pourrait être, voire même, font en sorte que cela se produise.
Comment le cadre légal peut-il prévenir les abus et lutter contre l’utilisation dommageable des données personnelles sans paralyser la croissance de l’économie numérique ?
Comment empêcher l’exploitation d’ « anomalies profitables » chez les individus sans freiner le progrès lié aux nouvelles technologies ? A l’évidence, l’exercice est périlleux et demande une approche à la fois rigoureuse et flexible.
En Europe, le régime juridique des traitements de données permettant d’identifier directement ou indirectement une personne est défini principalement par la directive 95/46/EC, transposée en droit français en 2004 dans la loi « informatique et libertés » du 6 janvier 1978. Cette législation fait l’objet, au niveau de l’Union Européenne, d’un projet de réforme qui devrait aboutir prochainement à un règlement applicable uniformément au sein de l’Union. Le règlement sera applicable à tout professionnel fournissant des produits et des services aux citoyens de l’Union, y compris à titre gratuit, indépendamment de sa propre localisation. Il s’appliquera notamment aux activités consistant à suivre le comportement et les habitudes des personnes selon des méthodes de profilage, en vue de prendre des décisions à leur égard ou d’analyser et de prédire leurs préférences personnelles, leurs comportements et leurs attitudes. Pour cette raison, notre analyse tiendra compte non seulement du droit en vigueur, mais également du projet de règlement tel qu’il existe à ce jour ainsi que de la doctrine des autorités de régulation.
Tout projet de Big Data traitant d’informations concernant des personnes doit donc respecter les principes et les obligations de protection des données édictés par la loi et notamment le principe de « finalité spécifique » [3].
Mais il est aussi indispensable d’analyser quels peuvent être les risques pour la vie privée, les droits et les libertés fondamentaux des personnes.
Aussi et au-delà de la seule démarche de conformité, le traitement de données personnelles dans le contexte du Big Data soulève deux problématiques :
Comment concilier le Big Data avec le principe de finalité spécifique ?
Dans quels cas faut-il mener une étude d’impact sur la protection des données ?
1- Le test de compatibilité d’un nouveau traitement des données.
Au sens de la loi de 1978 modifiée (articles 6 et 38), le traitement « ultérieur » doit s’entendre de tout traitement des données faisant suite à leur collecte et dont la finalité est différente des finalités principale et accessoires déclarées ou enregistrées. Un traitement ultérieur incompatible avec la finalité initiale de la collecte est illégal. En revanche, un traitement ultérieur est autorisé et n’a pas besoin de nouvelle base légale au sens de l’article 7 de la loi tant que sa finalité n’est pas incompatible avec le ou les finalités initiales.
A titre d’exception à cette règle, les traitements des données à des fins statistiques, historiques ou de recherche ne sont pas incompatibles avec la ou les finalité(s) initiale(s). Cela peut concerner des traitements aussi variés que des outils d’analyse de sites internet ou des applications de Big Data utilisées à des fins de recherche [4] .
Si la compatibilité ou l’incompatibilité du traitement ultérieur est évidente, il ne sera pas nécessaire, sauf exception, de mener une analyse complémentaire. Dans le cas contraire, le G29 [5] invite le responsable de traitement à faire un test de compatibilité [6].
Le test de compatibilité ne se réduit pas à une vérification mécanique. Il repose sur l’évaluation au cas par cas de divers critères présentés ci-après :
1.1. La relation entre la finalité initiale de la collecte et la finalité du traitement ultérieur : un traitement ultérieur sera d’autant plus « compatible » avec la finalité initiale qu’il sera « prévisible » lors de la collecte initiale.
1.2. Le contexte de la collecte :
La loi impose, dans tous les cas, que les données soient collectées et traitées de manière loyale et licite.
1.2.1. Tout d’abord, la collecte initiale doit être loyale [7]. Lorsque la collecte est basée sur le consentement de la personne, il convient notamment d’analyser la répartition des pouvoirs entre le responsable du traitement et la personne concernée par le traitement. Ainsi, la valeur du consentement sera appréciée différemment selon que la personne concernée est effectivement libre d’accepter ou de refuser le traitement ou qu’elle se trouve dans une situation de dépendance (par exemple, en cas de contrat d’adhésion dans lequel le consommateur n’a aucune possibilité de négociation ou de contrat de travail, où le lien de subordination réduit cette possibilité). Par contre, dans le cas où la collecte est justifiée par l’intérêt légitime du responsable de traitement ou d’un tiers, l’analyse prendra notamment en compte le statut du responsable de traitement et l’existence d’éventuelles obligations légales ou contractuelles.
1.2.2. Transparence de la collecte et du traitement ultérieur (ex. information des personnes sur « la logique et les conséquences » d’un traitement automatique des informations le concernant).
1.2.3. Pour chaque traitement il convient de conserver présent à l’esprit que la collecte n’est licite que si elle est légale (conforme à la législation et à la réglementation applicable et en vigueur au moment de la collecte) et qu’elle n’est pas contraire à l’ordre public. Or, dans le cadre d’un projet Big Data la vérification de la légalité de la collecte est une entreprise assez délicate, compte tenu de la multiplicité des sources des données et, par conséquent, des textes applicables, qui relèvent de régimes juridiques différents selon l’état et/ou le secteur d’activité concerné. La licéité de la collecte suppose également le respect des contrats, des conditions générales et des droits de propriété intellectuelle attachés aux bases de données, pour autant qu’ils ne soient pas contraires à des textes d’ordre public.
1.3. La nature des données : certaines données sont sensibles soit parce qu’elles appartiennent à des catégories particulières de données [8], soit parce qu’il s’agit d’informations génétiques, de données biométriques, de localisation ou relatives aux infractions, condamnations et mesures de sûreté. Le projet de Règlement Général relatif à la Protection des Données, dans sa version actuelle, donne une définition large de la « donnée de santé », qui comprend, outre l’état de santé au sens strict, « toute information concernant l’état physiologique de la personne concernée, indépendamment de sa source. ».
Le G29 a lui aussi récemment rappelé [9] toute la complexité de la notion de « donnée de santé » dont il donne une définition qui va bien au-delà d’une stricte approche médicale.
1.4. Les catégories de personnes concernées : les sujets du traitement sont plus ou moins vulnérables. L’article 8 du projet de Règlement Général relatif à la Protection des Données prévoit par exemple que le consentement d’un enfant de moins de 13 ans doive être donné par la personne disposant de l’autorité parentale.
1.5. Les impacts positifs et négatifs du traitement ultérieur : l’individu peut par exemple bénéficier d’une offre personnalisée et plus avantageuse mais le traitement peut aussi entrainer l’exclusion des personnes, des actes de discrimination ou même il peut avoir des conséquences émotionnelles comme la peur, l’agacement ou la détresse.
Les impacts négatifs sont inhérents à la mise en œuvre du traitement et peuvent être liés à divers facteurs tels que les suivants :
1.5.1. Un traitement des données non sécurisé par les sous-traitants peut par exemple entrainer une ré-identification des informations ou aboutir à un transfert de données vers un pays tiers en dehors de l’Union Européenne ;
1.5.2. Les données peuvent ne pas être pertinentes ou se révéler excessives au regard des finalités pour lesquelles elles sont collectées et traitées [10] ou peuvent être inexactes [11] ;
1.5.3. L’interconnexion de fichiers, la logique et les modèles (« patterns ») qui sous-tendent les algorithmes, outre des facteurs aggravants comme l’échelle du traitement, permettent de fournir de nouvelles informations (par exemple, des données sur le style de vie d’une personne sont susceptibles de fournir des informations sur son état de santé).
1.5.4. Certaines mesures qui permettront d’assurer un traitement juste afin de prévenir d’éventuels impacts sur les personnes doivent être prises en compte :
1.5.4.1. Le respect du droit d’opposition des personnes, particulièrement en cas de profilage : comme en dispose l’article 10 de la loi « informatique et libertés », aucune décision produisant des effets juridiques à l’égard d’une personne (ou « l’affectant de manière significative » selon le projet de Règlement Général relatif à la Protection des Données [12] ) ne peut être prise sur le seul fondement d’un traitement automatisé de données (i.e. sans intervention humaine) destiné à définir le profil de l’intéressé ou à évaluer certains aspects de sa personnalité.
1.5.4.2. Les mesures de sécurité et de sauvegarde : classiquement la sécurité des systèmes d’information est appréhendée en termes de disponibilité, d’intégrité, de confidentialité des données. Les mesures de sauvegarde (ex. « minimisation » des données, proportionnalité du traitement, pseudonymes) doivent empêcher que les données soient utilisées pour prendre des décisions ou des mesures préjudiciables vis-à-vis des personnes.
Afin de déterminer les mesures qui doivent être prises, le G29 recommande de distinguer deux scénarios : soit le traitement vise à déterminer des tendances et des corrélations au niveau des informations, soit il vise à analyser ou prédire les préférences, les comportements ou les attitudes des individus pour prendre des décisions les concernant.
Dans le premier cas, le responsable du traitement peut compenser le risque d’incompatibilité en garantissant une séparation fonctionnelle via une anonymisation totale ou partielle des données, l’utilisation de pseudonymes ou l’agrégation des données.
Dans le second scenario et sauf exception prévue par la loi, le G29 est d’avis que nonobstant les mesures garantissant la sécurité et la confidentialité des données, il ne peut y avoir de suivi ou de profilage à des fins de marketing direct, de publicité comportementale, de courtage de données ou de recherche basée sur un suivi en ligne, sans le consentement exprès et éclairé de la personne (ex. transparence du profil et contrôle de la personne sur les données la concernant).
Ce consentement de la personne forme alors une nouvelle base légale mais cela ne saurait néanmoins suffire à garantir la compatibilité de la finalité ultérieure. Il pourra s’avérer nécessaire de renforcer les mesures de sauvegarde en isolant les données d’identification et notamment les métadonnées ou en garantissant l’intervention du responsable.
Ainsi, suivant l’avis du G29, la déficience d’un facteur pourra selon le contexte être décisive ou bien être compensée par des mesures de sauvegarde supplémentaires.
1.5.4.3. L’avenir incertain du principe de « finalité spécifique »
Le projet de règlement européen, sous l’influence du Conseil des Ministres, pourrait ouvrir la boîte de pandore en autorisant les traitements ultérieurs incompatibles avec la finalité initiale. En effet, le Conseil de Ministres souhaite que tel soit le cas dans l’hypothèse où l’intérêt légitime du responsable de traitement serait prépondérant sur les intérêts et les droits et libertés fondamentaux des personnes [13]. Ainsi une personne déjà cliente pourrait selon le contexte voir les données la concernant faire l’objet d’un traitement de Big Data sans que se pose la question de la compatibilité du traitement de données.
Si « rien n’est convenu tant que tout n’est pas convenu » selon la formule consacrée, nul doute néanmoins que le règlement européen laissera aux Etats membres l’initiative d’un cadre juridique national plus strict pour imposer des mesures de sauvegarde particulières et des règles plus sévères pour les traitements de données plus sensibles notamment en matière d’emploi, de santé et de protection sociale.
2. Dans quels cas faudra-t-il mener une étude d’impact sur la protection des données ?
2.1. Projet de règlement européen : des « risques spécifiques » aux « risques élevés »
A ce jour il n’existe pas d’obligation légale de mener une étude d’impact sur la protection des données et de la vie privée. En revanche cette obligation est prévue par l’article 33 du projet de règlement européen en cas de « risques spécifiques ».
En l’état actuel du projet de règlement européen consolidé après les échanges entre la Commission et le Conseil, il semble acquis que l’obligation de mener une étude d’impact soit maintenue dans la seule hypothèse où, en fonction de la nature, de la portée et de la finalité d’un traitement, en particulier en cas d’utilisation de nouvelles technologies, le traitement est susceptible de présenter des « risques élevés » pour les droits et les libertés des personnes, tels que la discrimination, l’usurpation d’identité ou la fraude, une perte financière, un dommage pour la réputation, une faille portant sur les pseudonymes, la violation de la confidentialité de données protégées par le secret professionnel ou tout autre inconvénient économique ou social.
Cela concerne en particulier, mais sans que cela soit exhaustif les traitements suivants :
Le profilage des personnes via un traitement automatisé de données destiné à évaluer certains aspects de sa personnalité [14] et sur la base duquel sont prises des mesures ayant des effets juridiques à son égard ou qui l’affectent de manière significative [15] ;
Les traitements à grande échelle de données sensibles, notamment au sens de l’article 9.1 du projet de règlement ; Le contrôle d’espaces publics à large échelle à l’aide de systèmes optiques électroniques.
Le projet de règlement prévoit la consultation du délégué à la protection des données « Data Protection Officer » (correspondant informatique et libertés) lors de la mise en œuvre de l’étude d’impact. En l’absence de désignation d’un délégué à la protection des données, le responsable de traitement peut consulter, à cette fin, un expert extérieur.
Chaque autorité nationale de protection des données tiendra une liste des traitements devant faire l’objet d’une étude d’impacts et de ceux pour lesquels cela ne sera pas requis.
2.2. L’étude d’impact et l’obligation de rendre compte
L’étude d’impact est un outil de documentation des risques liés à un projet et des mesures prises pour les limiter ou les éviter. Elle ne se substitue pas à la loi mais permet de s’y conformer. L’étude d’impact sur la protection des données traduit une volonté d’encourager la co-régulation du marché. Elle peut être communiquée dans sa totalité ou pour partie aux autorités de protection des données afin de démontrer la conformité du traitement ou transmise au public pour assurer une plus grande transparence.
2.3. Le contenu d’une étude d’impact
Une étude d’impact porte sur l’ensemble du cycle de vie des données, de leur collecte à leur destruction ou anonymisation.
Elle doit au minimum comprendre les éléments suivants :
une description du traitement, ce qui en pratique et sans que cela soit exhaustif, devrait porter sur la finalité, la base légale du traitement, les catégories de données traitées, les destinataires des données ainsi qu’une cartographie des flux.
une évaluation des risques [16] indiqués ci-dessus,
une description des mesures envisagées pour traiter les risques et s’en prémunir (il pourra par exemple être fait état de mesures de « Privacy by Design »),
une description des mesures de sécurité et des mécanismes mis en œuvre afin de protéger les données personnelles et de démontrer la conformité du traitement, tout en tenant compte des droits et des intérêts légitimes des personnes concernées.
L’étude doit en outre faire état de l’avis des personnes concernées ou de leurs représentants
Si le traitement se fonde sur l’intérêt légitime du responsable de traitement ou du destinataire, une analyse de la balance des intérêts s’impose, en comparant d’une part les intérêts et les droits et libertés fondamentaux de la personne concernée par le traitement et d’autre part les intérêts légitimes de l’organisation.
Signalons que le référentiel de l’analyse des risques va au-delà des règles de protection des données puisqu’il s’agit aussi d’analyser les impacts éventuels sur la vie privée, les droits et les libertés fondamentaux des personnes.
2.4. Le rôle des codes de conduites et des schémas de certification
Le responsable de traitement ou le sous-traitant aura la possibilité de faire valoir la conformité de son traitement à un code de conduite approuvé par les autorités de protection des données dans le respect des dispositions de l’article 38 du projet de règlement européen. A titre d’exemple, le code pourra détailler les techniques des pseudonymes ou la notion « d’intérêt légitime ». Il en ira de même en cas d’adhésion à un schéma de certification [17].
Autant d’outils à prendre en compte dans le cadre de l’étude d’impact d’un projet complexe.
2.5. Les suites de l’étude d’impact sur la vie privée
S’il résulte de l’étude que persistent des « risques élevés », le responsable de traitement devra obligatoirement et préalablement à la mise en œuvre du traitement consulter l’autorité de protection des données (la CNIL en France). Cette dernière pourra alors refuser la mise en œuvre d’un traitement illégal ou demander des mesures complémentaires si l’évaluation des risques est insuffisante. La CNIL pourra aussi informer le demandeur sur la fiabilité des outils ou la méthode utilisée pour mener l’étude d’impact.