En décembre 2024, deux ans à peine après son entrée sur le marché, ChatGPT franchissait la barre des 300 millions d’utilisateurs hebdomadaires.
ChatGPT domine désormais le marché des intelligences artificielles (IA) génératives, malgré l’arrivée très récente du chatbot chinois DeepSeek en Europe.
Dernièrement, outre la forte concurrence dans le secteur des IA génératives, OpenAI, la société éditrice de ChatGPT, a été confrontée à une autre problématique, celle de sa non-conformité au droit des données personnelles.
Le 2 novembre 2024, OpenAI est condamnée par le GPDP (Garante per la protezione dei dati personali), l’homologue italienne de la CNIL, à régler une amende record de 15 millions d’euros pour violations du Règlement général sur la protection des données (RGPD), aux motifs que l’éditeur :
- n’avait pas notifié une violation de données personnelles de mars 2023 ;
- avait traité des données des utilisateurs sans base légale ;
- avait violé son obligation de transparence et son obligation d’information à l’égard des utilisateurs.
Deux mois plus tard, le 2 janvier 2025, Microsoft, propriétaire à 49% d’OpenAI, annonçait un investissement colossal de 80 milliards de dollars pour la construction de centres de données destinés au déploiement des IA génératives. Une dynamique impressionnante, mais qui soulève des questions cruciales sur la gestion des données personnelles.
Les IA génératives sont conçues pour comprendre et générer du langage naturel à partir de leur apprentissage de données préexistantes afin d’interagir avec les utilisateurs de manière fluide et contextuelle.
Leur fonctionnement repose sur deux phases :
la phase de développement, durant laquelle les modèles s’entraînent sur de vastes ensembles de données (« données d’apprentissage ») ;
la phase de déploiement, qui implique, en plus des données d’apprentissage, l’utilisation des données communiquées par les utilisateurs et collectées pour analyser et répondre à leurs requêtes.
Ces données, dont bon nombre peuvent être qualifiées de données personnelles au sens du RGPD, sont soumises à une protection accrue.
À l’heure où le président Macron annonce le 9 février 2025, à la veille du Sommet pour l’action sur l’IA, que 109 milliards d’euros allaient être investis en France par des entreprises privées dans l’IA au cours des prochaines année, le fonctionnement des IA génératives met à rude épreuve le cadre juridique actuel.
Les limites du RGPD et de l’IA Act face aux défis du traitement massif de données personnelles par les IA génératives.
Le RGPD, entré en vigueur le 25 mai 2018, régit la plupart des traitements de données personnelles opérés par un établissement, public ou privé, établi sur le territoire de l’Union européenne ou qui cible directement les résidents européens.
Cela inclut nécessairement les traitements réalisés durant les phases de développement et de déploiement des systèmes d’IA, dès lors qu’ils entrent dans l’un des critères précités.
Les grands principes imposés par le RGPD, tels la transparence, la minimisation ou encore le principe de proportionnalité dans la collecte et le traitement des données s’imposent donc aux éditeurs d’IA générative qui s’implantent sur le territoire de l’UE, ou qui ciblent les résidents européens.
Le Règlement européen sur l’intelligence artificielle (RIA ou IA Act), entré en vigueur le 1er août 2024, impose cette fois des contraintes spécifiques aux fournisseurs et aux éditeurs d’IA génératives.
Pour ce faire, l’IA Act classe les systèmes d’IA en quatre niveaux de risque, modulant leurs obligations en fonction des risques d’utilisation pour les utilisateurs.
Actuellement, un chatbot comme ChatGPT est classé dans la catégorie des risques limités et devra se conformer aux exigences de transparence et à la législation de l’UE sur le droit d’auteur.
Concrètement, les utilisateurs doivent être informés et parfaitement conscients qu’ils échangent avec une IA, et non avec une personne humaine.
Toutefois, l’évolution des IA génératives, par exemple GPT 4.0, pourrait conduire à réévaluer leur dangerosité et, de fait, leur classement dans l’échelle des risques.
Les systèmes d’IA sont considérés à risque élevé lorsqu’ils ont un impact négatif sur la sécurité ou les droits fondamentaux.
On comprend ainsi l’opportunité d’une réévaluation des risques associés à l’utilisation des outils leaders du marché comme ChatGPT, lorsque leur utilisation conduit, par exemple, à la diffusion de deepfakes ou de fakenews, notamment en période électorale, conduisant ainsi à une manipulation de l’opinion publique.
Or, malgré cet arsenal juridique, les principes généraux posés par le RGPD, comme la licéité, la loyauté et la limitation des finalités, sont difficiles à faire respecter face aux spécificités des systèmes d’IA génératives.
Par exemple, comment appliquer le principe de minimisation des données à des systèmes qui, par essence même, nécessitent l’analyse de quantités d’informations toujours plus grandes ? Sans parler du consentement ou encore de la traçabilité des données…
Il a ainsi été révélé quelques jours après l’arrivée de DeepSeek en Europe que des requêtes des utilisateurs auprès du système d’IA (prompts) étaient accessibles en open data et donc au public, associés aux adresses mails des utilisateurs, rendant dès lors publiques les recherches de millions d’utilisateurs.
Face à ces difficultés, la CNIL et le CEPD sont venus enrichir le socle règlementaire de recommandations dédiées aux IA génératives.
Les recommandations pratiques de la CNIL et l’avis du CEPD.
En avril 2024, la CNIL publiait ses recommandations pratiques visant à guider les acteurs du secteur de l’IA dans leur mise en conformité avec la législation sur la protection des données.
Ces recommandations, concentrées sur la phase de développement des IA, abordent des problématiques cruciales comme la base légale applicable, la finalité du traitement, ou encore l’analyse d’impact afin de guider les éditeurs et fournisseurs d’IA dans leur conformité.
Publié en décembre 2024, l’avis du Contrôleur européen de la protection des données (CEPD), marque quant à lui une étape importante vers une harmonisation européenne de la règlementation relative aux IA.
Cependant, ces recommandations et avis, bien qu’utilement détaillées, restent trop généraux.
En effet, dès leur développement ces systèmes d’IA, qui fonctionnent souvent à partir de grandes masses de données non structurées, échappent à une définition claire et stable de leurs finalités.
Cette absence de détermination des finalités du traitement rend complexe l’application des principes du RGPD, notamment celui de la limitation des finalités (article 5 du RGPD) ou de la transparence à l’égard des utilisateurs, car l’évolution dynamique des IA génératives peut entraîner des usages imprévus des données personnelles, ce que relève d’ailleurs le CEPD.
L’action des autorités de contrôle, seul rempart aux violations de données personnelles ?
Dans sa décision du 2 novembre 2024 relative à OpenAI, l’autorité italienne rappelle avec force que la base légale doit être déterminée avant tout traitement de données et doit être clairement spécifiée dans les informations fournies aux personnes concernées.
À cet égard, elle constate qu’OpenAI n’a pas respecté cette exigence lors de l’entraînement de son modèle ChatGPT, n’ayant pas identifié de base légale adéquate pour le traitement des données personnelles.
Elle exige donc une rectification en insistant sur l’importance de fonder ce traitement sur des bases telles que le consentement ou l’intérêt légitime, ce dernier critère étant assez difficile à appréhender en matière de données personnelles.
Si la régulation des IA génératives reste actuellement difficile à mettre en œuvre, les autorités de contrôle n’ont pas dit leur dernier mot : à peine une semaine après leur arrivée en Europe, l’autorité de contrôle italienne, le GPDP, a envoyé une demande d’information à Hangzhou DeepSeek Artificial Intelligence et Beijing DeepSeek Artificial Intelligence, les sociétés derrière l’IA générative chinoise DeepSeek.
Celles-ci devront renseigner les données collectées, les finalités et bases légales sur lesquelles elles se fondent pour le traitement des données utilisées ou encore la localisation des serveurs sur lesquels les données sont hébergées.
Dans l’attente de ces éléments, l’autorité italienne a d’ores et déjà ordonné le blocage de l’application, tout comme aux Etats-Unis.
La CNIL et son homologue irlandaise, ont, quant à elles, annoncé se pencher sur la conformité de ce nouvel arrivant sur le marché des IA génératives.
A suivre…