Village de la Justice www.village-justice.com

IA génératives et confidentialité des données des entreprises. Par Pascal Alix, Avocat et Aude Dorange, Directrice Juridique.
Parution : vendredi 29 septembre 2023
Adresse de l'article original :
https://www.village-justice.com/articles/generatives-confidentialite-des-donnees-des-entreprises,47376.html
Reproduction interdite sans autorisation de l'auteur.

L’utilisation d’agents conversationnels (chatbots) mettant en œuvre des technologies du domaine de l’intelligence artificielle (IA), comme ChatGPT, Bard et autres IA dites « génératives » (GenIA) est désormais largement répandue dans le monde professionnel. En ce qui concerne la protection des données, les enjeux sont de taille. La conformité au RGPD, pour le moins douteuse… Mais à l’instar des autres réflexions en la matière, les problématiques relatives aux données personnelles occultent une partie du sujet. L’utilisation d’un agent conversationnel ou d’une application intégrant un LLM fait également peser des risques importants sur les informations sensibles, confidentielles, stratégiques voire critiques des organisations. Des risques qui ne semblent pas (encore) pleinement mesurés et qui ne sont d’ailleurs que très peu évoqués dans la littérature et les communications - officielles ou non - sur l’usage (et les vertus) des GenIA.

Préalable : comment fonctionnent les GenIA ?

Commençons par nous mettre d’accord sur ce dont on parle. Comme l’indique la CNIL, « une intelligence artificielle générative est un système capable de créer du texte, des images ou d’autres contenus (musique, vidéo, voix, etc.) à partir d’une instruction d’un utilisateur humain » [1]. Les GenAI fonctionnent au moyen de « grands modèles de langage » (ou Large Language models - LLM), tels que GPT, BERT, Bard, LLaMA ou BLOOM, à savoir des modèles mathématiques spécialisés dans la génération automatique de texte à partir d’une requête (invite ou « prompt »).

Les LLM sont « entraînés » sur des corpus gigantesques, composés de dizaines de milliards de pages web, comme Common Crawl [2]. Ils analysent et « digèrent » de très nombreux textes pour apprendre les structures et les schémas de langage. Or, bien qu’en libre accès, un corpus comme Common Crawl n’est pas composé que de données en source ouverte (open source). Il contient également des textes protégés par la propriété intellectuelle, ainsi que des textes dans lesquels figurent des informations confidentielles (publiés imprudemment, par ex., sur des réseaux sociaux).

Le processus d’entraînement d’un LLM se déroule en plusieurs étapes, comprenant la tokenisation et la lemmatisation. La tokenisation consiste à découper le texte en entités plus petites (mots courts, lemmes, N-grammes (séquences de caractères), conjonctions, ponctuation, etc.) appelées tokens. La lemmatisation désigne le traitement lexical apporté à un texte en vue, notamment, de son analyse lexicale. Par exemple, le lemme « petit » est relié à 4 formes fléchies : « petit », « petite », « petits », « petites ».
Les grands modèles de langage - qui n’accèdent pas à des bases de données structurées - sont conçus de telle sorte que lorsqu’on soumet un prompt (à savoir une séquence de tokens) aux agents conversationnels qui les intègrent, ceux-ci prédisent la séquence de sortie token par token compte tenu des schémas de langage appris et génèrent, in fine, un texte en langage naturel.

GenIA et utilisation des données des entreprises.

L’IA générative présente indéniablement de nombreux avantages. Aux dires de ChatGPT lui-même [3], la technologie peut être utilisée « dans de nombreux contextes pour aider à résoudre diverses tâches et problèmes », parmi lesquels la création de contenus écrits, de codes, la rédaction d’e-mails professionnels, l’assistance à la recherche en ligne, le support client (chatbot), la traduction automatique, l’analyse de texte, la gestion de projets (planification, gestion des tâches, suivi des progrès), l’assistance à la prise de décision (informations et analyses en finance, marketing, RH, etc.), formation, etc.

Si vous demandez à ChatGPT s’il a la capacité de décrire la stratégie d’une entreprise, il vous répondra notamment « si vous avez des informations spécifiques provenant du site internet d’une entreprise ou d’autres sources en open source, vous pouvez les partager avec moi, et je pourrais vous aider à analyser ces informations et à en tirer des observations générales ou des tendances ».
Jusque-là, pourquoi pas, puisque les données sont publiques. Au vu du fonctionnement des LLM (voir supra), la mémorisation ou la divulgation d’informations confidentielles issues des données « digérées » lors de l’entraînement pourrait, en quelque sorte, être vue comme un accident.

Pour autant, ces divulgations « accidentelles » de données confidentielles ne sont pas exclues, surtout si vous soumettez un prompt tel que « Quelles sont les priorités stratégiques de la société X en 2023 ? », en l’incitant presque à divulguer des informations confidentielles…
En outre et peut-être surtout, il suffit de copier-coller des informations non publiques dans la barre de rédaction des prompts ou de télécharger des documents à résumer, etc. pour obtenir, au gré des besoins, des rapports, des résumés et d’autres présentations « sur-mesure ». Un gain de temps et un accroissement de productivité indéniables certes, mais qui ne sont vraiment pas sans risque : les données pourraient tout à fait être réutilisées par toute personne formulant un prompt sur un sujet précisément traité par les documents exploités. Et lorsque l’on sait que Google Search aurait récemment indexé des conversations d’utilisateurs avec BardIA [4], les ruptures de confidentialité ne sont plus si hypothétiques que cela...

GenIA et risques de rupture de confidentialité.

Cybersécurité.

En premier lieu, sans trop s’y attarder ici, il est exact que les intelligences artificielles génératives présentent des vulnérabilités et ouvrent la voie à de nouvelles cyberattaques. Plus de 100 000 comptes ChatGPT ont par exemple été compromis au mois de juin 2023, avec des données revendues sur le dark web [5].
Plus largement, ces GenIA pourraient être utilisées pour générer des campagnes de phishing hautement crédibles, voire du code de logiciels malveillants (malware) [6].
Indépendamment de toute utilisation avec une intention malveillante, des équipes de hackers éthiques travaillent également au renforcement de la sécurité de ces technologies, en évaluation offensive [7]. De quoi précisément balayer les barrières techniques de cybersécurité et, par la même occasion, élargir l’accès à toutes les données traitées par les IA génératives...

Les IA génératives (not. gratuites) sont conçues de manière à n’offrir aucune garantie de confidentialité.

Outils externes.

En deuxième lieu, il importe de garder en tête que les IA génératives, notamment dans leurs versions gratuites, sont conçues de manière à n’offrir aucune garantie de confidentialité. Et pour cause !
Par principe, l’utilisation du système a vocation à permettre son entraînement. La FAQ d’utilisation de ChatGPT [8] expose ainsi sans ambiguïté que dans le cadre de leur engagement « envers une IA sûre et responsable », les conversations sont examinées pour améliorer les systèmes et s’assurer que le contenu est conforme aux politiques et exigences de sécurité. Les conversations peuvent être examinées par les formateurs en IA pour améliorer les systèmes [9].

Outils intégrés.

Mais les atteintes à la confidentialité des informations des organisations peuvent être à la fois plus profondes et plus discrètes, particulièrement lorsque les outils de génération de texte sont intégrés dans des solutions logicielles et applications que des millions de salariés utilisent au quotidien. L’extension ChatGPT pour Edge intègre désormais le modèle de langage d’OpenAI [10], pour transformer le navigateur en chatbot. Autre évolution : le nouveau Bing intégré à la barre latérale Microsoft Edge, avec la même (in)certitude quant au risque de divulgation des données.

En ce qui concerne les nouvelles « versions entreprise », payantes, de certaines GenIA, ChatGPT Entreprise par exemple, lancé fin août 2023, font état de garanties de confidentialité. OpenIA n’entraînerait pas ses modèles sur les données de l’entreprise et conversations professionnelles, modèles qui n’apprendraient pas de l’utilisation par les membres de l’entreprise. Chiffrement et contrôle des accès compléteraient la possession et le contrôle des données commerciales par l’entreprise  [11].

On entend d’ici les arguments d’application extraterritoriale du droit…

Mais on peut également lire dans la FAQ que les employés autorisés d’OpenAI n’accéderont à vos données que dans le but de résoudre des incidents, de récupérer les conversations des utilisateurs finaux avec votre autorisation explicite ou lorsque la loi applicable l’exige. Et l’on entend d’ici les arguments d’application extraterritoriale du droit…

Les évolutions récentes de Microsoft 365 méritent également que l’on s’y attarde. Microsoft 365 Copilot est en effet présenté comme « un moteur de traitement et d’orchestration sophistiqué qui fournit des fonctionnalités de productivité basées sur l’IA » [12]. Microsoft a annoncé sur son blog officiel [13] que « Copilot commencera(it) à être déployé sous sa forme initiale dans le cadre de la mise à jour gratuite de Windows 11, à partir du 26 septembre, et dans Bing, Edge et Microsoft 365 Copilot cet automne ».

Or, ce « moteur de traitement » coordonne les « composants » suivants : « modèles de langage volumineux (LLMs) ; votre contenu dans Microsoft Graph, comme vos e-mails, vos conversations et vos documents, ainsi que la sécurité et les autorisations que vous avez définies les applications Microsoft 365 que vous utilisez tous les jours, telles que Word et PowerPoint » (+ Outlook, Teams, etc.).
Plus précisément, Microsoft annonce qu’il a « intégré des copilotes pilotés par l’IA dans ses produits les plus utilisés et les plus appréciés - en rendant le codage plus efficace avec GitHub, en transformant la productivité au travail avec Microsoft 365, en redéfinissant la recherche avec Bing et Edge et en offrant une valeur contextuelle qui fonctionne dans toutes vos applications et sur votre PC avec Windows ».

Et Microsoft Copilot n’est pas le seul exemple de cette dissémination des GenAI dans les suites bureautiques et autres applications professionnelles. Salesforce propose notamment Einstein GPT, qui prend la suite d’Einstein, fonctionnalité qui devait déjà rendre son CRM « plus intelligent » [14]. Google a prévu également d’intégrer de manière systématique les GenAI dans ses services et ses outils [15]. OnlyOffice a développé un plugin qui permet d’accéder à ChatGPT à partir d’OnlyOffice Docs [16].

Quelle que soit la maturité de l’organisation sur les questions de sûreté numérique et de confidentialité, il est essentiel de mener sans attendre une réflexion sur l’utilisation des IA génératives en son sein. Il y aurait même péril en la demeure, si l’on considère que 52% des personnes qui utilisent les IA génératives dans le cadre professionnel (et/ou personnel) le font sans en avoir informé leur supérieur hiérarchique… [17].

Articuler GenIA et confidentialité des données ?

Comme l’indiquent le plus souvent les conditions d’utilisation des GenIA, l’usage des LLM se fait sous la responsabilité de l’utilisateur : il lui appartient notamment de s’assurer qu’il dispose des consentements et autorisations nécessaires pour le traitement des données. Un commode renversement et une habile esquive du sujet des garanties susceptibles d’être apportées…

Une action simple peut d’ores et déjà être faite, du moins sur ChatGPT (version gratuite) : désactiver l’enregistrement des discussions [18] et, tant qu’à faire, de supprimer vos archives (« clear all chats »). De quoi faire en sorte que vos futures conversations ne soient pas utilisées pour entraîner les modèles, quitte à peut-être renoncer à la performance résultant de la compilation de vos prompts. Cela étant, même avec la désactivation, toutes les conversations sont conservées pendant 30 jours avant d’être définitivement supprimées, « pour surveiller les abus »…

Du côté de la gouvernance des entreprises et des autres organisations, plusieurs solutions sont envisageables, à deux niveaux :
- limiter les risques de l’utilisation elle-même ;
- s’opposer, techniquement, à l’entraînement de la machine sur certaines données.
Voyons ceci plus en détails.

Interdire l’utilisation ?

Une option pour protéger la confidentialité des données des entreprises est d’interdire purement et simplement l’utilisation des IA génératives au sein de l’organisation.
Tel est d’ailleurs le choix fait par de plus en plus d’entreprises dans le monde [19] : une interdiction sur les équipements professionnels et une recommandation de non-utilisation d’informations professionnelles lors d’usage sur des appareils personnels.
Le blocage (arbitraire) de l’accès à l’interface web des applications s’envisage également (listes noires de la DSI). Tout aussi radical et efficace, au moins à court terme, mais une mesure qui risque d’être vaine lorsque les GenIA seront pleinement intégrées, d’office, dans les outils de productivité et les logiciels métier.

Empêcher le scraping ?

 [20]

Des éditeurs de presse, en Europe et aux États-Unis, déplorant l’utilisation sans consentement de leurs contenus pour entraîner les modèles de langage, ont récemment bloqué le robot d’OpenAI [21].
Il existe en effet plusieurs moyens pour les éditeurs de pages web de s’opposer techniquement (et légalement) au scraping de leurs sites web, même lorsque celui-ci est réalisé dans le cadre de l’exception de fouille de textes et de données (TDM).
Ils peuvent, par exemple, mettre en place des CAPTCHAs ou des limitations de requêtes, détecter et bloquer les scrapers automatisés, restreindre l’accès à certaines parties de leur site via des identifiants ou des paywalls, modifier fréquemment la structure de leur site web pour compliquer le parsing et le scraping automatisés [22].
Mais la meilleure méthode pour protéger les informations confidentielles est la plus évidente et la plus simple : ne pas afficher d’informations confidentielles sur une page web et n’en communiquer aucune sur les réseaux sociaux…

Gouvernance de l’information ?

L’un des meilleurs moyens d’agir pour protéger la confidentialité des données des entreprises vaut pour les GenIA, comme pour toutes les autres situations de stockage et d’utilisation des données confidentielles : elle consiste à placer lesdites données et informations à l’abri des regards inappropriés.
Il n’y a pas de solution miracle et la méthode est toujours la même : identifier les données et informations à protéger, les isoler et les chiffrer, appliquer un contrôle strict des accès et adopter une surveillance accrue de l’activité pour détecter au plus tôt les comportements suspects et les compromissions.

Les IA génératives doivent, au plus vite, être intégrées dans l’état des lieux des menaces informatiques des organisations.

Corrélativement, l’actualisation des politiques de sécurité des systèmes d’information et des chartes informatiques, couplées à la rédaction de clauses contractuelles spécifiques (selon les parties prenantes, internes et externes, concernées) s’avère une action à déployer dès que possible. Certes, la preuve de l’utilisation et de l’usage préjudiciable pourrait s’avérer particulièrement complexe à administrer. Mais ne serait-ce pas là, aussi, l’occasion d’un beau projet d’intelligence collective entre directions métiers (DSI, DRH, DJ) ?

Quoi qu’il en soit, il ne fait aucun doute que les IA génératives doivent, au plus vite, être intégrées dans l’état des lieux des menaces informatiques des organisations [23] et que tous les membres de l’organisation concernée doivent, dès à présent, être pleinement sensibilisés aux risques. Gouvernance de l’information et politique de sécurité informatique restent, ici comme ailleurs, les meilleures alliées de la protection de vos secrets !

Pascal Alix, avocat au barreau de Paris, associé Virtualegis AARPI, DPO externe, Lead auditor Aude Dorange, directrice juridique & associée, OGMA Intelligence

[3Prompt soumis : « quels sont les principaux usages que l’on peut faire avec toi dans un cadre professionnel ».

[11OpenAI, Communiqué du 28 août 2023, Introducing ChatGPT Enterprise.

[14L. Delattre, 8 mars 2023, Salesforce aussi met de l’IA générative dans son CRM, IT for Business.

[15T. Kurlan, 10 mai 2023, À Google I/O, l’IA générative se met au travail, Blog Google Canada.

[17Sondage Ifop pour Talan, mais 2023, Les Français et les IA génératives.

[18Il suffit de cliquer sur les trois petits points « … » en bas à droite, à côté de votre nom d’utilisateur, de cliquer sur « Settings », de sélectionner l’onglet « Data controls » et de désactiver le « Chat History & Training ».

[19Amazon, Verizon, Samsung, Apple, Goldman Sachs, etc. Voir not. Siladitya Ray, 21 mai 2023, Apple rejoint une liste croissante d’entreprises qui répriment l’utilisation de ChatGPT par leurs employés, Forbes. Voir aussi J. Lausson, 2 mai 2023, Samsung bannit ChatGPT pour éviter que ses secrets s’ébruitent, Numerama.

[20Extraction automatique des données d’un site web pour les transformer et les réutiliser dans un autre contexte.