Intelligences artificielles génératives : la guerre des données est déclarée. Par Jennifer Spittael.

Le problème : cette masse de contenus contient certainement des œuvres protégées par des droits de propriété intellectuelle et des données à caractère personnel. Ces catégories particulières bénéficient de législations protectrices. Mais en France comme aux États-Unis, on s’interroge sur les modalités d’application des lois existantes, qui n’ont pas été pensées pour ces nouveaux usages.

Les entreprises du secteur se sont engouffrées dans la brèche et défendent la nécessité de poursuivre le développement de leurs technologies. Mais cela peut-il se faire au détriment des propriétaires des œuvres et des données ? Les intérêts des parties prenantes paraissent profondément divergents, et des ajustements semblent inévitables.

Cet article propose une vue d’ensemble du contexte actuel, et un décryptage des actions possibles pour demain.

La protection et les limites du droit de la propriété intellectuelle face à l’utilisation des œuvres par l’IA.

Il serait inexact de dire que nous sommes confrontés à un vide juridique, puisque des lois génériques s’appliquent. Néanmoins, les nouvelles problématiques liées à l’IA n’existaient pas au moment de la rédaction des textes, et soulèvent des questions sur leurs conditions d’application, voire sur leur pertinence. La jurisprudence va donc jouer un rôle essentiel, au moins dans un premier temps.

La législation française

Le droit d’auteur protège les créations contre un usage non autorisé, y compris lorsqu’elles sont librement disponibles sur Internet. Toutefois, les articles L122-5 et L122-5-3 du Code de la propriété intellectuelle (transposant la directive 2019/790 du 17/04/2019 sur le droit d’auteur et les droits voisins) prévoient des exceptions.

En effet, ces textes permettent les fouilles de données (data mining), c’est-à-dire « l’analyse automatisée de textes et données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations », et ce dans deux cas.

Le premier concerne la recherche scientifique. Le second, qui nous intéresse ici, se révèle étonnamment large : l’autorisation est accordée « quelle que soit la finalité de la fouille, sauf si l’auteur s’y est opposé de manière appropriée ». L’article R122-28 du Code de la propriété intellectuelle précise que l’opposition n’a pas à être motivée et peut être exprimée par tous moyens, par exemple des « procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation d’un site internet ou d’un service ».

Des œuvres protégées peuvent donc faire l’objet de data mining, sauf si l’auteur a manifesté son refus. Ce dispositif semble pouvoir s’appliquer au processus d’apprentissage des algorithmes. Toutefois, en pratique, la mise en œuvre de l’opposition reste laborieuse, et il est difficile de vérifier que les entreprises d’intelligence artificielle la respectent.

De plus, l’exception du data mining ne suffit pas à écarter tout risque de violation du droit d’auteur. L’utilisation des contenus est autorisée pour l’apprentissage des logiciels, mais qu’en est-il pendant la phase de production ? Le résultat fourni par une IA peut constituer une contrefaçon d’une œuvre existante, par exemple si l’usager demande une image imitant le style d’un peintre spécifiquement identifié.

Pourtant, la Commission européenne a indiqué, via un communiqué de Thierry Breton du 31 mars 2023 [1], qu’elle estimait que ces principes étaient, à ce jour, suffisants. Selon elle, ils assurent « un équilibre entre deux éléments : protéger les titulaires de droits, notamment les artistes, et faciliter l’exploration de textes et de données, notamment par les développeurs d’IA ».

La législation américaine

Aux États-Unis, l’incertitude semble plus forte. Les acteurs du secteur estiment avoir le droit d’exploiter en toute légalité des contenus couverts par le copyright en vue de former leur IA, en se basant sur l’exception du fair use. Il s’agit d’une doctrine juridique qui promeut la liberté d’expression en permettant l’utilisation sans licence d’œuvres protégées, sous certaines conditions.

Or, la recherche constitue l’un des usages autorisés, sous réserve de l’appréciation au cas par cas de quatre critères : (i) objet et nature de l’utilisation, notamment si elle est commerciale ou à des fins éducatives à but non lucratif, (ii) nature de l’œuvre protégée, (iii) quantité et importance de la partie utilisée par rapport à l’ensemble de l’œuvre protégée, (iv) effets de l’utilisation sur le marché potentiel ou sur la valeur de l’œuvre.

Les discussions sont ouvertes pour déterminer si le fair use doit couvrir le développement des IA. Mais comme en France, même si l’entraînement des modèles bénéficie du cadre légal, la phase de production demeure problématique. En effet, les logiciels ainsi formés pourront créer des contenus portant atteinte à des œuvres couvertes par le copyright.

La position de la justice américaine dans plusieurs affaires en cours sera donc déterminante quant au développement de ces technologies.

La protection et les limites du RGPD face à l’utilisation des données personnelles par l’IA.

Un encadrement fort en théorie mais parfois impuissant en pratique.

Les garde-fous offerts par le RGPD semblent solides. La CNIL a déjà fourni des lignes directrices détaillées sur le sujet, indiquant les étapes à suivre pour qu’une intelligence artificielle soit conforme à la législation. Toutefois, en pratique, les choses se révèlent plus complexes.

Les IA génératives peuvent traiter des données personnelles à deux moments : lors de l’apprentissage initial, puis lors de la phase de production, si l’utilisateur en fournit via ses consignes. La CNIL distingue d’ailleurs ces deux cas, et les identifie comme deux traitements distincts, chacun devant justifier d’une base légale.

L’application des règles du RGPD est relativement aisée concernant la transmission d’informations pendant la période de production. La situation se rapproche alors des services en ligne classiques, où le fournisseur doit informer les clients de l’usage de leurs données (et recueillir leur consentement s’il s’agit de la base légale choisie), puis leur octroyer les droits individuels prévus par la loi (droit d’accès, d’opposition, etc.).

Toutefois, des difficultés liées à la nature des IA génératives restent tout de même à résoudre. Par exemple, l’absence de contrôle sur le type de données fournies par les usagers, susceptibles d’être qualifiées de sensibles, ou encore la mise en œuvre effective du droit à l’effacement des informations si celles-ci ont été réutilisées par l’algorithme.

Surtout, l’application des règles protectrices du règlement s’avère plus compliquée concernant le processus d’apprentissage initial. En effet, par définition les données ne sont alors pas fournies volontairement par les clients lors d’interactions avec le robot. Et l’absence de transparence des prestataires sur les contenus exploités à ce stade constitue un obstacle majeur. Sans savoir si des données à caractère personnel ont été récupérées, comment encadrer efficacement la pratique ? Peut-on considérer que les développeurs d’intelligences artificielles ont un intérêt légitime à traiter librement des données disponibles publiquement ? Dans le cas contraire, comment matérialiser, et faire respecter, l’absence de consentement des personnes concernées ?

L’exemple de l’application du RGPD par l’Italie

L’autorité italienne de protection des données avait semblé agir un grand coup en mars 2023 [2], quelques jours après une perte de données affectant les conversations des usagers d’OpenAI et les informations de paiement des abonnés à son service payant. Elle avait alors prononcé la suspension de Chat GPT dans le pays, tant que le fournisseur ne respecterait pas une liste de critères de conformité, à savoir :

publier sur le site web une notice fournissant toutes les informations demandées par le RGPD ;
permettre le droit d’opposition aux traitements des données, y compris leur réutilisation pour la formation de l’algorithme (il s’agit ici de sa formation continue) ;
mettre en œuvre la correction des données erronées, ou a minima leur suppression ;
indiquer les bases légales des traitements de données, y compris à des fins de formation de l’IA ;
prévoir une interdiction aux mineurs en l’absence de consentement parental exprès ;
réaliser une campagne d’information via les principaux médias italiens sur la collecte des données personnelles et sur les moyens par lesquels toutes les personnes concernées peuvent demander et obtenir la suppression de leurs données.

OpenAI a rapidement mis en place les actions demandées. Une politique de confidentialité est consultable sur son site, détaillant les opérations réalisées sur les données recueillies pendant l’utilisation du service. La société a également ajouté une fonctionnalité qui permet de refuser l’enregistrement des conversations et leur emploi dans d’autres résultats.

De plus, une version API destinée aux professionnels, ChatGPT Business, intégrera des fonctionnalités favorisant un meilleur contrôle des données. Par défaut, les informations fournies lors des échanges ne serviront pas à la formation continue du logiciel, sauf en cas d’acceptation expresse de l’usager. Cette nouvelle API sera payante. Le même principe s’appliquera à Bing Chat Entreprise, une version de Bing Chat dédiée aux sociétés, annoncée par Microsoft. Une telle solution revient finalement à faire débourser de l’argent aux abonnés pour obtenir plus de maîtrise sur leurs données.

Chat GPT a donc été réactivé en Italie. Toutefois, il est surprenant de constater que la récupération de données personnelles sur Internet n’a pas été spécialement visée par l’autorité de protection. Celle-ci se trouve apparemment satisfaite par la mention de l’utilisation des données fournies lors des échanges avec le robot. Mais quid du traitement probablement réalisé dans l’ombre lors de l’entraînement de l’IA, sans information ni consentement préalable ?

Google, le champion tout-puissant de l’exploitation gratuite de données.

Une action déterminante contre le géant du Web aux États-Unis.

Huit personnes ont déposé un recours collectif contre Google, Google DeepMind et la société mère Alphabet, le 11 juillet 2023 en Californie [3]. Il s’agit d’une class action, c’est-à-dire une procédure judiciaire groupée, susceptible d’être rejointe par tout citoyen américain s’estimant concerné par les griefs. Donc, potentiellement, n’importe quelle personne disposant de contenus en ligne. Vous l’aurez compris, ce procès pourrait s’avérer gigantesque.

Les faits reprochés au groupe sont le vol de contenus numériques et de données personnelles disponibles sur Internet, dans le but de développer sa technologie d’intelligence artificielle. Cela concerne entre autres des photos figurant sur des sites de rencontres, des listes de titres constituées sur Spotify, des posts et vidéos publiés sur les réseaux sociaux, ou encore la copie intégrale du livre de l’un des plaignants, accessible sur un site de textes piratés.

L’action vise à obtenir une injonction de suspension temporaire de l’accès commercial et du développement des outils d’IA générative de la firme. Elle demande aussi des dommages et intérêts d’un montant non déterminé pour les individus dont les contenus auraient été illégalement exploités.

La plainte s’appuie entre autres sur la récente modification de la politique de confidentialité de Google. Le changement est apparu en toute discrétion, le 1ᵉʳ juillet 2023 concernant la version française [4]. La notice précise maintenant explicitement que les données collectées par l’entreprise auprès de sources accessibles publiquement en ligne peuvent servir à l’entraînement de Google Bard et des capacités d’IA de Google Cloud. La version précédente indiquait seulement que les informations collectées étaient susceptibles d’être utilisées afin d’améliorer Google Traduction.

Une appropriation extensive des données en ligne en toute sérénité.

Le message est clair : si vous publiez du contenu sur Internet, Google en tire profit pour ses IA. Et il semble évident que l’entraînement de Bard sur la base de données disponibles publiquement a démarré bien avant la mise à jour de sa politique de confidentialité.

Une telle latitude s’affiche rarement avec autant d’aplomb. En général, les entreprises indiquent uniquement qu’elles utilisent les informations fournies dans le cadre de leurs services. Ici, la multinationale s’approprie tout simplement l’intégralité des données disponibles en ligne. Cette position soulève des questions, car les usages numériques évoluent avec le temps, et les personnes qui ont déposé du contenu sur le Web il y a quelques années, voire seulement quelques mois, n’avaient pas conscience qu’elles participeraient à la formation d’intelligences artificielles.

Les autres modèles d’IA ont certainement recours au même procédé, mais le géant du numérique peut se permettre de l’écrire explicitement au sein de ses règles de fonctionnement.

D’ailleurs, le groupe maintient le cap dans ses déclarations à la suite de la procédure judiciaire à son encontre. Il considère que sa politique de confidentialité a toujours été transparente sur son utilisation des données disponibles publiquement, et que la récente mise à jour sert uniquement à officialiser leur usage en faveur de nouveaux services tels que Bard. La firme estime également que cette pratique est conforme à la loi américaine, en se basant sur la doctrine du fair use.

La multiplication des plaintes pour contrer l’utilisation non autorisée des données par les IA.

Les recours collectifs en cours aux États-Unis.

Le nombre d’actions intentées s’est amplifié outre-Atlantique, après le recours commun engagé en janvier 2023 par trois artistes contre Stability AI, Midjourney et DeviantArt pour violation du copyright par l’exploitation non autorisée de milliards d’images [5].

Le cabinet d’avocats Clarkson, qui a initié la class action visant Google, est aussi à l’origine d’une action du même type déposée au nom de seize plaignants le 28 juin 2023, contre OpenAI et Microsoft [6]. Elle vise l’utilisation d’une énorme masse de données récupérées sur le Web dans le but de former Chat GPT. Comme pour Google, elle demande la suspension temporaire de l’accès commercial et du développement des outils d’IA générative d’OpenAI, ainsi que des dommages et intérêts.

L’entreprise créatrice de Chat GPT fait aussi l’objet d’une plainte des écrivains américains Paul Tremblay et Mona Awad. Ils lui reprochent d’avoir exploité des copies piratées de leurs ouvrages afin de développer ses technologies [7].

Et ce n’est pas tout concernant OpenAI ! La comédienne et autrice américaine Sarah Silverman et deux auteurs, Christopher Golden et Richard Kadrey, ont également attaqué la société pour les mêmes motifs [8]. Ces derniers ont intenté une action sur les mêmes fondements à l’encontre de Meta, qui se serait servi de leur travail pour son modèle d’IA LLaMa [9].

Enfin, nous pouvons rappeler qu’un recours collectif avait déjà été déposé en 2022 par un développeur, qui accuse Microsoft, GitHub et OpenAI d’atteinte au copyright du fait de la reproduction de code à l’aide de leurs modèles d’intelligence artificielle [10].

Face à toutes ces actions en justice, OpenAI n’affiche pas la même sérénité que Google. En effet, au moment de la sortie de Chat GPT-4, l’entreprise a tout bonnement refusé de communiquer les données utilisées lors de l’entraînement de son algorithme. Elle justifie ce choix par des questions de concurrence et de sécurité, mais les problématiques juridiques ne sont peut-être pas étrangères à ce retournement de position (la société avait jusque-là défendu un modèle open source, communiquant publiquement sur ses recherches).

Par ailleurs, la Federal Trade Commission (FTC), l’agence américaine de protection des consommateurs, a ouvert une enquête sur OpenAI [11]. Elle veut vérifier les risques pesant sur les consommateurs, notamment l’atteinte à la réputation en cas d’informations erronées ou inventées.

Les plaintes déposées devant la CNIL en France.

Dans l’hexagone, la situation devant les tribunaux reste plus calme. Cinq plaintes contre OpenAI ont toutefois été déposées devant la CNIL en avril dernier, dont trois sont publiques. La première provient de l’avocate Zoé Vilain, qui avait constaté l’absence de conditions générales d’utilisation et de politique de confidentialité sur le site de ChatGPT, ce à quoi l’entreprise a remédié depuis. Les deux autres plaintes ont été déposées par le développeur David Libeau et le député Éric Bothorel, qui ont relevé de fausses informations les concernant parmi les réponses du robot.

La CNIL a donc ouvert une procédure de contrôle sur Chat GPT, et s’est rapprochée de son homologue italien [12]. L’Espagne, l’Allemagne et le Canada ont également ouvert des enquêtes sur Chat GPT concernant la protection des données personnelles.

Il peut paraître surprenant qu’il n’y ait pas plus d’actions judiciaires au vu des enjeux pour les parties prenantes. Mais les personnes concernées, à savoir les créateurs, n’ont pas forcément les ressources nécessaires à la défense de leurs droits. Les recours sont coûteux et longs (avec de forts risques de procédures d’appel), et baignent dans l’incertitude au vu de l’absence de précédent.

La protection des données des utilisateurs par les plateformes de contenus en ligne.

Les œuvres et données en ligne des particuliers sont souvent accessibles via des réseaux sociaux et plateformes de partage. Ainsi, les banques d’images ont été rapidement touchées par l’arrivée des nouvelles technologies d’IA génératives : les créations déposées sur leurs sites ont été massivement exploitées par les algorithmes. Or, deux des principales entreprises du secteur ont adopté des positions opposées.

Shutterstock a conclu un partenariat avec OpenAI [13], lui fournissant des données d’apprentissage destinées à son logiciel. En échange, la société bénéficie d’un accès privilégié à la technologie DALL E. De plus, Shutterstock a mis en place un fond contributeur visant à rémunérer les artistes dont les images servent à former l’IA.

De son côté, Getty Images a interdit le contenu créé par intelligence artificielle sur son site, en raison du risque juridique potentiel pour ses clients et elle-même [14]. L’entreprise a également intenté une action en justice contre Stability AI du fait de l’usage, sans son autorisation, des millions d’images de sa plateforme.

Nous pouvons aussi citer les mesures prises par Twitter et Reddit, deux réseaux sociaux qui contiennent de grandes quantités d’informations publiques. Ils ont récemment apporté des limitations importantes à leurs plateformes afin d’empêcher d’autres entreprises de récolter librement les données de leurs abonnés. Toutefois, ces modifications ont été critiquées, car elles ont des conséquences négatives sur l’expérience utilisateur.

Les évolutions de la législation à venir.

L’AI Act, la première proposition de réglementation spécifique sur l’intelligence artificielle.

L’Union européenne a pris de l’avance sur le reste du monde, puisqu’un projet de règlement dédié spécialement à l’encadrement de l’intelligence artificielle (AI Act) est en préparation depuis 2021.

Le projet a été validé par le Parlement européen le 14 juin 2023. Il prévoit une adaptation des règles applicables en fonction du niveau de risques présentés par un modèle. Or, le texte initial a été rédigé avant l’émergence des IA génératives, qui ont explosé ces derniers mois. Il ne prenait donc pas en compte les problématiques associées à cette technologie, et les parlementaires ont dû très rapidement revoir leur copie.

Un amendement proposait de faire entrer tous les systèmes d’IA à usage général (GPAI), comme Chat GPT et DALL E, dans la catégorie des modèles à haut risque. Les fournisseurs auraient alors été soumis aux obligations de transparence et de sécurité les plus strictes. Sans surprise, les entreprises concernées ont effectué un lobbying contre une telle classification. OpenAI, Microsoft et Google ont ainsi défendu l’argument selon lequel seules les sociétés appliquant explicitement l’IA aux cas d’utilisation à haut risque devraient être obligées de se conformer à la réglementation afférente.

Finalement, le Parlement a rejeté cet amendement. Mais il a tout de même adopté des changements notables par rapport au texte initial. Une nouvelle catégorie d’intelligence artificielle est maintenant citée : les IA de fondation. Il s’agit des modèles de grande taille, entraînés sur des corpus de données importants, adaptables pour des fonctions variées. Parmi eux, les IA génératives sont spécifiquement visées, et soumises à des obligations de transparence :

indiquer que le résultat a été généré par l’IA ;
intégrer dès la conception du modèle des moyens de l’empêcher de générer du contenu illégal ;
publier des résumés détaillés des œuvres protégées par le droit d’auteur utilisées lors de la formation des algorithmes.

Cette dernière mesure en particulier pourrait avoir des conséquences significatives sur les entreprises d’IA. Mais une telle divulgation est-elle suffisante pour protéger les créateurs de contenus ? La seule option ouverte sera d’agir en justice contre le(s) fournisseur(s). Une voie longue, coûteuse et donc souvent inaccessible. Ces mesures protectrices ont tout de même déjà fait l’objet de réactions négatives par des acteurs du secteur.

Le règlement doit encore être discuté par le Parlement européen avec le Conseil et la Commission, et des modifications du texte peuvent donc changer la donne.

Des réflexions en cours sur la protection des données personnelles.

La CNIL a présenté le 16 mai 2023 un plan d’actions dans l’objectif de s’assurer que le développement des IA génératives respecte les droits des individus [15]. Elle a également lancé un appel à contributions le 27 juillet 2023, afin d’alimenter ses travaux, dont les premiers résultats devraient être publiés cet automne [16].

De plus, le Comité européen de la protection des données (CEPD), qui coordonne les actions des autorités de contrôle des données au sein de l’UE, a créé un groupe de travail consacré à Chat GPT [17].

Le début du chemin vers une législation spécifique aux États-Unis.

Les géants du secteur ont présenté une initiative d’autorégulation se voulant rassurante, le Frontier Model Forum [18]. Il s’agit d’une association formée par Anthropic, Google, Microsoft et OpenAI en vue d’établir un ensemble de bonnes pratiques pour la conception de modèles d’IA. Les critiques y voient surtout une tentative d’éviter la réglementation étatique, voire d’établir leur domination sur le marché en empêchant de nouveaux concurrents d’y émerger.

Mais il semble que les créateurs d’intelligences artificielles n’échapperont pas à une intervention politique. Le 21 juillet 2023, Joe Biden a déclaré avoir obtenu des engagements en matière de sécurité, sûreté et confiance de la part des sept principaux acteurs, dont les dirigeants étaient réunis à la Maison-Blanche [19]. Au programme : tests de cybersécurité, partage des informations notamment en cas de faille des outils, mais aussi mise en place de techniques fiables informant les usagers lorsqu’un contenu est produit par une IA, par exemple un système de marquage en filigrane.

La Maison-Blanche n’entend pas s’arrêter là : elle estime qu’une loi au niveau fédéral demeure nécessaire afin d’encadrer ce nouveau marché. En parallèle, certains États travaillent déjà sur une réglementation ad hoc, comme la Californie [20].

Les solutions envisageables pour un développement durable et responsable des IA génératives.

Le projet d’AI Act contient à ce stade des principes essentiels, qui auront des impacts sur les technologies à venir. L’issue des procès en cours aux États-Unis sera également déterminante. Mais en l’état, ces interventions ne suffisent pas pour régler le problème de fond. L’opposition entre les intérêts en présence persistera en l’absence d’un nouvel écosystème qui réponde aux besoins des deux parties de l’équation.

D’un côté, les créateurs de toutes sortes, qui fournissent le travail sans lequel les modèles génératifs ne peuvent pas fonctionner, et voient leurs œuvres utilisées sans avoir leur mot à dire. De plus, les IA sont en mesure de créer des contenus qui leur portent préjudice, en concurrence avec leurs propres œuvres, ou constituant des contrefaçons. De l’autre côté, les entreprises d’IA, qui considèrent qu’une législation trop restrictive irait à l’encontre de l’amélioration de leurs produits, et que l’on risquerait alors d’empêcher leur déploiement.

Un compromis stable doit être trouvé. Dès lors, la réflexion centrale consiste à définir les mesures, de nature technique ou contractuelle, permettant d’assurer la poursuite de l’innovation sur l’IA générative, tout en donnant une reconnaissance et une rémunération aux titulaires des droits.

La situation a été comparée à celle rencontrée à l’époque du piratage de la musique. Des systèmes de partage de fichiers se construisaient alors en violation des droits d’auteur. Après des contestations judiciaires, un certain équilibre a été atteint grâce à de nouveaux accords d’exploitation.

En toute logique, un système de licences payantes constitue aujourd’hui aussi une piste à explorer. Il est également envisageable de créer des bases de données dédiées à l’apprentissage des logiciels, avec du contenu libre de droit ou créé spécifiquement dans ce but. Certaines plateformes expérimentent déjà ce système, comme Common Crawl. À l’inverse, les œuvres protégées pourraient être identifiées par des balises de métadonnées indiquant aux robots de ne pas les prendre en compte. Bien entendu, ce marquage ne serait efficace qu’accompagné d’une obligation de transparence des entreprises d’IA, pour pouvoir vérifier le respect des consignes.

Ainsi, même si des règles existantes sont d’ores et déjà applicables, le besoin d’une régulation spécifique semble bien réel afin de concilier des intérêts antagonistes. Mais pour atteindre cet objectif, les régulateurs devront aller jusqu’au bout de leur réflexion, et donner les moyens aux parties prenantes de trouver un terrain d’entente, qui passera certainement par des outils contractuels et techniques.

Intelligences artificielles génératives : la guerre des données est déclarée.

Par Jennifer Spittael.