Par Emily Mongaillard, Doctorante.

3137 lectures 1re Parution: Modifié: 1 commentaire 4.46  /5

Explorer : # webscraping # données personnelles # propriété intellectuelle

Pas un jour ne passe sans qu’un terme obscur ne fasse son apparition à la télévision, à la radio ou sur les réseaux sociaux, et parfois, il faut bien le dire, ces outils censés nous informer, nous perdent quelque peu, lorsqu’ils se mettent à baragouiner à coups de big data, de blockchain, d’open data, d’intelligence artificielle ou de webscrapping. Nous ramenant, plus ou moins brutalement, à notre condition d’être sous-éduqués au langage "0101".

-

Toutefois, et bien qu’un peu perdu relativement à ces notions obscures, il n’en reste pas moins que nous demeurons très alertes sur la question de l’impact que toutes ces inventions vont avoir, et ont d’ores et déjà, sur notre réalité et sur notre droit.

Ainsi, en plus des questions bien connues relatives à l’intelligence artificielle, à l’open data, à la blockchain etc., se pose dorénavant la question du webscrapping, de sa légalité et de sa définition.

I - Le webscrapping : définition.

Le webscrapping, est la conjonction du terme anglais web, diminutif de word wide web soit l’internet ou la toile mondiale numérique, et scrapping, de l’anglais scrap, « gratter » + ing rendant compte d’une action en cours. Il s’agirait donc littéralement d’un système permettant de gratter l’internet.

Gratter l’internet… Quelle drôle d’idée ! Et pourtant, à l’image des machines à attraper dans les fêtes foraines, le webscrapping va consister, pour un développeur informatique, à lancer sa pince numérique sur l’internet et récupérer, gratter, ramener à lui un maximum d’informations, de données.

Il va donc s’agir d’une pratique numérique visant littéralement à balayer, analyser, chaque micro-donnée disponible sur la toile, afin d’en extraire des informations éparses, brutes et non structurées, puis les classer, les trier dans un tableur ou une base de données, avant d’être injectées dans différentes applications usant d’intelligence artificielle auto-apprenante.

Cette extraction de données par webscrapping va nécessiter deux éléments :

  • Dans un premier temps un crawler, soit un algorithme d’intelligence artificielle qui parcourt l’internet pour rechercher les données en utilisant un système de jumping, soit littéralement de « sauts » de lien en lien et de site web en site web.
  • Puis un scraper, qui est quant à lui, un outil spécifiquement créé pour l’extraction de données du site web ciblé [1].

Dans la pratique, ce système de webscraping va venir alléger le travail des data engineer et des data analysts, en leur permettant de diversifier rapidement la base de données utilisée pour l’entrainement de leurs algorithmes, en leur donnant accès, en sus de la base de données de l’entreprise, à toutes les données externes attrapées par le système de scrapping.

C’est en cela que la méthode devient problématique sur le plan juridique, car le webscrapping va permettre de capturer, d’analyser et d’utiliser des données externes au système d’information de l’entreprise et ne lui appartenant pas.
Dès lors la question de la légalité de ce système se pose.

II- Le webscrapping : la question de sa légalité.

Le but du système étant l’extraction et la réutilisation de données à grande échelle, la question de la protection de ces données, et des droits relatifs à leurs auteurs se pose effectivement, mais se pose aussi la question de l’encadrement et de la légalité de l’exercice en lui-même.

Ainsi une distinction est à opérer entre la question du « scrapping » en lui-même (A) et celle de la réutilisation des données « scrappées » (B).

A ) La légalité du scrapping en tant que tel.

Le scrapping ne consistant, d’un point de vue pratique, qu’à un déplacement, un « jumping » de site en site, sans création de compte personnel, sans enregistrement et sans acceptation des conditions générales d’utilisation (CGU) du site en question, notamment celle relative à la non-réutilisation, il ne peut être considéré, en tout cas en France, comme étant une pratique illégale, car ces étapes ne sont pas obligatoires, la France utilisant le système d’acceptation tacite des CGU.

Contrairement aux Etats-Unis qui eux requièrent une acception expresse et où une telle pratique pourrait être considérée comme illégale [2].

B) La question de la réutilisation des données scrappées.

En revanche, à la question de la légalité de la réutilisation des données scrappées, la réponse est tout autre. Pour que cette réutilisation soit légale, elle devra respecter les règles relatives à la propriété intellectuelle des données concernées et sera ainsi autorisée dans les cas prévus à l’article L342-3 du Code de la propriété intellectuelle.

En outre, et en sus de cet encadrement relatif à la propriété intellectuelle, la réutilisation des données scrappées, devra se faire dans le respect des règles posées par le règlement général sur la protection des données personnelles (RGPD) [3].

Le non-respect de ces obligations pourra entrainer des sanctions, notamment sur le plan pénal, article 323-3 du Code pénal qui punit de 150 000 euros d’amende et de 5 ans de prison « le fait d’introduire frauduleusement des données dans un système de traitement automatisé, d’extraire, de détenir, de reproduire, de transmettre, de supprimer ou de modifier frauduleusement les données qu’il contient », mais aussi sur le plan administratif, avec le prononcé d’une amende pour non-respect des règles relatives au RGPD par la Commission Nationale de l’Informatique et Libertés (CNIL).

III - Le webscrapping : les clés d’une pratique saine.

Il conviendra donc pour une pratique saine du webscrapping [4] :

  • De rester vigilant et respectueux, des conditions générales d’utilisation du site scrappé.
  • D’éviter à tout prix une réutilisation de données récupérées hors cadre des CGU, sans modification substantielle et à des fins commerciales.
  • De faire preuve de loyauté dans la réutilisation des données.
  • Eviter de scrapper sur des heures de grande affluence, ce qui pourrait amener à des dégradations du système de navigation.
  • Préférez les sites fonctionnant sous open data ou avec des interfaces de programmation d’application (API) permettant de collecter les données sans les scrapper.

Ainsi, en conclusion à la question de savoir si le webscrapping est légal, la réponse est oui, il l’est en tant que tel, toutefois, la réutilisation des données extraites peut, elle, être source d’illégalité.

Emily Mongaillard
Doctorante, ATER Université 1 Toulouse Capitole.

Recommandez-vous cet article ?

Donnez une note de 1 à 5 à cet article :
L’avez-vous apprécié ?

13 votes

Cet article est protégé par les droits d'auteur pour toute réutilisation ou diffusion (plus d'infos dans nos mentions légales).

Notes de l'article:

Commenter cet article

Discussion en cours :

  • par MONGAILLARD Frédéric , Le 11 octobre 2023 à 21:06

    La question de la légalité de l’utilisation des données au regard de la RGPD n’est elle pas liée également au caractère personnel de la dite donnée ?
    D’autre part quid des données récupérées sur des sites hébergés aux États-Unis ou par des robots hébergés sur des serveurs aux US la RGPD peut-elle s’appliquer ?
    En tout cas j’adore l’article ! Félicitations !

A lire aussi :

Village de la justice et du Droit

Bienvenue sur le Village de la Justice.

Le 1er site de la communauté du droit: Avocats, juristes, fiscalistes, notaires, commissaires de Justice, magistrats, RH, paralegals, RH, étudiants... y trouvent services, informations, contacts et peuvent échanger et recruter. *

Aujourd'hui: 156 320 membres, 27842 articles, 127 254 messages sur les forums, 2 750 annonces d'emploi et stage... et 1 600 000 visites du site par mois en moyenne. *


FOCUS SUR...

• Assemblées Générales : les solutions 2025.

• Voici le Palmarès Choiseul "Futur du droit" : Les 40 qui font le futur du droit.




LES HABITANTS

Membres

PROFESSIONNELS DU DROIT

Solutions

Formateurs