Le webscraping est légal. Par Emily Mongaillard, Doctorante.

Au sommaire de cet article...

I - Le webscrapping : définition.
II- Le webscrapping : la question de sa légalité.
III - Le webscrapping : les clés d’une pratique saine.

Toutefois, et bien qu’un peu perdu relativement à ces notions obscures, il n’en reste pas moins que nous demeurons très alertes sur la question de l’impact que toutes ces inventions vont avoir, et ont d’ores et déjà, sur notre réalité et sur notre droit.

Ainsi, en plus des questions bien connues relatives à l’intelligence artificielle, à l’open data, à la blockchain etc., se pose dorénavant la question du webscrapping, de sa légalité et de sa définition.

I - Le webscrapping : définition.

Le webscrapping, est la conjonction du terme anglais web, diminutif de word wide web soit l’internet ou la toile mondiale numérique, et scrapping, de l’anglais scrap, « gratter » + ing rendant compte d’une action en cours. Il s’agirait donc littéralement d’un système permettant de gratter l’internet.

Gratter l’internet… Quelle drôle d’idée ! Et pourtant, à l’image des machines à attraper dans les fêtes foraines, le webscrapping va consister, pour un développeur informatique, à lancer sa pince numérique sur l’internet et récupérer, gratter, ramener à lui un maximum d’informations, de données.

Il va donc s’agir d’une pratique numérique visant littéralement à balayer, analyser, chaque micro-donnée disponible sur la toile, afin d’en extraire des informations éparses, brutes et non structurées, puis les classer, les trier dans un tableur ou une base de données, avant d’être injectées dans différentes applications usant d’intelligence artificielle auto-apprenante.

Cette extraction de données par webscrapping va nécessiter deux éléments :

Dans un premier temps un crawler, soit un algorithme d’intelligence artificielle qui parcourt l’internet pour rechercher les données en utilisant un système de jumping, soit littéralement de « sauts » de lien en lien et de site web en site web.
Puis un scraper, qui est quant à lui, un outil spécifiquement créé pour l’extraction de données du site web ciblé [1].

Dans la pratique, ce système de webscraping va venir alléger le travail des data engineer et des data analysts, en leur permettant de diversifier rapidement la base de données utilisée pour l’entrainement de leurs algorithmes, en leur donnant accès, en sus de la base de données de l’entreprise, à toutes les données externes attrapées par le système de scrapping.

C’est en cela que la méthode devient problématique sur le plan juridique, car le webscrapping va permettre de capturer, d’analyser et d’utiliser des données externes au système d’information de l’entreprise et ne lui appartenant pas.
Dès lors la question de la légalité de ce système se pose.

II- Le webscrapping : la question de sa légalité.

Le but du système étant l’extraction et la réutilisation de données à grande échelle, la question de la protection de ces données, et des droits relatifs à leurs auteurs se pose effectivement, mais se pose aussi la question de l’encadrement et de la légalité de l’exercice en lui-même.

Ainsi une distinction est à opérer entre la question du « scrapping » en lui-même (A) et celle de la réutilisation des données « scrappées » (B).

A ) La légalité du scrapping en tant que tel.

Le scrapping ne consistant, d’un point de vue pratique, qu’à un déplacement, un « jumping » de site en site, sans création de compte personnel, sans enregistrement et sans acceptation des conditions générales d’utilisation (CGU) du site en question, notamment celle relative à la non-réutilisation, il ne peut être considéré, en tout cas en France, comme étant une pratique illégale, car ces étapes ne sont pas obligatoires, la France utilisant le système d’acceptation tacite des CGU.

Contrairement aux Etats-Unis qui eux requièrent une acception expresse et où une telle pratique pourrait être considérée comme illégale [2].

B) La question de la réutilisation des données scrappées.

En revanche, à la question de la légalité de la réutilisation des données scrappées, la réponse est tout autre. Pour que cette réutilisation soit légale, elle devra respecter les règles relatives à la propriété intellectuelle des données concernées et sera ainsi autorisée dans les cas prévus à l’article L342-3 du Code de la propriété intellectuelle.

En outre, et en sus de cet encadrement relatif à la propriété intellectuelle, la réutilisation des données scrappées, devra se faire dans le respect des règles posées par le règlement général sur la protection des données personnelles (RGPD) [3].

Le non-respect de ces obligations pourra entrainer des sanctions, notamment sur le plan pénal, article 323-3 du Code pénal qui punit de 150 000 euros d’amende et de 5 ans de prison « le fait d’introduire frauduleusement des données dans un système de traitement automatisé, d’extraire, de détenir, de reproduire, de transmettre, de supprimer ou de modifier frauduleusement les données qu’il contient », mais aussi sur le plan administratif, avec le prononcé d’une amende pour non-respect des règles relatives au RGPD par la Commission Nationale de l’Informatique et Libertés (CNIL).

III - Le webscrapping : les clés d’une pratique saine.

Il conviendra donc pour une pratique saine du webscrapping [4] :

De rester vigilant et respectueux, des conditions générales d’utilisation du site scrappé.
D’éviter à tout prix une réutilisation de données récupérées hors cadre des CGU, sans modification substantielle et à des fins commerciales.
De faire preuve de loyauté dans la réutilisation des données.
Eviter de scrapper sur des heures de grande affluence, ce qui pourrait amener à des dégradations du système de navigation.
Préférez les sites fonctionnant sous open data ou avec des interfaces de programmation d’application (API) permettant de collecter les données sans les scrapper.

Ainsi, en conclusion à la question de savoir si le webscrapping est légal, la réponse est oui, il l’est en tant que tel, toutefois, la réutilisation des données extraites peut, elle, être source d’illégalité.

Commenter cet article

Discussion en cours :

par MONGAILLARD Frédéric , Le 11 octobre 2023 à 21:06
Super intéressant

La question de la légalité de l’utilisation des données au regard de la RGPD n’est elle pas liée également au caractère personnel de la dite donnée ?
D’autre part quid des données récupérées sur des sites hébergés aux États-Unis ou par des robots hébergés sur des serveurs aux US la RGPD peut-elle s’appliquer ?
En tout cas j’adore l’article ! Félicitations !

Répondre à cette discussion