Village de la Justice www.village-justice.com

[Tribune] Projet « DataJust » d’évaluation des préjudices corporels : des défauts d’opportunité et de méthode.
Parution : vendredi 10 avril 2020
Adresse de l'article original :
https://www.village-justice.com/articles/projet-datajust-evaluation-des-prejudices-corporels-des-defauts-opportunite,34609.html
Reproduction interdite sans autorisation de l'auteur.

Par Bruno Mathis, Consultant indépendant et chercheur.
Le ministère de la justice se lance dans la création d’un référentiel d’indemnisation des préjudices corporels. Mais l’approche choisie révèle une sous-estimation de la difficulté de réalisation et des défauts de méthode.

NDLR Mai 2023 : Depuis la parution de cet article, le projet Datajust a été arrêté, mais nous conservons l’article en ligne en accord avec l’auteur pour le débat public sur la place de l’IA dans le système judiciaire et l’apport de l’expérimentation.

En pleine crise du coronavirus, en pleine crise de défiance entre le ministère de la justice et les avocats, paraît un décret [1] inattendu. Il est relatif, selon son article premier, à « un traitement automatisé de données à caractère personnel, dénommé DataJust, ayant pour finalité le développement d’un algorithme devant servir à :
1° La réalisation d’évaluations rétrospectives et prospectives des politiques publiques en matière de responsabilité civile ou administrative ;
2° L’élaboration d’un référentiel indicatif d’indemnisation des préjudices corporels ;
3° L’information des parties et l’aide à l’évaluation du montant de l’indemnisation à laquelle les victimes peuvent prétendre afin de favoriser un règlement amiable des litiges ;
4° L’information ou la documentation des juges appelés à statuer sur des demandes d’indemnisation des préjudices corporels
 ».

Une question d’opportunité.

Nous sommes familiers avec la notion de traitement de données à caractère personnel. Le terme d’algorithme pénètre aussi peu à peu notre droit positif depuis une controverse sur l’application Admission Post-Bac et l’avènement de l’intelligence artificielle. Ici nous avons un traitement qui a pour finalité le développement… d’un algorithme.

Le choix du terme d’algorithme a été choisi pour suggérer l’idée, avancée il y a déjà deux ans par le ministère de la justice, de recourir à l’intelligence artificielle et à l’auto-apprentissage pour extraire d’une masse textuelle - les décisions de justice - les informations propices à l’établissement d’un référentiel national d’indemnisation des préjudices corporels. L’objectif, un peu oublié, de ce projet est de réduire les écarts d’indemnisation, à affaires comparables, résultant de barèmes confectionnés plus ou moins au doigt mouillé dans les juridictions. Pourtant, le texte se garde de mentionner les termes d’intelligence artificielle ou d’auto-apprentissage (machine-learning), sans doute pour ne fermer aucune option technique.

Il est vrai que la garde des Sceaux reconnaissait elle-même, en décembre dernier, que l’expérimentation, conduite en 2016 avec « comme objectif de reproduire les processus de décision du juge européen, n’est pas parvenue à descendre en dessous des 20 % de réponses erronées, ce qui est un taux trop important pour un outil d’aide à la décision [2] » . Cette expérience est une des rares qui ait éprouvé un algorithme d’intelligence artificielle dans le domaine de la justice selon des critères scientifiques – et encore ses enseignements sont-ils difficilement transposables, à cas d’usage égal, sur les juridictions françaises.

Il y a bien Open Justice [3], un autre projet à caractère opérationnel, conduit par la Cour de cassation, qui utilise l’intelligence artificielle à des fins de pseudonymisation des décisions de justice. Mais il s’inscrit dans le cadre plus vaste de leur mise à disposition au public, en vertu des articles L111-13 du code d’organisation judiciaire [4] et L-10 du code de justice administrative [5], dont le décret d’application [6] n’est pas encore paru . Surtout, un monde de complexité le sépare de la barémisation des préjudices corporels. Il s’agit cette fois d’analyser des décisions de justice dans leur narratif, souvent long, où l’indicible et le contexte se mêlent aux faits et aux chiffres.

Il est donc paradoxal qu’après avoir constaté le bilan en demi-teinte d’une expérimentation scientifique, le ministère se lance peu après dans un projet aussi ambitieux, et pour une durée – deux ans – aussi courte. Le projet comprend de surcroît, pour la première fois, un enjeu de normalisation informatique entre les deux ordres judiciaire et administratif. Peut-être le ministère aurait-il pu, pour son propre apprentissage de l’intelligence artificielle, envisager un cas d’usage d’une difficulté intermédiaire, ou, mieux encore, confier une étude à une équipe pluridisciplinaire de chercheurs.

De la sécurité à l’opacité.

L’article 4 du décret prévoit que les données ayant servi au projet seront détruites au plus tard dans deux ans, mais cela ne va malheureusement pas faciliter la capitalisation du savoir sur un projet qui devrait s’inscrire dans la durée.

Dans son avis du 9 janvier [7], la CNIL se félicite à l’avance que les données de DataJust soient chiffrées. En fait, cette disposition est absente du décret, et c’est heureux : les traitements d’auto-apprentissage peuvent être longs et coûteux en puissance de calcul et les insérer entre déchiffrement et chiffrement contribuerait à les alourdir encore. D’autre part, il ne semble pas que l’absence de chiffrement des bases JuriCA et Ariane, sources du projet DataJust, ait causé de préjudices.

Rappelons que le RGPD, auquel le décret se réfère, préconise une approche fondée sur les risques, et que les mesures de protection, par exemple d’effacement ou de chiffrement, doivent procéder de l’analyse des risques. Or, si le RGPD ne prévoit pas que l’analyse d’impact, qui comprend ces deux rubriques, soit publiée, le décret ne le prévoit pas non plus. En tout état de cause, les mesures de protection applicables aux systèmes d’aide à la décision, où les noms et prénoms des parties ont été effacés, doivent être proportionnées à celles applicables aux systèmes de production (Portalis et Ariane), où noms et prénoms apparaissent en clair.

Le point 3 de l’article 1 prévoit l’information « des parties », non du public. Le référentiel, une grille multicritères de niveaux d’indemnités, qui ne comprendra pas de données personnelles, n’est donc pas public, et donc inéligible à open data. Les données qu’il contiendra ne seront portées à la connaissance des justiciables qu’à l’initiative du juge.

Un guide méthodologique sera nécessairement élaboré pour expliquer comment l’algorithme est utilisé pour créer ce référentiel. Ce guide, et l’analyse d’impact, pourraient se voir reconnaître la qualité de documents administratifs, au sens du code des relations entre le public et l’administration, et non de documents juridictionnels. À ce titre, et en vertu d’une toute récente décision du Conseil constitutionnel [8] consacrant le droit constitutionnel d’accès aux documents administratifs, ils devraient pouvoir être rendus publics. Ce serait une compensation minimale à l’absence de droit d’information, au sens de l’article 14 du RGPD, que l’article 6 du décret exclut de ce traitement.

Des biais et du flou.

Le projet retient pour assiette de calcul les arrêts de cour d’appel. Si, selon le ministère [9], le taux moyen d’appel se situe à 23.3% pour les tribunaux de grande instance, on n’en connait pas le détail par matière, en particulier pour les préjudices corporels. Par hypothèse, les indemnités décidées par le juge ne sont pas contestées dans les décisions de première instance qui n’ont pas fait l’objet d’appel. Il faudrait donc une analyse préalable de ces décisions pour vérifier que leur exclusion du projet DataJust n’introduit pas de biais. Cela dépend, certes, du type d’usage. Pour informer le justiciable et l’inciter à recourir à l’arbitrage, l’analyse doit être représentative des décisions du premier degré. Pour aider le juge de cour d’appel à prendre une décision, le périmètre des arrêts d’appel suffit sans doute.

Par ailleurs, le décret limite l’assiette aux décisions de 2017, 2018 et 2019. Le volume de données requis dépend de la granularité recherchée dans l’analyse. L’article 2 du décret énonce les multiples critères qui déterminent un niveau donné d’indemnisation : les données relatives aux préjudices subis, à la vie professionnelle et à la situation financière, les avis des médecins et experts, les données relatives à des infractions et condamnations pénales ou à des fautes civiles. Rien ne garantit que pour toute combinaison, une profondeur historique sur 3 années suffise à assurer une représentativité statistique. Il y a là un deuxième type de biais possible.

Enfin, les modalités opérationnelles restent floues. Les décisions seront pseudonymisées « préalablement à leur transmission au secrétariat général du ministère de la justice », mais comment et par qui ? Cette action sera-t-elle la même que celle prévue dans le projet de décret de mise à disposition en open data ? Comment les décisions relatives à des préjudices corporels seront-elles identifiées dans la masse des décisions ? Comment l’échantillonnage, s’il y en a un, sera-t-il effectué, puis actualisé dans la durée ?

Vers un open data réservé.

En revanche, le décret anticipe sur un deuxième projet. Les points 2, 3 et 4 portent tous sur l’indemnisation des préjudices corporels, mais le point 1 est relatif à toute autre chose : « La réalisation d’évaluations rétrospectives et prospectives des politiques publiques en matière de responsabilité civile ou administrative ». Son imprécision avait été relevée par la CNIL dans son avis. Celle-ci avait noté que DataJust serait « déployé au sein du réseau privé virtuel justice (RPVJ) du ministère ». On voit mal le rôle du RPVJ, s’agissant d’arrêts d’appel fournis par les hautes juridictions, qui les ont déjà centralisés. Cette mention ne figure plus dans la version définitive du décret, mais semble indiquer que le ministère cherche à se donner les moyens de puiser dans des données de toutes sortes. Le ministère pourrait par exemple comparer les pratiques professionnelles des magistrats, une finalité qui exposerait à la prison le ré-utilisateur des décisions de justice mises à la disposition du public . Le décret ne prévoit opportunément pas d’effacer les noms et prénoms des magistrats alors qu’ils n’ont pas de raison de figurer, et ne figurent pas, dans la liste des données nécessaires au référentiel d’indemnisation des préjudices corporels. En revanche, il inclut explicitement, en dernière position de sa liste des données collectées, le numéro des décisions de justice. Cette donnée à fort pouvoir de ré-identification n’a sans doute pas plus d’intérêt que les noms des parties pour le référentiel d’indemnisation, mais pourrait servir à d’autres cas d’usage.

De façon générale, ce point 1 permet au ministère de procéder à tous sortes d’analyses à partir des décisions de justice. Il n’a plus à se projeter comme ré-utilisateur potentiel des décisions de justice qui seront mises en open data, hormis en matière pénale, ni à se rendre tributaire d’un projet dont personne ne voit le bout. DataJust est un projet d’open data réservé au ministère.

Bruno Mathis, Chercheur associé au Centre européen de droit et d\'économie.