VILLAGE DE LA JUSTICE
www.village-justice.com
Le site leader de la communauté des professions du droit :
Emploi, Actualités, Forums et échanges, Annuaires, Gestion professionnelle...






Auteurs : Mohammed Benabdellah, Said Essofi, Direction des Ressources Humaines, Ministère de la justice, Maroc.
La recherche rapide des pages web publiées sur Internet par les journaux est abordée dans cet article d’un point de vue Intelligence Artificielle afin de donner un cadre d’étude à la coordination distribuée soutenue par la communication justicière. Nous nous sommes penchés plus particulièrement sur le cas des journaux marocains en cherchant à affecter une recherche très rapide des documents concernant la justice en respectant le temps nécessaire à effectuer. Ce problème est formalisé sous la forme d’une implantation d’un moteur de recherche. Dans cet article, nous nous sommes intéressés à l’étude des techniques de recherche d’informations thématiques sur le web. À cet effet, nous proposons deux solutions complémentaires : un langage de requêtes pour le web offrant des mécanismes évolués de description des documents à rechercher (WeQueL : Web Query Language) et une nouvelle technique d’exploration du web guidée par une requête donnée du langage WeQueL. Avec ces deux outils, nous visons l’amélioration qualitative et quantitative de la recherche de documents thématiques sur le web.
Mots clés : Moteur de recherche, Intelligence Artificielle, WeQueL, Internet, documents web, recherche ciblée, justice.
1 Introduction
Bien que les moteurs de recherche aient considérablement amélioré l’accès aux informations contenues dans les documents du web, certains besoins ne peuvent être entièrement satisfaits faute de pouvoir les exprimer et les évaluer convenablement avec les outils de recherche proposés [1]. De plus, l’absence d’une partie du web dans les index des moteurs de recherche ne permet pas à ces derniers de fournir toutes les réponses pertinentes à une requête donnée. À titre d’exemple, il est impossible de formuler une requête mots clés sous Google [Google site] pour rechercher des documents ayant un format particulier et satisfaisant à la fois plusieurs critères de présence de mots clés dans différentes parties d’un document.
2 Motivation de l’article : recherche ciblée de documents
2.1 Problématique
La recherche et l’exploitation d’informations sur le web se révèlent, encore aujourd’hui, difficiles à réaliser dans certains cas. En effet, pour le cas des recherches documentaires avancées (documents thématiques par exemple), le recours à des experts humains est nécessaire pour contrebalancer l’imprécision des réponses retournées par les outils de recherche actuels (moteurs de recherche en général). Nous expliquons cette imprécision par le principe même du fonctionnement de ces outils, à savoir l’évaluation de langages de requêtes mots clés sur des index de documents alimentés régulièrement depuis le web. Les problèmes liés à ce principe de fonctionnement peuvent être résumés par les trois points suivants :
2.1.1 Expressivité limitée des langages de requêtes proposés : les moteurs de recherche proposent généralement des langages de requêtes mots clés simples mais extrêmement limités en expressivité.
2.1.2 Méthode naïve d’évaluation des langages de requêtes mots clés :
Outre leur expressivité réduite, les requêtes mots clés souffrent d’une méthode d’évaluation naïve qui consiste à considérer que tout document contenant, dans n’importe quel ordre et à n’importe quel endroit de son contenu, les mots spécifiés dans la requête soumise est potentiellement pertinent. Un calcul mathématique du score de similarité document-requête permet de départager les documents précédents en favorisant ceux qui contiennent les mots de la requête en grand nombre. Or, l’expérience démontre que l’occurrence fréquente des mots clés de la requête dans n’importe quel ordre dans un document n’est pas un critère de pertinence fiable. Pour illustrer notre propos, considérons les deux exemples suivants :
Exemple 1 : La recherche des mots clés « justice » et « marocaine » dans les documents du web conformément à la méthode décrite plus haut (en ignorant l’ordre de l’occurrence des mots « justice » et « marocaine ») peut faire ressortir trois catégories de documents potentiellement pertinents : les documents contenant « justice marocaine » dans cet ordre, les documents contenant « marocaine justice » dans cet ordre et les documents contenant les mots « marocaine » et « justice » dans un ordre quelconque et éloignés l’un de l’autre. En supposant que les fréquences d’occurrences des mots clés « justice » et « marocaine » dans chaque catégorie sont importantes, la première catégorie regroupe a priori les documents traitant du justice qui est marocaine. La deuxième catégorie regroupe a priori les documents traitant la phrase marocaine justice. Enfin, la dernière catégorie peut à priori regrouper différents thèmes. Sans aucune indication supplémentaire, la méthode d’évaluation de la requête « justice marocaine » est incapable de lever l’ambiguïté qui caractérise cette recherche.
Exemple 2 : Soit la requête mots clés « cours justice » pour rechercher sur le web des documents de cours de la justice. Sur les 10 meilleures réponses retournées par Google, cinq seulement correspondent réellement à des documents de cours justice. Par ailleurs, quelques documents indésirables (descriptif de formations payantes de justice ou des emplois du temps en-ligne d’un cours justice) se sont bien classés parmi les réponses retournées par Google parce qu’ils contenaient les mots « cours » et « justice » en forte proportion. Due à leur indépendance du contenu des documents et de la requête soumise, les mesures de popularité, PageRank [Brin et Page 1998] par exemple, sont impuissantes face aux effets de bord des méthodes d’évaluation des requêtes mots clés.
2.1.3 Importance du coût d’alimentation et de mise à jour des index sur lesquels les requêtes sont évaluées :
Les moteurs de recherche évaluent leurs requêtes mots clés sur les documents stockés dans leur index web. Cet index doit être alimenté par le plus possible de documents différents du web pour que le moteur de recherche puisse répondre à toute requête éventuelle de l’utilisateur (sur : la politique, le sport, l’actualité, le tourisme, la météo...). Pour cela, les robots explorateurs utilisés par les moteurs de recherche parcourent généralement le web de manière systématique sans aucune restriction particulière sur la nature des documents à rapatrier. Le principe consiste à suivre tous les liens hypertextes contenus dans un document déjà visité pour atteindre et rapatrier de nouveaux documents. Tout nouveau document visité est analysé et ses liens hypertextes sont extraits et mis en attente de traitement. L’approche systématique sur le web d’aujourd’hui est devenue un défi technologique d’envergure nécessitant d’importants moyens techniques que seuls les industriels peuvent financer [4].
Par ailleurs, le volume et la croissance du web actuel entraînent un allongement pénalisant du temps nécessaire à l’accomplissement d’un cycle complet d’exploration. Cette situation complique sérieusement la mise à jour des index des moteurs de recherche et se traduit par un décalage entre la version en-ligne des documents et leur version stockée dans l’index. Ce décalage peut, dans certains cas, être source d’imprécision dans l’évaluation des requêtes [2].
2.2 Idées essentielles dans ce travail
Au vu du constat dressé précédemment, l’amélioration de la recherche sur le web passe nécessairement par la spécialisation des outils de recherche. Cet article défend le principe qui stipule que le web peut être fouillé de manière plus efficace, que la fouille globale actuelle, en le découpant en différentes communautés thématiques. En effet, le volume impressionnant et l’hétérogénéité du contenu du web sont généralement sources de confusion et d’ambiguïté lors de l’évaluation des requêtes. Il est plus facile de gérer et de fouiller une collection restreinte de documents traitant de la même thématique. De ce fait, il s’agit de viser la construction automatique d’entrepôts thématiques et le développement d’outils de recherche spécialisés pour l’augmentation de la précision de la recherche sur le web. Se posent alors deux problèmes : comment caractériser les documents relatifs à une thématique donnée ? et comment les retrouver sans devoir parcourir l’intégralité du web ? L’idée défendue dans ce manuscrit répond à ces deux questions de la façon suivante.
D’abord, nous montrons qu’une façon d’augmenter la précision et l’expressivité de la caractérisation des documents souhaités consiste à combiner différents critères mots-clés ciblés sur différentes parties de la structure d’un document (exemple : son titre, son corps, ses liens sortants...) ou du contexte d’un document (les liens entrants, l’URL, son type...). Nous montrons également qu’avec la définition de mécanismes déclaratifs pour la spécification et le contrôle du mode d’évaluation des mots clés sur les documents du web, il est possible de combiner efficacement des critères de recherche pour qu’ils correspondent aux mieux aux besoins de la recherche souhaitée. Il est alors possible de formuler des requêtes mots clés évoluées dont l’emploi peut s’avérer utile pour décrire les documents d’une thématique complexe.
Ensuite, nous plaidons en faveur des approches sélectives pour explorer efficacement le web à la recherche ciblée de documents thématiques. Cette approche est étayée par une étude expérimentale qui montre que l’exploration du web guidée par une fonction d’estimation de l’intérêt de rapatriement d’un document, augmente de manière significative la proportion de documents pertinents rapatriés.
2.3 Contributions
La clé de la recherche ciblée de documents sur le web réside dans la capacité à caractériser clairement les documents d’intérêt pour pouvoir, par la suite, les distinguer sans ambiguïté des autres documents. Dans ce sens, nous proposons WeQueL, un langage de requêtes déclaratif qui permet de décrire les documents souhaités par combinaison de critères de recherche mots clés. La particularité de notre langage réside dans la possibilité de cibler la recherche de mots clés sur des parties spécifiques de la structure du document. L’autre particularité du langage WeQueL réside dans la méthode d’évaluation de ses requêtes. En effet, par un système de poids et par un ensemble de fonctions prédéfinies, il est possible d’attribuer un mode d’évaluation différent pour chaque critère de recherche. Un score de pertinence est calculé pour chaque document à la suite de son évaluation sur une requête WeQueL. Ce score permet, par exemple, d’établir un classement des documents évalués pour présenter en priorité les documents totalisant les scores les plus élevés, i.e. les plus pertinents.
À notre connaissance, aucun autre langage de requêtes pour le web ne permet de décrire aussi finement les documents souhaités en combinant à la fois plusieurs critères différents et en offrant la possibilité de choisir la méthode d’évaluation de la requête construite.
En s’appuyant sur ce langage, nous proposons, par ailleurs, une approche sélective d’exploration du web guidée par une requête WeQueL (appelée requête d’exploration). L’objectif de notre approche est de rechercher le plus possible de documents correspondant à la requête d’exploration sans devoir parcourir tous les documents qui se présentent lors du parcours du web. Une exploration sélective guidée par une requête WeQueL repose sur une fonction qui permet d’anticiper le score d’évaluation d’un document avant de rapatrier son contenu. Cette anticipation est fort utile lorsqu’il s’agit de choisir le prochain candidat à rapatrier parmi les documents en attente de rapatriement. La stratégie consiste tout naturellement à privilégier le rapatriement du « meilleur », c’est-à-dire, le document estimé avec le score le plus élevé. Cette fonction d’estimation est mise en oeuvre par un système d’apprentissage bayésien en-ligne s’appuyant sur un ensemble de mesures statistiques recueillies au fur et à mesure de l’exploration.
3. Conclusion
Dans ce travail, nous voulons utiliser le langage de requêtes WeQueL qui permet de combiner plusieurs critères de recherche mots clés à la fois, ciblés chacun sur diverses parties et propriétés de la structure d’un document. Sur des recherches thématiques concernant le domaine de la justice, il est déjà montré que ce langage permet d’exprimer des requêtes complexes pour décrire et détailler le plus finement possible les caractéristiques des documents souhaités.
Nous voulons, par ailleurs, montrer qu’il est possible de spécifier déclarativement différentes méthodes d’évaluation des requêtes atomiques combinées dans une requête WeQueL complexe. De plus, l’attribution de poids différents aux requêtes atomiques précédentes autorise les utilisateurs de ce langage à adapter le calcul du score de leurs requêtes en fonction de leurs besoins.
Bibliographie
[1] Sergey Brin and Lawrence Page (1998). “The anatomy of a large-scale hypertextual Web search engine”. Computer Networks and ISDN Systems, 30(1-7) :107-117.
@ : http://citeseer.nj.nec.com/brin98anatomy.html.
[2] Allan Heydon and Marc Najork (1999). “Mercator : A Scalable, Extensible Web Crawler”. World Wide Web, 2(4) :219-229.
@ : http://citeseer.nj.nec.com/heydon99mercator.html.
[3] Filippo Menczer and Gautam Pant and Padmini Srinivasan (2004). “Topical web crawlers : Evaluating adaptive algorithms”. ACM Trans. Inter. Tech., 4(4) :378-419.
@ : http://dollar.biz.uiowa.edu/ pant/Papers/TOIT.pdf.
[4] Amar Djalil Mezaour (2004b). “Recherche ciblée de documents sur le web”. Revue des Nouvelles Technologies de l’Information (RNTI-E2), numéro spécial EGC’2004, 2 :491-502.
@ : http://www.lri.fr/ mezaour/publications/egc2004mezaour.ps.
[5] Fatiha Saïs (2004). “Transformation d’informations structurées en documents XML guidée par une ontologie”. Mémoire de stage de DEA.
[6] Amar Djalil Mezaour (2005). “Filtering Web Documents for a Thematic Warehouse, Case Study : eDot a Food Risk Data Warehouse (extended)”. Dans Proceedings
of New Trends in Intelligent Information Processing and Web Mining Conference (IIPWM’05), Gdansk, Poland. Springer Verlag series-Advances in Soft Computing_.
@ : http://www.lri.fr/ mezaour/publications/iis2005mezaour.ps.
[7] Amar Djalil Mezaour (2005). “Filtering Web Documents for a Thematic Warehouse, Case Study : eDot a Food Risk Data Warehouse (extended)”. Dans Proceedings
of New Trends in Intelligent Information Processing and Web Mining Conference (IIPWM’05),Gdansk, Poland. Springer Verlag series_Advances in Soft Computing.
@ : http://www.lri.fr/ mezaour/publications/iis2005mezaour.ps.
Fil RSS 2.0 du village accessible ici | Plan du site | Editeur - Publicité