RECHERCHE D INFORMATION CONTEXTUELLE ET SEMANTIQUE SUR LE WEB BOURAMOUL Abdelkrim

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université MENTOURI de Constantine Faculté des Sciences de l’ingénieur Département d’Informatique Na d’ordre : . THESE Pour obtenir le grade Docteur en Sciences Spécialité : INFORMA or214 Sni* to View Présentée et soutenue publiquement par MR. ABDELKRIM BOURAMOUL Le : 25 / 09 / 2011 RECHERCHE D’INFORMATION CONTEXTUELLE ET SEMANTIQUE SUR LE WEB Directeur de thèse : Dr.

Mohamed Kheireddine Kholladi jury Pr. Djamel Eddine Saidouni Dr. Mohamed Kheireddine Kholladi Dr. Biech•Lien Doan Dr. Okba Kazar Dr. Smaine Mazouzi Dr. Allaoua Chaoui l’expression de ma très grande gratitude. Je tiens aussi à exprimer ma plus profonde gratitude à Madame Bich-Liên Doan, Enseignante Chercheur au Supélec et co-encadrante de ma thèse pour la proposition de ce sujet et pour l’intérêt qu’elle a manifesté à l’égard de mes travaux de recherches ainsi que pour son soutien et sa patience.

Je la remercie également de m’avoir accueilli au département informatique du Supelec dans le cadre des stages que j’ai effectués durant cette thèse. Je tiens également à remercier Mr Djamel Eddine Saidouni, rofesseur à l’université de Constantine, Mr Okba Kazar, Maître de conférence à l’université de Biskra, Mr Smaine Mazouzi, Maître de conférence à l’université de Skikda et Mr Allaoua Chaoui Maître de conférence à l’université de Constantine pour l’intérêt qu’ils ont porté à mes travaux en examinant ce mémoire et pour l’honneur qu’ils me font en participant à ce jury.

Je remercie du fond du cœur et avec un grand amour mes parents qui n’ont jamais cessé de croire en moi pendant toutes mes années d’études. Merci aussi ? mes sœurs et frèresdddddcd , et à toute la famille qui m’ont toujours encouragée. Et bien sûr, toutes mes pensées vont à ma femme Fatima-Zohra, que je remercie tendrement pour sa patience et tout l’amour qu’elle me porte. Rien de ce que j’ai entrepris d’important n’aurait pu se réaliser sans son soutien indéfectible, pour lequel je suis infiniment reconnaissant.

Enfin, à mon petit enfant lyed que j’adore beaucoup. Résumé en Langue Franc sur deux axes complémentaires : d’abord l’amélioration du processus de recherche, puis famélioration de l’évaluation des outils de recherche. En effet, le grand nombre de documents disponibles sur le web a soulevé l’attractivité des outils de recherche d’information. Les moteurs de recherche actuels (tels que Google, Yahoo et Bing) sont les plus utilisés pour parcourir le contenu du Web.

Toutefois, Ce type d’outil ne permet pas d’atteindre une grande efficacité et les résultats qu’il retourne ne correspondent pas toujours aux besoins des utilisateurs. Pour cette raison, nous utilisons deux mécanismes dans nos propositions : d’une part, le contexte relatif aux différents acteurs autour du processus de recherche, et d’une autre part la sémantique portée par les termes de la requête et les mots des documents. Le but est d’augmenter la sélectivité des outils de echerche d’information et améliorer la manière dont ces outils sont évalués.

Afin d’ameliorer le processus RI, nous proposons dans une première approche de reformuler la requête utilisateur en se basant sur des éléments issus de son profil, de ses historiques de recherche et de ses interactions avec le système. Cette approche est supportée par l’outil « PRESV montrant son applicabilité à de vrais outils de recherche. Dans une deuxième approche nous proposons de prendre en compte la sémantique via les ontologies et cela durant les phases de reformulation de requêtes et d’indexation de documents. L’outil « AnimSe Finder’ que nous avons développé dans ce contexte concrétise cette proposition.

Pour ce qui est de l’améli luation des SRI, nous mesurer la qualité des réponses des moteurs de recherche. Nous exploitons à cet effet, les caractéristiques de l’outil de recherche, les jugements de l’utilisateur et l’adéquation entre la requête et les documents retournés pour calculer les scores de pertinences. une deuxième proposition dans ce même contexte consiste à utiliser l’ontologie de domaine WordNet pour définir un classement sémantique des résultats retournés par les moteurs de echerche, puis comparer ce classement à ceux des trois moteur Google, Yahoo et Bing.

Ces propositions ont été experimentée, et le gan en termes de pertinence des résultats retournés a été mesuré au moyen de trois moteurs de recherche (Google, Yahoo et Bing), les résultats montrent que la prise en compte du contexte et de la sémantique en recherche d’information augmente la pertinence des résultats retournés et réduit ainsi le bruit et le silence documentaire. Mots-clés: Recherche d’Information, Web sémantique, Ontologie, Reformulation de Requêtes, Indexation des Documents, Contexte Statique et Dynamique, Profils Utilisateur, Campagnes d’EvaIuation, Jugements de Pertinence.

Résumé en Langue Française [Recherche d’Information Contextuelle et Sémantique sur le Web] Abstract This thesis takes place in the fields of Information Retrieval, Context and Semantic Web. It aims to make contributio lementarv axes: first, the does not to achieve a high efficiency and the results that it returns does not always match the users needs. For this reason, we use two mechanisms ln our proposals: on the one hand, the context of the different actors around the search process, and on the ather hand the semantics represented y the query terms and the documents words.

The goal is to increase the selectivity of search tools and to improve the manner in which these tools are evaluated. To improve the IR process, we propose a first approach for reformulate the user’s query based on elements from his profile, his historical search and his interactions With the system. This approach is supported by the « PREY tool showing its applicability to real search tools. ln a second approach we propose to take into account the semantics using ontology during the phases of query reformulation and documents indexing. The « AnimSe Finder » tools that we eveloped in this context concretize this proposal. n terms of improving the evaluation of IRS, we propose a first approach based on three complementary levels of context to measure the responses quality of search engines. We exploit to this end, the search tool characteristics, the useris judgments and the adequacy between the query and the returned documents to calculate the relevance scores. A second proposai in this context is to use the WordNet ontology to define a semantic classificatlon of results returned by search engines and then compare this ranking With those of the three engines Google, Yahoo and Bing.

These proposals have been ex erimented, and the gain in terms of returned results releva consideration of the context and semantics in information retrieval increases the returned results relevance and reduces the documentary silence and noise Keywords: nformation Retrieval, Web Search Engines, Semantic Web, Ontology, Query Reformulation, Documents Indexing, Dynamic and Static Context, User Profiles, Évaluation Campaigns, Relevance Judgments. [Recherche d’Information Contextuelle et Sémantique sur le[ We b ‘151 lu « Animse Finder » sl,i Lai _LSS Table des Matières Introduction générale i. Centre d’intérêt — ii.

Contexte et problématique iii. Contributions 1 . Introduction 2. La recherche d’information — 2. 1 • Défi n itions 2. 2. Concept de base de la RI 23. Les modèles de RI 2. 3. 1 Modèle booléen . 2. 3. 2 Modèle vectoriel . 2. 3. 3 Modèle probabiliste 3. Système de recherche d’information — 3. 1. Définition 3. 2. Processus de recherche d’information 3. 2. 1. Indexation . 3. 2. 2. Interrogation . 3. 2. 3. Fonction de correspondance — 3,3. Reformulation de requêtes . 3. 3. 1 Expansion automatique des requêtes 3. 3. 2 Combinaison des présentations des requêtes 4. 2. 2. PageRank . 43. Architecture des moteurs de recherche . 3. 1 . Architecture générale des premiers moteurs de recherche 4. 3. 2. Architecture distribuée et adaptative 4. 3. 3. Architecture moderne d’un moteur de recherche 4. 4. Défis des moteurs de recherche 5. Conclusion Chapitre 02 : Contexte et sémantique, un besoin certain en recherche d’information 1. Introduction 2. Contexte et recherche contextuelle d’infirmatlon 2*1. Définition du contexte 2. 2. Utilisation du contexte en recherche d’information 2. 1. 1 . Au début du processus de recherche 01 02 03 04 07 08 2. 4. 4. Selon la nature d’information 2*5. Système de recherche d’information contextuel . . 1 Définitions . 2. 5. 2. Architecture d’un SRIC 3. Sémantique et recherche sémantique d’information 3. 1. Web sémantique . 3. 1. 1 . Définition 3. 1. 2. Principales composantes du web sémantique 3. 2. Les ontologies 3. 2. 1. Définition 3. 2. 2. Rôles des ontologies 3. 2. 3 Types d’ontologies 3. 2. 4. Réutilisation des ontologies 3. 2. 5. Difficulté de concevoir une ontologie universelle 3. 2. 6. Recherche d’information guidée par les ontologies 3. 3. Indexation sémantique en recherche d’information 3. 3. 1 . Besoin de l’indexation sémantique 3. 3. 2. Indexation sémanti PAGF OF