Karam Abdulahhad - Information Retrieval (IR) Modeling by Logic and Lattice. Application to Conceptual IR

12:00
Monday
5
May
2014
Organized by: 
Karam Abdulahhad
Speaker: 
Karam Abdulahhad
Teams: 

- La thèse est réalisée sous la direction de Catherine Berrut et Jean-Pierre Chevallet, équipe MRIM du LIG.

- Le jury sera composé de :

  • Prof. Fabio Crestani, University of Lugano, Rapporteur
  • Prof. Jian-Yun Nie, Université de Montréal, Rapporteur
  • Dr. Vincent Claveau, CNRS-IRISA, Examinateur
  • Prof. Christine Verdier, Université Joseph Fourier, Examinateur
  • Prof. Catherine Berrut, Université Joseph Fourier, Directeur de thèse
  • Dr. Jean-Pierre Chevallet, Université Pierre Mendès France, Codirecteur de thèse

 

Réalisation technique : Djamel Hadji | Tous droits réservés

Cette thèse se situe dans le contexte des modèles logique de Recherche d’Information (RI). Le travail présenté dans la thèse est principalement motivé par l’inexactitude de l’hypothèse sur l’indépendance de termes. En effet, cette hypothèse communément acceptée en RI stipule que les termes d’indexation sont indépendant les un des autres. Cette hypothèse est fausse en pratique mais permet toit de même aux systèmes de RI de donner de bon résultats. La proposition contenue dans cette thèse met également l’emphase sur la nature déductive du processus de jugement de pertinence. Les logiques formelles sont bien adaptées pour la représentation des connaissances. Elles permettent ainsi de représenter les relations entre les termes. Les logiques formelles sont également des systèmes d’inférence, ainsi la RI à base de logique constitue une piste de travail pour construire des systèmes efficaces de RI. Cependant, en étudiant les modèles actuels de RI basés sur la logique, nous montrons que ces modèles ont généralement des lacunes. Premièrement, les modèles de RI logiques proposent normalement des représentations complexes de document et des requête et difficile à obtenir automatiquement. Deuxièmement, la décision de pertinence d—>q, qui représente la correspondance entre un document d et une requête q, pourrait être difficile à vérifier. Enfin, la mesure de l’incertitude U(d—>q) est soit ad-hoc ou difficile à mettre en oeuvre.

Dans cette thèse, nous proposons un nouveau modèle de RI logique afin de surmonter la plupart des limites mentionnées ci-dessus. Nous utilisons la logique propositionnelle (PL). Nous représentons les documents et les requêtes comme des phrases logiques écrites en Forme Normale Disjonctive. Nous argumentons également que la décision de pertinence d—>q pourrait être remplacée par la validité de l’implication matérielle |= d—>q. Pour vérifier si d—>q est valide ou non, nous exploitons la relation potentielle entre PL et la théorie des treillis. Nous proposons d’abord une représentation intermédiaire des phrases logiques, où elles deviennent des noeuds dans un treillis ayant une relation d’ordre partiel équivalent à la validité de l’implication matérielle. En conséquence, nous transformons la vérification de |= d—>q, ce qui est un calcul intensif, en une série de vérifications simples d’inclusion d’ensembles. Afin de mesurer l’incertitude de la décision de pertinence U(d—>q), nous utilisons la fonction du degré d’inclusion Z, qui est capable de quantifier les relations d’ordre partielles définies sur des treillis. Enfin, notre modèle est capable de travailler efficacement sur toutes les phrases logiques sans aucune restriction, et est applicable aux données à grande échelle. Notre modèle apporte également quelques conclusions théoriques comme : la formalisation de l’hypothèse de van Rijsbergen sur l’estimation de l’incertitude logique U(d—>q) en utilisant la probabilité conditionnelle P(q|d), la redéfinition des deux notions Exhaustivity & Specificity, et finalement ce modèle a également la possibilité de reproduire les modèles les plus classiques de RI.

De manière pratique, nous construisons trois instances opérationnelles de notre modèle. Une instance pour étudier l’importance de Exhaustivity et Specificity, et deux autres pour montrer l’insuffisance de l’hypothèse sur l’indépendance des termes. Nos résultats expérimentaux montrent un gain de performance lors de l’intégration Exhaustivity et Specificity. Cependant, les résultats de l’utilisation de relations sémantiques entre les termes ne sont pas suffisants pour tirer des conclusions claires. Le travail présenté dans cette thèse doit être poursuivit par plus d’expérimentations, en particulier sur l’utilisation de relations, et par des études théoriques en profondeur, en particulier sur les propriétés de la fonction Z.