Clément Grimal - Apprentissage de co-similarités pour la classification automatique de données monovues et multivues

12:00
Jeudi
11
Oct
2012
Organisé par : 

Clément Grimal

Équipes : 

Lieu de soutenance : Amphithéâtre du CTL

Jury :

  • Céline Rouveirol, Professeur à l’Université Paris Nord, Rapporteur
  • Gilles Richard, Professeur à l’Université Paul Sabatier de Toulouse, Rapporteur
  • Sihem Amer-Yahia, Directrice de Recherche CNRS, Examinatrice
  • Céline Robardet, Maître de Conférence à l’Université de Lyon, Examinatrice
  • Eric Gaussier, Professeur à l’Université de Grenoble, Directeur de thèse
  • Gilles Bisson, Chargé de Recherche CNRS, Co-Directeur de thèse

L’apprentissage automatique consiste à concevoir des programmes informatiques capables d’apprendre à partir de leurs environnement, ou bien à partir de données. Il existe différents types d’apprentissage, selon que l’on cherche à faire apprendre au programme, et également selon le cadre dans lequel il doit apprendre, ce qui constitue différentes tâches. Les mesures de similarité jouent un rôle prépondérant dans la plupart de ces tâches, c’est pourquoi les travaux de cette thèse se concentrent sur leur étude.

Plus particulièrement, nous nous intéressons à la classification de données, qui est une tâche d’apprentissage dit non supervisé, dans lequel le programme doit organiser un ensemble d’objets en plusieurs classes distinctes, de façon à regrouper les objets similaires ensemble. Dans de nombreuses applications, ces objets (des documents par exemple) sont décrits à l’aide de leurs liens à d’autres types d’objets (des mots par exemple), qui peuvent eux-même être classifiés. On parle alors de co-classification, et nous étudions et proposons dans cette thèse des améliorations de l’algorithme de calcul de co-similarités XSim. Nous montrons que ces améliorations permettent d’obtenir de meilleurs résultats que les méthodes de l’état de l’art.

De plus, il est fréquent que ces objets soient liés à plus d’un autre type d’objets, les données qui décrivent ces multiples relations entre différents types d’objets sont dites multivues. Les méthodes classiques ne sont généralement pas capables de prendre en compte toutes les informations contenues dans ces données. C’est pourquoi nous présentons dans cette thèse l’algorithme de calcul multivue de similarités MVSim, qui peut être vu comme une extension aux données multivues de l’algorithme XSim. Nous montrons que cette méthode obtient de meilleures performances que les méthodes multivues de l’état de l’art, ainsi que les méthodes monovues, validant ainsi l’apport de l’aspect multivue.

Finalement, nous proposons également d’utiliser l’algorithme MVSim pour classifier des données classiques monovues de grandes tailles, en les découpant en différents ensembles. Nous montrons que cette approche permet de gagner en temps de calcul ainsi qu’en taille mémoire nécessaire, tout en dégradant relativement peu la classification par rapport à une approche directe sans découpage.