Georgios Balikas - Mining and Learning from Multilingual Text Collections using Topic Models and Word Embeddings

12:00
Vendredi
20
Oct
2017
Organisé par : 
Georgios Balikas
Intervenant : 
Georgios Balikas
Équipes : 

 

Membres du jury :

  • Cyril Goutte, chercheur senior au Conseil National de Recherches Canada , rapporteur
  • Gaël Dias, professeur à l'Université de Caen, rapporteur
  • Laurent Besacier, professeur à l'Université Grenoble Alpes, examinateur
  • Patrick Gallinari, professeur à l'Université Pierre et Marie Curie, examinateur
  • Guillaume Vernat, chercheur, Coffreo, examinateur
  • Massih-Reza Amini, professeur à l'Université Grenoble Alpes, directeur de thèse

 

Dans cette thèse, nous nous intéressons à l'apprentissage de représentations textuelles basé sur l'hypothèse distributionnelle stipulant que les éléments linguistiques qui co-occurrent dans le même contexte avec la même fréquence sont similaires.
Dans la première partie de la thèse, nous considérons les modèles latents probabilistes pour les corpus de textes monolingues et bilingues. Nous identifions certaines limitations de ces modèles, par exemple le fait qu'ils ne tiennent pas compte de la structure du texte, et nous proposons des solutions pour les prendre en compte. La deuxième partie de la thèse concerne les embeddings de mots, c'est-à-dire les représentations de mots continus apprises avec des réseaux profonds. Nous étudions différents paramètres de classification de textes et des problèmes de récupération de documents. Nous proposons des algorithmes qui bénéficient de l'expressivité des embeddings de mots, soit en utilisant les réseaux neuronaux profonds, soit une reformulation du problème par le transport optimal.