Membres du jury :
Dans cette thèse, nous nous intéressons à l'apprentissage de représentations textuelles basé sur l'hypothèse distributionnelle stipulant que les éléments linguistiques qui co-occurrent dans le même contexte avec la même fréquence sont similaires.
Dans la première partie de la thèse, nous considérons les modèles latents probabilistes pour les corpus de textes monolingues et bilingues. Nous identifions certaines limitations de ces modèles, par exemple le fait qu'ils ne tiennent pas compte de la structure du texte, et nous proposons des solutions pour les prendre en compte. La deuxième partie de la thèse concerne les embeddings de mots, c'est-à-dire les représentations de mots continus apprises avec des réseaux profonds. Nous étudions différents paramètres de classification de textes et des problèmes de récupération de documents. Nous proposons des algorithmes qui bénéficient de l'expressivité des embeddings de mots, soit en utilisant les réseaux neuronaux profonds, soit une reformulation du problème par le transport optimal.