Mateusz Budnik - Apprentissage actif et profond pour le multimédia

13:30

Vendredi

Fév

2017

Soutenance de thèse

Lieu :

Amphithéâtre du bâtiment IMAG

Organisé par :

Mateusz Budnik

Intervenant :

Mateusz Budnik

Équipes :

Composition du jury :

Guillaume Gravier - Directeur de Recherche - IRISA - Rapporteur
Philippe Joly - Professeur - IRIT - Rapporteur
Catherine Berrut - Professeur - LIG - Examinatrice
Hervé Bredin - Chargé de Recherche - LIMSI - Examinateur
Laurent Besacier - Professeur - LIG - Directeur de these
Georges Quénot - Directeur de Recherche - LIG - Directeur de these

Les thèmes principaux abordés dans cette thèse sont l’utilisation de méthodes d’apprentissage actif et d’apprentissage profond dans le contexte du traitement de documents multimodaux. Les contributions proposées dans cette thèse abordent ces deux thèmes. Un système d’apprentissage actif a été introduit pour permettre une annotation plus efficace des émissions de télévision grâce à la propagation des étiquettes, à l’utilisation de données multimodales et à des stratégies de sélection efficaces. Plusieurs scénarios et expériences ont été envisagés dans le cadre de l’identification des personnes dans les vidéos, en prenant en compte l’utilisation de différentes modalités (telles que les visages, les segments de la parole et le texte superposé) et différentes stratégies de sélection. Le système complet a été validé au cours d’un “test à blanc” impliquant des annotateurs humains réels.

Une deuxième contribution majeure a été l’étude et l’utilisation de l’apprentissage profond (en particulier les réseaux de neurones convolutifs) pour la recherche d’information dans les vidéos. Une étude exhaustive a été réalisée en utilisant différentes architectures de réseaux neuronaux et différentes techniques d’apprentissage telles que le réglage fin (fine-tuning) ou des classificateurs plus classiques comme les SVMs. Une comparaison a été faite entre les caractéristiques apprises (la sortie des réseaux neuronaux) et les caractéristiques plus classiques (“engineered features”). Malgré la performance inférieure des seconds, une fusion de ces deux types de caractéristiques augmente la performance globale.

Enfin, l’utilisation d’un réseau neuronal convolutif pour l’identification des locuteurs à l’aide de spectrogrammes a été explorée. Les résultats ont été comparés à ceux obtenus avec d’autres systèmes d’identification de locuteurs récents. Différentes approches de fusion ont également été testées. L’approche proposée a permis d’obtenir des résultats comparables à ceux certains des autres systèmes testés et a offert une augmentation de la performance lorsqu’elle est fusionnée avec la sortie du meilleur système.

Aximag

Langues

Menu principal

Évènements

Éditorial

Mateusz Budnik - Apprentissage actif et profond pour le multimédia

Formulaire de recherche

Aximag

Langues

Vous êtes ici

Menu principal

Évènements

Éditorial

Mateusz Budnik - Apprentissage actif et profond pour le multimédia