Johann Poignant - Identification non-supervisée de personnes dans les flux télévisés

08:00
Vendredi
18
Oct
2013
Organisé par : 
Johann Poignant
Intervenant : 
Johann Poignant
Équipes : 

- Thèse dirigée par Laurent Besacier (LIG-GETALP) et Georges Quénot (LIG-MRIM), traite de l’identification non-supervisée de personnes dans les flux télévisés.

  • M. Frédéric Béchet, Professeur, Laboratoire d’Informatique Fondamentale de Marseille,Rapporteur
  • M. Bernard Mérialdo, Professeur, Eurecom, Rapporteur
  • M. Philippe Joly, Professeur, Institut de Recherche en Informatique de Toulouse,Examinateur
  • M. Sylvain Meignier, Maître de Conférences, Laboratoire d’Informatique de l’Université du Maine, , Examinateur
  • M. Georges Linares, Professeur, Laboratoire Informatique d’Avignon, Examinateur
  • M. Laurent Besacier, Professeur, Université Joseph Fourrier, Directeur de thèse
  • M. Georges Quénot, Directeur de recherche CNRS, CNRS, (Membre), Co-Directeur de thèse

 

Réalisation technique : Djamel Hadji | Tous droits réservés

Ce travail de thèse a pour objectif de proposer plusieurs méthodes d’identification non-supervisées des personnes présentes dans les flux télévisés à l’aide des noms écrits à l’écran. Comme l’utilisation de modèles biométriques pour reconnaître les personnes présentes dans de larges collections de vidéos est une solution peu viable sans connaissance a priori des personnes à identifier, plusieurs méthodes de l’état de l’art proposent d’employer d’autres sources d’informations pour obtenir le nom des personnes présentes.

Ces méthodes utilisent principalement les noms prononcés comme source de noms. Cependant, on ne peut avoir qu’une faible confiance dans cette source en raison des erreurs de transcription ou de détection des noms et aussi à cause de la difficulté de savoir à qui fait référence un nom prononcé.

Les noms écrits à l’écran dans les émissions de télévision ont été peu utilisés en raison de la difficulté à extraire ces noms dans des vidéos de mauvaise qualité. Toutefois, ces dernières années ont vu l’amélioration de la qualité des vidéos et de l’incrustation des textes à l’écran. Nous avons donc ré-évalué, dans cette thèse, l’utilisation de cette source de noms.

Nous avons d’abord développé LOOV (pour Lig Overlaid OCR in Vidéo), un outil d’extraction des textes sur-imprimés à l’image dans les vidéos. Nous obtenons avec cet outil un taux d’erreur en caractères très faible. Ce qui nous permet d’avoir une confiance importante dans cette source de noms.

Nous avons ensuite comparé les noms écrits et les noms prononcés dans leurs capacités à fournir le nom des personnes présentes dans les émissions de télévisions. Il en est ressorti que deux fois plus de personnes sont nommables par les noms écrits que par les noms prononcés extraits automatiquement. Un autre point important à noter est que l’association entre un nom et une personne est intrinsèquement plus simple pour les noms écrits que pour les noms prononcés.

Cette très bonne source de noms nous a donc permis de développer plusieurs méthodes de nommage non-supervisé des personnes présentes dans les émissions de télévision. Nous avons commencé par des méthodes de nommage tardives où les noms sont propagés sur des clusters de locuteurs. Ces méthodes remettent plus ou moins en cause les choix fait lors du processus de regroupement des tours de parole en clusters de locuteurs. Nous avons ensuite proposé deux méthodes (le nommage intégré et le nommage précoce) qui intègrent de plus en plus l’information issue des noms écrits pendant le processus de regroupement. Pour identifier les personnes visibles, nous avons adapté la méthode de nommage précoce pour des clusters de visages. Enfin, nous avons aussi montré que cette méthode fonctionne aussi pour nommer des clusters multi-modaux voix-visage.

Avec cette dernière méthode, qui nomme au cours d’un unique processus les tours de paroles et les visages, nous obtenons des résultats comparables aux meilleurs systèmes ayant concouru durant la première campagne d’évaluation.