Frédéric Aman - Reconnaissance automatique de la parole de personnes âgées pour les services d’assistance à domicile

13:00
Mardi
9
Déc
2014
Organisé par : 
Michel Vacher
Intervenant : 
Frédéric Aman
Équipes : 

Jury :

  • Mme Christine VERDIER, Professeur des Universités, Université Joseph Fourier, Grenoble 1, LIG, examinateur
  • Mme Martine ADDA-DECKER, Directeur de Recherche, CNRS, Laboratoire de Phonétique et Phonologie, Paris, rapporteur
  • M. Jean-François BONASTRE, Professeur des Universités, Université d’Avignon, LIA, rapporteur
  • M. Vincent RIALLE, Maître de Conférences-Praticien Hospitalier, Université Joseph Fourier, Grenoble 1, AGIM, examinateur
  • M. Jacques DUCHENE, Professeur des Universités, Université des Technologies de Troyes, examinateur
  • M. Alain ANFOSSO, Ingénieur, CSTB, Nice, examinateur
  • M. Michel VACHER, Ingénieur de Recherche CNRS HDR, LIG, directeur de thèse
  • Mme Solange ROSSATO, Maître de Conférences, Université Stendhal, Grenoble 3, LIG, co-cncadrant de thèse

Environ un tiers de la population française aura plus de 65 ans à l’horizon 2050. Face au manque de places dans les institutions spécialisées pour personnes âgées, le maintien à domicile le plus longtemps possible est un enjeu sociétal et économique majeur qui gagnerait à bénéficier d’une assistance technologique pour soulager le travail des aidants. C’est le but poursuivi par la Maison Intelligente qui est une résidence équipée de technologie informatique pour assister ses habitants dans les situations diverses de la vie domestique aussi bien sur le plan du confort que celui de la sécurité. La reconnaissance automatique de la parole (RAP) pourrait être un apport essentiel dans la détection des situations anormales qui constitue un point essentiel d’un système de surveillance à domicile.

C’est pourquoi, le but des travaux de cette thèse est d’inclure dans le milieu de vie de la personne âgée dépendante et isolée à domicile un système de RAP capable de reconnaître des appels vers les proches ou les aidants et de détecter des appels de détresse prononcés par la personne âgée. Pour ce faire, il sera nécessaire d’adapter les techniques de RAP aux caractéristiques particulières de la voix de ces personnes.
En effet, des études ont montré que les performances des systèmes de RAP diminuent avec les voix âgées car les modèles des systèmes de RAP existants sont majoritairement appris avec des corpus de parole non âgée. De plus, les corpus d’apprentissage sont pour la plupart prononcés de façon neutre et enregistrés dans des conditions idéales. Cependant, en situation réelle, nous sommes loin des conditions idéales, et les appels de détresse seront aussi prononcées de manière expressive. Pourtant, si de nombreuses études portent sur la reconnaissance automatique des émotions, très peu d’études ont été réalisées pour évaluer les performances des systèmes de RAP dans le cas d’une parole exprimée avec des émotions fortes. L’apprentissage des modèles acoustiques et l’évaluation des systèmes de RAP nécessitent des corpus spécifiques adaptés à la tâche et aux locuteurs visés. Or nous constatons l’inexistence de corpus de parole âgée en français adapté au contexte applicatif, c’est-à-dire comprenant d’une part des appels à l’aide mais aussi vers les aidants.
C’est pourquoi, les recherches présentées dans ce manuscrit s’appuient sur trois corpus que nous avons enregistrés. Le premier, AD80, a été constitué à partir d’enregistrements de phrases adaptées à la situation, lues aussi bien par des personnes jeunes que des personnes âgées en institution. Le second est constitué d’entretiens avec des personnes âgées (parole spontanée) tandis que le troisième est composé de voix émues actées (détresse) enregistrées en laboratoire. Une étude phonémique et une étude prosodique des différences entre la voix jeune et la voix âgée ont montré une plus grande dispersion des résultats pour la voix âgée mais aussi la possibilité dans la plupart des cas d’améliorer les performances. Ces résultats nous ont ensuite permis de développer un système de RAP adapté à la tâche qui a été évalué sur corpus. Ce système a été évalué ensuite sur des données enregistrées pendant une expérimentation en situation réelle incluant des chutes jouées dans l’appartement de test DOMUS du LIG par des personnes jeunes et âgées.