Tatiana Lesnikova - Liage de données RDF: Evaluation d'approches interlingues

08:00
Mercredi
4
Mai
2016
Organisé par : 
Tatiana Lesnikova
Intervenant : 
Tatiana Lesnikova
Équipes : 

Jury :

  • Prof. Laurent Besacier, Université Grenoble Alpes, France, examinateur
  • Dr. Nathalie Aussenac-Gilles, MELODI-CNRS, France, rapporteur
  • Prof. Aldo Gangemi, Université Paris 13, France, rapporteur
  • Dr. Jorge Gracia del Río, Université polytechnique de Madrid, Espagne, examinateur
  • Dr. Jérôme Euzenat, INRIA, France, directeur de thèse
  • Dr. Jérôme David, Université Grenoble Alpes, France, co-directeur de thèse
     

Le Web des données étend le Web en publiant des données structurées et liées en RDF. Un jeu de données RDF est un graphe orienté où les ressources peuvent être des sommets étiquetées dans des langues naturelles. Un des principaux défis est de découvrir les liens entre jeux de données RDF. Étant donnés deux jeux de données, cela consiste à trouver les ressources équivalentes et les lier avec des liens owl:sameAs. Ce problème est particulièrement difficile lorsque les ressources sont décrites dans différentes langues naturelles.

Cette thèse étudie l'efficacité des ressources linguistiques pour le liage des données exprimées dans différentes langues. Chaque ressource RDF est représentée comme un document virtuel contenant les informations textuelles des sommets voisins. Les étiquettes des sommets voisins constituent le contexte d'une ressource. Une fois que les documents sont créés, ils sont projetés dans un même espace afin d'être comparés. Ceci peut être réalisé à l'aide de la traduction automatique ou de ressources lexicales multilingues. Une fois que les documents sont dans le même espace, des mesures de similarité sont appliquées afin de trouver les ressources identiques. La similarité entre les documents est prise pour la similarité entre les ressources RDF.

Nous évaluons expérimentalement différentes méthodes pour lier les données RDF. En particulier, deux stratégies sont explorées: l'application de la traduction automatique et l'usage des banques de données terminologiques et lexicales multilingues. Dans l'ensemble, l'évaluation montre l'efficacité de ce type d'approches. Les méthodes ont été évaluées sur les ressources en anglais, chinois, français, et allemand. Les meilleurs résultats (F-mesure > 0.90) ont été obtenus par la traduction automatique. L'évaluation montre que la méthode basée sur la similarité peut être appliquée avec succès sur les ressources RDF indépendamment de leur type (entités nommées ou concepts de dictionnaires).