Tatiana Lesnikova - Liage de données RDF: Evaluation d'approches interlingues

08:00

Mercredi

Mai

2016

Soutenance de thèse

Lieu :

Montbonnot, INRIA

Organisé par :

Tatiana Lesnikova

Intervenant :

Tatiana Lesnikova

Équipes :

EXMO

Jury :

Prof. Laurent Besacier, Université Grenoble Alpes, France, examinateur
Dr. Nathalie Aussenac-Gilles, MELODI-CNRS, France, rapporteur
Prof. Aldo Gangemi, Université Paris 13, France, rapporteur
Dr. Jorge Gracia del Río, Université polytechnique de Madrid, Espagne, examinateur
Dr. Jérôme Euzenat, INRIA, France, directeur de thèse
Dr. Jérôme David, Université Grenoble Alpes, France, co-directeur de thèse

Le Web des données étend le Web en publiant des données structurées et liées en RDF. Un jeu de données RDF est un graphe orienté où les ressources peuvent être des sommets étiquetées dans des langues naturelles. Un des principaux défis est de découvrir les liens entre jeux de données RDF. Étant donnés deux jeux de données, cela consiste à trouver les ressources équivalentes et les lier avec des liens owl:sameAs. Ce problème est particulièrement difficile lorsque les ressources sont décrites dans différentes langues naturelles.

Cette thèse étudie l'efficacité des ressources linguistiques pour le liage des données exprimées dans différentes langues. Chaque ressource RDF est représentée comme un document virtuel contenant les informations textuelles des sommets voisins. Les étiquettes des sommets voisins constituent le contexte d'une ressource. Une fois que les documents sont créés, ils sont projetés dans un même espace afin d'être comparés. Ceci peut être réalisé à l'aide de la traduction automatique ou de ressources lexicales multilingues. Une fois que les documents sont dans le même espace, des mesures de similarité sont appliquées afin de trouver les ressources identiques. La similarité entre les documents est prise pour la similarité entre les ressources RDF.

Nous évaluons expérimentalement différentes méthodes pour lier les données RDF. En particulier, deux stratégies sont explorées: l'application de la traduction automatique et l'usage des banques de données terminologiques et lexicales multilingues. Dans l'ensemble, l'évaluation montre l'efficacité de ce type d'approches. Les méthodes ont été évaluées sur les ressources en anglais, chinois, français, et allemand. Les meilleurs résultats (F-mesure > 0.90) ont été obtenus par la traduction automatique. L'évaluation montre que la méthode basée sur la similarité peut être appliquée avec succès sur les ressources RDF indépendamment de leur type (entités nommées ou concepts de dictionnaires).

Aximag

Langues

Menu principal

Évènements

Éditorial

Tatiana Lesnikova - Liage de données RDF: Evaluation d'approches interlingues

Formulaire de recherche

Aximag

Langues

Vous êtes ici

Menu principal

Évènements

Éditorial

Tatiana Lesnikova - Liage de données RDF: Evaluation d'approches interlingues