Jury :
- M. Andrea Tettamanzi - Professeur, Université Nice Sophia Antipolis - Rapporteur
- M. Mohand-Said Hacid - Professeur, Université Claude Bernard Lyon 1 - Rapporteur
- Mme. Marie-Laure Mugnier - Professeur, Université de Montpellier 2 - Examinateur
- M. Jérôme Euzenat - Directeur de Recherche, INRIA Rhône-Alpes - Examinateur
- Mme. Marie Christine Rousset - Professeur, Université Joseph Fourier (Grenoble 1) - Directeur de thèse
- M. Manuel Atencia - Maître de Conférence, Université Pierre Mendès-France (Grenoble 2) - Codirecteur de thèse
Dans cette thèse, nous étudions plusieurs approches destinées à aider les utilisateurs à trouver des informations utiles et fiables dans le Web de données, en utilisant les technologies du Web sémantique. Nous abordons pour cela deux thèmes de recherche: le liage de données dans le Linked-Data et la confiance dans les réseaux P2P sémantiques.
Nous modélisons le problème de liage dans le Web de données comme un problème de raisonnement sur des données incomplètes, qu’il s’agit d’enrichir en interrogeant de façon précise et pertinente le cloud du Linked Data. Nous avons conçu et implémenté un nouvel algorithme qui, à partir d’une requête de liage (du type <p1 , sameAs, p2> et d’une base de règles modélisant de manière uniforme diverses connaissances du domaine (contraintes du schéma, axiomes d’inclusion ou d’exclusion d’une ontologie, règles expertes, mappings), construit itérativement des requêtes SPARQL pour importer des sources externes pertinentes du Linked Data les données utiles pour répondre à la requête de liage. Les expérimentations que nous avons menées sur des données réelles ont démontré la faisabilité de cette approche et son utilité dans la pratique pour le liage de données et la résolution d’homonymie. En outre, nous proposons une adaptation de cette approche pour prendre en compte des données et des connaissances éventuellement incertaines, avec en résultat l'inférence de liens ‘sameAs’ et ‘differentFrom’ associés à des poids de probabilité. Dans cette adaptation nous modélisons l'incertitude comme des valeurs de probabilité. Nos expérimentations ont montré que notre approche passe à l’échelle pour des bases de connaissances constituées de plusieurs millions de faits RDF et produit des poids probabilistes fiables.Concernant la confiance, nous introduisons un mécanisme de confiance permettant de guider le processus de réponse aux requêtes dans des Réseaux P2P sémantiques. Les différents pairs dans les réseaux P2P sémantiques organisent leur information en utilisant des ontologies distinctes et d épendent d’alignements entre ontologies pour traduire leurs requêtes. La notion de confiance dans un tel contexte est subjective ; elle estime la probabilité qu'un pair apportera des réponses satisfaisantes pour les requêtes spécifiques dans les interactions futures. Le mécanisme proposé de calcul de valeurs de confiance combine les informations fournies par les alignements avec celles provenant des interactions passées entre pairs.Les valeurs de confiances calculées sont affinées progressivement à chaque cycle de requête/réponse en utilisant l'inférence bayésienne. Pour l'évaluation de notre mécanisme, nous avons construit un système P2P de partage de signets sémantiques (TrustMe) dans lequel il est possible de faire varier différents paramètres quantitatifs et qualitatifs. Les résultats expérimentaux montrent la convergence des valeurs de confiance ;.ils mettent également en évidence le gain en terme de qualité des réponses des pairs - mesurées selon la précision et le rappel- lorsque le processus de réponse aux requêtes est guidé par notre mécanisme de confiance.