Expansion and Enrichment of the OntoSIDES Knowledge Graph using Text Mining
Required French level : B2 or C Duration: one year (from April 1st 2019)
Person to contact: Marie-Christine.Rousset@imag.fr
Description (in French): OntoSides formalise, sous la forme d’un graphe RDF, les différents types d’activité de formation et d’entrainement des étudiants en Médecine qui utilisent la plateforme nationale SIDES. La structuration sous forme de classes permet une description à différents niveaux de granularité, allant de l’action de répondre d’un étudiant donné à une question particulière, jusqu’à une vision agrégée au niveau d’une épreuve ou d’un ensemble d’épreuves, pour un étudiant donné ou pour un groupe d’étudiants, ou d’un ensemble de questions relatives à un item du programme.
Le niveau de granularité le plus fin correspond aux instances des classes les plus spécifiques (comme les classes Question, ActionDeRepondre, ItemReferentielECN, etc …). Une instance est représentée par un identifiant (appelé URI) associé à un « label » (texte en français et en anglais) et est décrite par un certain nombre de propriétés (par exemple : a_pour_description, a_pour_question, a_pour_intitule, est_lie_a_l-entite_referentiel_ECN ). Certaines de ces propriétés ont une valeur textuelle. D’autres relient deux identifiants et représentent donc des relations par exemple entre une action de répondre (effectuée durant une épreuve horodatée) et une question (reliée à un item du référentiel ECN).
L’objectif de ce travail de posdoctorat est d’exploiter des ressources existantes variées (aussi bien des ontologies médicales standardisées que des pages Wiki spécialisées) et des techniques de fouille de textes pour étendre et enrichir OntoSIDES. Il s’agira d’une part de découvrir des liens entre des entités présentes dans OntoSIDES et des concepts d’ontologies externes, et d’autre part d’inférer des valeurs manquantes de propriétés non renseignées pour certaines instances. Par exemple, dans l’état actuel, sur les 500.000 questions présentes dans OntoSIDES, seules 10% d’entre elles sont reliées explicitement à une spécialité médicale ou à un item du programme officiel de l’Examen Classant National (ECN) en Médecine.
Les points d’accroche pour appliquer des techniques de fouille de textes sont, d’une part, les valeurs textuelles de certaines propriétés décrivant les instances (comme l’intitulé d’une question, et de ses propositions de réponses, ou la description d’un dossier progressif) et, d’autre part, le contenu textuel de pages Web associées au Wiki-SIDES (alimenté par les enseignants de Médecine) et aux différents concepts ontologies médicales existantes.
La complétion de OntoSIDES est essentielle pour la justesse de l’analyse ultérieure des données et la pertinence des recommandations qui doivent être calculées sur des données les plus complètes possibles. La valeur ajoutée du liage de OntoSIDES avec des ontologies médicales est d’enrichir le contenu pédagogique actuel par un contenu de référence dans le domaine biomédical internationalement validé et partagé.
Les compétences requises pour mener à bien ce travail sont une bonne connaissance des techniques de recherche d’information et des technologies du Web sémantique (RDF, RDFS règles, SPARQL).