Gilles Sérasset, membre de l’équipe GETALP, a participé au "Monnet Challenge" dont le but était d’encourager la production de "Linked Data" Lexical. Pour ce challenge, il a mis en avant les données de "dbnary", un système d’extraction des données lexicales présentes dans 6 éditions de wiktionary (allemand, anglais, finnois, français, italien et portuguais).
Avec ces données, il a été déclaré vainqueur du challenge...
Seules les données propres à chacune des langues sont extraites (les entrées anglaises présentes dans le wiktionary français sont ignorées). Actuellement, les définitions, les relations lexico-sémantique et les traductions sont extraites.
Les données sont disponibles sous forme de "Linked Data", structurées selon le format "lemon", un standard en cours de proposition, largement inspiré de LMF.
Les extraits sont construits à chaque dump des wiktionnaires afin de suivre l’évolution des données (et celle de l’extracteur). En moyenne, chaque langue a une extraction tous les 10 jours. L’ensemble des données extraites est disponible au téléchargement surhttp://kaiko.getalp.org/dbnary/stat... au format TURTLE (un format concret standard pour les données RDF). Comme tout "linked data" on peut aussi interagir en direct avec ces données de différentes manières :
- 1. Directement en tapant l’URI d’un objet lexical (par exemple : le vocable "bleu", l’entrée lexicale bleu-nom ou le sens)
- 2. en utilisant le langage de requêtes SPARQL à http://kaiko.getalp.org/sparql par exemple, la requête :
SELECT ?g COUNT(*) { GRAPH ?g { ?s ?p ?o.} } GROUP BY ?g ORDER BY DESC 2
donnera le nombre de relations de chaque graphe présent dans la base.
- 3. en utilisant le "facetted browser" qui propose différentes manière de voir les données.
Gilles Sérasset continuera à travailler à l’extractions d’autres données (morphologie de l’allemand par exemple) et à l’extension de la couverture en terme de langues.
Voir le texte envoyé au Monnet Challenge :