Aujourd’hui, les données sont hétérogènes, nombreuses et de sources multiples. Un défi majeur est d’extraire de l’information de ces données et de la connaissance des informations afin de permettre des prises de décisions intelligentes. Notre recherche est centrée autour de ce défi et étudie un ensemble de problèmes tels que 1) comment organiser et fouiller les données de manière efficace; 2) comment mieux impliquer les humains dans le processus d’acquisition des données et dans l’évaluation des applications; 3) comment découvrir les connaissances à partir de données provenant de sources multiples; 4) comment raisonner sur la sémantique de données multi-sources pour développer de nouvelles méthodes d’accès.
Notre approche est centrée données et développe des algorithmes et infrastructures qui passent à l’échelle des données et qui permettent le traitement et la fouille, le liage, l’accès basée sur les ontologies, et le crowdsourcing. Notre recherche commence par l’acquisition de données de différents domaines et de tout type allant de données personnelles (ex., le Web social, la santé) à des données provenant de traces d’exécution de micro-processeurs, en passant par des données du Web sémantique.
Notre recherche cible deux types d’utilisateurs: des experts qui s’intéressent à l’exploitation des données et à l’extraction de valeur de gros volumes de données; des utilisateurs novices qui s’intéressent à la recherche d’information et à la recommandation de contenu.
Notre axe de traitement et de fouille de données (D pour Discovery dans SLIDE) couvre la fouille de motifs. les algorithmes de fouille génériques, les infrastrcutures de fouille parallèles telles que MapReduce et les processeurs manycore ainsi que l’analyse des données des médias sociaux. Nos modèles et algorithmes combinent la fouille de données avec l’indexation multi-dimensionnelle pour découvrir de l’information à partir de données brutes. Nos applications destinées aux utilisateurs experts permettent une exploration avancée des données telle que la fouille interactive et l’exploration basée sur les ontologies. Dans cet axe, nous développons également un cadre de préparation des données (algèbre et algorithmes) pour le nettoyage et la transformation de gros volumes de données en des données exploitables. Nous développons également un cadre de crowdsourcing qui optimise l’acquisition des données d’utilisateurs en ligne. Enfin, nous développons des extensions de Datalog pour exprimer et inférer le liage de données provenant de sources multiples.
Notre axe exploitation (E pour Exploitation dans SLIDE) couvre le développement d’algorithmes de jointure distribués. Nous combinons le partitionnement et le placement de données avec des algorithmes de jointure traditionnels pour la conception de techniques de traitement de données efficaces sur des infrastructures parallèles et distribuées. Nous développons aussi des algorithmes d’accès aux données basés sur les ontologies qui permettent aux analystes l’exploration de gros volumes de données à l’aide de concepts haut niveau. Nos applications destinées aux utilisateurs novices sont basées sur des algorithmes de recherche d’information et de recommandation allant de la recherche de résultats pertinents et divers à la définition et l’implantation de nouvelles sémantiques de recommandation incluant les réseaux sociaux et des fonctions diverses de similarité entre les utilisateurs.
Un grand nombre de nos applications sont évaluées en utilisant des méthodes empruntées au domaine de recherche d’information et d’apprentissage automatique. Nous explorons aussi le crowdsourcing pour l’évaluation des applications. Un de nos axes récents est la conception et l’implantation de modèles et algorithmes pour l’acquisition efficace de données et l’évaluation des applications via le crowdsourcing. Nous nous penchons particulèrement sur l’assignation de tâches aux travailleurs dans un contexte de crowdsourcing en optimisant les facteurs humains tels que l’expertise des travailleurs et leur disponibilité.