Avec la prolifération des appareils connectés (smartphones, capteurs, etc.), de plus en plus de sources de flux de données émettent des données en temps réel avec des fluctuations du débit d'entrée et de la distribution des valeurs au fil du temps. Le traitement de ces flux tout en respectant certaines contraintes de qualité de service (QoS) soulève des problèmes de Big Data (variété et rapidité) dans un contexte temps réel. Le besoin de collecter l’information a des fins de supervision est désormais devenu essentiel. Dans un objectif de passage a l’échelle, l’échantillonnage avisé semble être une solution pertinente pour fournir une brique de base de ces applications. Nous considérons dans cet exposé le problème de l'échantillonnage des données dans les systèmes à grande échelle en présence d'un adversaire puissant, en temps réel, dans le contexte de fenêtres glissantes. Deux résultats complémentaires seront présentés, permettant soit d’uniformiser la probabilité de sélection des données en entrée, ou la détection et la sélection automatique des données issues du top-k.
Références :