Explosion des données collectées et des moyens d'analyse

 

L’explosion des objets connectés ouvre la porte à une collecte et des interactions en quasi temps-réel au prix d’une explosion des volumes de données d’usage recueillies, stockées et analysées. La technologie, quant à elle, ouvre des perspectives révolutionnaires, tant en termes de faisabilité que de coût de possession, aux problématiques de gestion de très hauts volumes de données, d’analyse et de croisement de ces volumes de données et enfin de rapidité de traitements analytiques.

 

Les composantes pour l’exploration des données

 

Ces ruptures sans précédent constituent autant d’opportunités stratégiques pour les organisations en général et pour les Directions Informatiques en particulier. Pour les saisir, il convient de se doter de moyens (technologies, processus et compétences) pour collecter, nettoyer, appareiller, explorer, analyser et restituer la connaissance sur des volumes de données qui vont exploser de manière exponentielle au gré de l’accélération des déploiements d’objets connectés. Sur le plan des outils, les composantes essentielles sont à notre sens :

Un référentiel central des données : il s’agit de déverser les données d’entreprise et les données d’usage et de parcours digitaux dans un data lake centralisé évolutif horizontalement pour supporter une croissance exponentielle des volumes, des utilisations et des contraintes de latence. Ce data lake doit proposer des moyens avancés pour rechercher des données et évoluer rapidement afin d’absorber à moindre coût de nouveaux flux ou de nouveaux liens.

Un laboratoire agile : dotées d’accès à ces gisements de données, d’outils d’exploration, de visualisation et d’analyse adéquats, les équipes de data scientists devront apporter rapidement des réponses aux nouveaux besoins exprimés par les métiers avec un maximum d’autonomie. Ceci requiert une capacité à comprendre les besoins des métiers, à concevoir des plans d’études, à manipuler les données, à élaborer des modèles mathématiques et à en communiquer les résultats aux métiers sous une forme intelligible.

Un socle d’industrialisation : que ce soit en sortie du laboratoire agile, à l’occasion du décommissionnement d’un SI ou de la réponse à un nouveau besoin, le référentiel central des données a vocation à irriguer en données brutes ou transformées des systèmes d’informations industriels (au sens où ils sont en production et soumis aux contraintes d’exploitation et d’administration) que ce soit à des fins de reporting, de prévisions ou d’interactions.

Une gouvernance des données : toutes les organisations ont vocation à évoluer dans leur cœur de métier pour devenir également fournisseur de données internes, tant en central qu’en local, ainsi qu’externes (clients, fournisseurs, collectivités, open data…). Ceci passe par la mise en place d’une véritable gouvernance des données : cycle de vie, valeur, qualité, règle de calcul, propriété, accessibilité, conservation, anonymisation, auditabilité, documentation