single

La Smart Data, l'utilisation intelligente de la donnée

Pour que la mine d'or du big Data dévoile ses ressources et livre ses promesses, quels sont les gisements de données les plus pertinents, ceux à même d'apporter une vraie valeur à l'entreprise ? Comment y puiser efficacement, sans se perdre dans la masse d'information qui les entourent ? Quelles stratégies adopter enfin pour valoriser les données une fois celles-ci collectées ? C'est pour répondre à ces questions qu'intervient le Smart Data, un concept qui met l'accent sur l'utilisation intelligente de la donnée.
S'intéressant en priorité à la valeur effective des données pour le business, les tenants de ce modèle conseillent de substituer à l'analyse en 3V, son évolution en 5S. C'est à dire :
  • Stratégie (définir en amont les bénéfices attendus de l'usage de la data), 
  • Sourcing (bien circonscrire les bases de données qui seront utilisées pour ne pas s'éparpiller inutilement), 
  • Sélection (trier l'information pour ne pas s'y noyer), 
  • Signifier (donner du sens à la donnée brute en la traitant ou en la faisant traiter), 
  • Symboliser (exprimer la donnée de façon claire notamment en ayant recours à de la data visualization). 
Il s'agit là bien sûr, plus que d'une théorie formelle de la donnée, d'une vision destinée à en simplifier l'approche.

INSUFFLER DE L'INTELLIGENCE DANS SES DONNEES

Elle n'en demeure pas moins une bonne base pour appuyer des projets en restant dans le concret, ce que soulignent les expériences Smart Data de Morgane Castanier (NumericableSFR) et Marie-Laure Cassé(Voyages-sncf.com) :
"Si la notion de Big Data sert à qualifier les technologies autour du traitement de volumes de données de plus en plus massifs, la notion de Smart Data va, quant à elle, surtout désigner la capacité à adresser un use case précis en collectant les données les plus pertinentes et celles qui seront facilement actionnables. C'est un terme qui est plus tourné vers l'efficacité du ciblage que vers l'importance de la volumétrie.
Chez Voyages-sncf, nous avons été amenés à mobiliser des logiques apparentées à du Smart Data à de nombreuses occasions. Par exemple, dans le cadre de notre algorithme de recommandation de destinations, l'un des enjeux consistait à capter les bonnes données afin d'identifier la gare de départ la plus pertinente pour notre internaute, ce qui devait permettre de lui adresser, par la suite, des recommandations associées de qualité.
La recherche de pertinence est un enjeu fort quand on est confronté à une grosse masse de données, le risque étant, dans ces cas là, de se perdre dans la profusion de data. Mon souci constant est de garantir l'alignement systématique de nos approches scientifiques et technologiques avec les enjeux et la stratégie business. Le Smart Data, c'est d'abord s'efforcer de rester très pragmatique !"

Cependant, attention à ne pas être dupes, derrière le terme séduisant de Smart Data se cache souvent une façon de marketer des produits et des solutions qui, au final, n'ont rien de révolutionnaire. Voilà ce contre quoi met en garde Jean-François Marcotorchino (Thales Communications et Sécurité) :

INTERVIEW : Thales Communications et Sécurité Jean-François Marcotorchino

"Aujourd'hui, beaucoup d'acteurs du marché dans ce domaine très « buzzy » des Big Data proposent des services et des outils d'analyse qui relèvent de ce qu'on appelait il n'y a pas si longtemps « le Business Intelligence » voire au mieux le « Data Mining » (avec comme applications vedettes dans le B2C : le CRM, la segmentation de clientèle, le Cross Selling, l'attrition etc.). Ceci bien que toujours utile, n'est pas ce qu'on entend aujourd'hui par Big Data."


D'ailleurs, parce qu'ils l'ont bien compris et qu'ils en sont bien conscients, ces spécialistes ou acteurs vont utiliser le terme de « Smart Data » pour qualifier cette façon de faire du traitement statistique de données qui est en réalité la même… qu'il y a quinze ans (échantillonnage et population à analyser de taille raisonnable et non gigantesque), car beaucoup d'algorithmes utilisés dans ce contexte sont non linéaires et de fait ne sont donc pas « scalables ».