single

     

Data Lake : l'outil indispensable de la vision Client 360° ?

Par Jacques Milman et Laurent Sergueenkoff, IBM

« Il y a un peu plus d'un an, nous avions déjà organisé un atelier autour du sujet data lake. Sur une vingtaine de participants présents, seuls deux ou trois avaient lancé des projets data lake, mais les autres participants avaient envie de faire de même. L'idée, pour la majorité, était de construire un data lake rassemblant l'ensemble des données de l'entreprise... Or, depuis, il est apparu que ceux qui menaient une telle initiative avaient bien des difficultés à progresser. Ils se heurtent à des problématiques liées à la sécurisation, à la gouvernance, à la confidentialité des données... Autant de freins à l'agilité.

En revanche, ceux qui avaient mis en place un data lake plus thématique (IoT ou CRM, par exemple) avancent bien plus rapidement. Les premiers succès qu'ils rencontrent sur des thèmes bien précis permettent de déclencher un effet boule de neige" et le data lake s'ouvre progressivement à d'autres sujets. Ce qui a été mis en place pour le sujet de l'IoT donne envie aux autres entités d'utiliser le data lake pour leurs cas d'usage... »

LE DATA LAKE ET LE DEFI DU TEMPS REEL

Un avantage fréquemment associé au data lake est celui du temps réel. Mais comme l'observe Fatma Kourar (Canal + Distribution), s'il ne s'agit que de stocker en temps réel des données brutes inexploitables, cela n'a pas d'intérêt. « Le data lake m'a été avant tout présenté en mettant en avant la possibilité d'un stockage temps réel, quitte à se passer d'une partie de l'intelligence apportée par les retraitements/enrichissements. Cela pose un problème, car la stratégie déployée autour du client ne peut se faire uniquement avec des données brutes à mon sens à l'heure de la personnalisation...

Le temps réel ne se suffit pas. Et apporter de l'intelligence à la donnée coûte en temps de calcul. » Il est donc important de prendre conscience que « faire un data lake n'est pas une fin en soi : le projet est lancé pour servir certains usages bien identifiés. Vouloir tout collecter, tout réconcilier pour prévoir tous les usages, ce n'est pas réalisable.

Au contraire, le cas d'usage doit toujours être un point de départ à partir duquel il convient de construire l'ensemble de la chaîne » (Pierre Harand, fifty-five). Car Jacques Milman d'IBM le rappelle, « il est difficile de fournir une définition précise du data lake. C'est avant tout une plateforme qui va permettre d'intégrer l'ensemble des données et de les partager. Ensuite, des services peuvent s'intégrer à cette plateforme : machine learning, indexation, search, découverte... »

DATA LAKE OU DATA WAREHOUSE ?

Lorsque le terme "data lake" a émergé, il était fréquemment confondu avec celui de "data warehouse". Il semble s'en être suivi un second temps, qui voit les deux modèles s'opposer, comme s'ils étaient concurrents. Laurent Sergueenkoff clarifie la distinction « Dans un data warehouse "traditionnel", il y aura plutôt des données structurées, alors qu'un data lake peut accueillir tous types de données. Autre bénéfice du data lake : les technologies actuelles permettent de stocker dans un format brut d'immenses volumes de données. Les capacités de traitement peuvent directement être implantées sur le data lake, avec des technologies Hadoop. »

Il n'empêche que les deux modèles peuvent parfaitement co-exister. C'est par exemple le cas chez Yves Rocher Laboratoires, ou David Ramond témoigne qu'en « en termes d'architecture cible, l'idée consisterait plutôt à mettre en ?uvre une architecture hybride :

- D'une part, un data lake à même de stocker de grands volumes de données à un coût raisonnable, avec peu ou pas de transformation de la donnée brute, permettant d'être le plus agnostique vis-à-vis des futurs modèles de données de l'entreprise ;

- D'autre part, un data warehouse qui gère une couche sémantique et qui permet d'exposer les données métier structurées, contrôlées et avec un niveau de service élevé. »

Yves Rocher Laboratoires ne s'arrête pas là. David Ramond confie ainsi qu' « il est également envisagé de mettre en oeuvre des data hubs dédiés à des usages spécifiques. Par exemple, il peut s'agir d'utiliser la puissance de calcul du data lake pour consolider à la volée une vision 360 du client à partir des éléments de signalétiques, de comportements d'achats, de contacts CRM, etc. et d'exposer cette vue via une API à des fins opérationnelles. »

UN DATA LAKE, OUI MAIS POUR QUOI ?

Vincent Nicolas (Ubisoft) en convient également, le data lake n'est « certainement pas un substitut au data warehouse. Les deux éléments sont totalement complémentaires. Le data lake offre la possibilité de "jouer" et de faire des scorings avec des données très variées (ce que l'on ne peut pas faire dans un data warehouse) et avec une puissance incroyable. » Ce qui ramène à la conclusion qu' « avoir un data lake n'est pas une fin en soi » (Jérôme Durand, Ubisoft). Car « la data science va directement chercher les données dans le data lake quand elle a une idée précise de ce qu'elle cherche, ou le trouver et comment l'interpréter. Sinon, mieux vaut passer par l'IT ou le créateur de la donnée pour générer des tables d'analyse dans un data warehouse. (...)

Le débat intéressant porte surtout sur ce que l'on fait de la donnée, quelle que soit la techno placée derrière. » Quels sont justement ces usages de la donnée qui pourraient justifier d'un recours à ce nouvel outil surpuissant ? « Pour nous, confie César Lagarde (Bouygues Telecom), dans l'objectif de créer des campagnes CRM, le data lake vise surtout à garantir la transparence sur une information pour toutes les parties prenantes. Il y a donc une différence entre l'étude de la connaissance client et l'interopérabilité directe de la donnée. » « Au final le data lake peut être intéressant au plan de la vision client », reconnaît César Lagarde.

UNE TRANSFORMATION EN 3 ETAPES

Le pré-requis absolu, lorsque l'on veut s'équiper d'un data lake, c'est donc de réfléchir d'abord à l'usage. Et quel qu'il soit, plusieurs éléments connexes sont également à prendre en compte dans le déploiement de cet outil qui est « tout sauf plug and play » (Pierre Harand, fifty-five).

Tout d'abord, « il faut considérer l'outil dans son environnement technique : quels sont les flux de données entrants et sortants ? » Deuxièmement, « la question organisationnelle est également majeure, avec la mise en place d'une gouvernance. » Le troisième point à poursuivre, et c'est l'objectif final, c'est de demander du data lake qu'il serve à « mettre la data dans les mains des opérationnels » (Anne-Sophie Gimenez). « Par exemple, un commercial doit pouvoir accéder en un clic à une vue à 360 degrés du client qu'il a en face de lui. Le point fort de ce dispositif, c'est la réactivité.

L'idée serait de crawler les données, ou qu'elles soient, sans pour autant se poser la question du format utilisé. » En corollaire, cela pourrait avoir pour effet de favoriser le développement d'une data science au service des métiers. Florian Servaux (Coyote) observe ainsi que « la problématique se situe plutôt sur les performances à traiter la données brute et la capacité à comprendre la donnée d'un point de vue métier. (...) Selon moi, le data scientist doit avant tout pouvoir partir de la vision métier de la donnée. » Dans cette perspective, Florian Servaux préconiserait plutôt, « pour les entreprises disposant par exemple d'une équipe BI (...), de partir de structures BI traduisant les données brutes en données Métier. »

Pour consulter l'ensemble du livret, cliquer ici