single

Les data et la gestion des données

D'une part il y a les fichiers excel, bases de données clients, CRM, produits ou de gestion et de l'autre les fichiers textes, images, vidéos, ou logs. Qu'elles soient structurées ou non structurées, les données que doivent aujourd'hui traiter au quotidien les entreprises se caractérisent par une grande hétérogénéité de formats et de sources. Cette variété est d'ailleurs ce qui saute aux yeux de qui veut se faire une vision globale de ses data, comme a pu le constater Yoan Denée (Prisma Média).

INTERVIEW : Prisma Media Yoann Denée

"Un des premiers objectifs pour permettre la valorisation des données chez Prisma a été de procéder à un inventaire de toutes les sources de data. Celles-ci sont très hétérogènes et viennent de natures et de business différents : base abonnés payante, base abonnés newsletters gratuites, applications et services gratuits et/ou payants, communautés, membres de sites web, et un grand nombre d'autres affluents plus petits."

A cette grande richesse de données déjà présentes dans le système d'information des entreprises, vient s'ajouter la diversité de celles qui peuvent être récupérées à l'extérieur, via des processus comme le Data mining. Voilà de quoi complexifier encore les choses, si l'on en croit Pascale Dulac (France Loisirs) :
"Travailler avec des données qui ne viennent plus de chez nous et de nos propres systèmes d'information, mais qui sont récupérées à l'extérieur (réseaux sociaux, chat collaboratif, réponses à des questions ouvertes adressées à nos clients), qui ne sont pas structurées de la même façon que les data internes, et qui ne rentrent donc pas forcément dans les cases que nous avions nous mêmes définies, cela implique un changement de fond dans la façon de travailler."

Pour espérer tirer de la valeur de ces agrégations de data internes et externes, et exploiter efficacement la masse de plus en plus importante de données non structurées (environ 80% des données dans le monde se rangent sous cette catégorie), les méthodes traditionnelles ne suffisent plus. Ainsi, si l'on ne veut pas que la variété de la donnée devienne un obstacle, il va être nécessaire de mettre en place de nouvelles solutions empruntées au monde des big Data.

INTERVIEW : Thalès Communications et Sécurité Jean-François Marcotorchino

La question de la variété des données analysées reste un problème fondamental, et l'hétérogénéité des données, un vrai frein à leur exploitation tous azimuts. On sait pratiquer facilement la juxtaposition de données, le croisement de bases de données et de fichiers, et éventuellement la fusion à certains niveaux de cohérence mais l'exploitation simultanée et mélangée de données de types différents par des algorithmes unifiés a longtemps été un fossé à la méta-analyse. Aujourd'hui, il apparaît néanmoins malgré de gros progrès faits, qu'il y a de plus en plus une attente vis-à-vis de cette capacité à exploiter en même temps des données de nature différente. Mais cette exploitation ne se fera pas de façon similaire en fonction des différents types de données exploitables.

Au-delà de la mobilisation de nouveaux outils, la capacité à résoudre efficacement le problème de la variété va aussi dépendre de la capacité de l'entreprise à mettre en place une data gouvernance adaptée. C'est sur ce dernier point qu'insiste Pierre-Yves Lastic (Sanofi).

INTERVIEW : Sanofi Pierre-Yves Lastic

"De même qu'aujourd'hui les essais nucléaires ne sont plus réalisés sur le terrain avec de vraies bombes mais par ordinateur, le secteur de la biologie humaine tente de mettre en place des essais cliniques virtuels. Ces simulations nécessitent de mettre en commun des données variées, venant de la recherche fondamentale en les corrélant avec des données cliniques issues du monde du soin. Les caractéristiques de ces données ne sont pas les mêmes, et les faire communiquer nécessite donc de veiller au préalable au bon respect des règles quiles encadrent, et peuvent varier."