poor data

Comment libérer le potentiel de l’IA si les données sont pauvres en qualité ? Tel est le défi posé à la technologie et la mission critique du master data management. La qualité des données est une priorité à la mesure d’une transformation digitale devenue vitale pour l’entreprise.

Automatisation de processus, RPA et IA sont des technologies prometteuses à fort potentiel dans le traitement de données, mais fondamentalement limitée par la faible qualité ou l’inexactitude des informations avec lesquelles ces systèmes opèrent. Les coûts de non qualité dus à la médiocrité des données gérées quotidiennement représentent des sommes considérables et inacceptables pour les entreprises.

La qualité des données est le facteur limitant le plus important dans la réussite d’un plan de digitalisation et la recherche d’une plus grande automatisation des processus. La question du nettoyage des données (data cleansing) n’est pas nouvelle et constitue un prérequis incontournable si l’on veut qu’en aval que les décisions qui en découlent soient cohérentes. La détection et la correction des erreurs est devenue un domaine clé du master data management.

Un problème majeur des systèmes de données est qu'ils sont de plus en plus décentralisés multiples et virtualisés; les coûts de nettoyage deviennent alors prohibitifs. Naissent alors des processus itératifs qui impliquent souvent que des enregistrements inexacts soient traités et intégrés avant même d'être validés, ce qui entraîne une escalade des coûts de gestion dans le traitement des erreurs. Ces coûts sont largement sous-estimés car l’impossibilité de validation en amont fait que les erreurs sont entrainées en aval des processus et deviennent difficiles à identifier, tracer et corriger en remontant à la source à travers plusieurs systèmes et opérations. La tentation est forte pour le data scientist d’exporter les données dans Excel pour les retraiter manuellement. Ce processus manuel est fastidieux et limite les gains obtenus de la numérisation et de l’automatisation, ajoutant encore au potentiel d'erreur le facteur humain. L’analyse est rendue délicate par l’aléa et le caractère non fiable de certaines données. Selon l’étude Forrester (1) 38% des entreprises (sur 235 sondées) passent plus de 30% de leur temps à valider les données.

Vers une nouvelle ère de la qualité des données

La technologie fait du nettoyage des données post-activité une approche révolue et largement dépassée par les avantages offerts par les réseaux intelligents. Grâce à la technologie, les entreprises sont maintenant en mesure de tirer le meilleur parti de la puissance d’outils de validation et d’analyse intégrés directement à des réseaux intelligents (smart network). En validant les données par le biais de règles prédéfinies avant que les données ne soient intégrées dans le système, ils réduisent le temps de réponse et augmentent l'efficacité. Le nettoyage ex-post devient inutile. Un exemple est donné par l’opérateur de service de dématérialisation qui va opérer une validation et un formatage des données provenant d’un fournisseur avant intégration dans l’ERP de son client ; autre exemple, le PIM (Product information management) très utilisé dans la santé ou l’alimentaire, va synchroniser les données d’un partenaire commercial avec un référentiel de produits servant de master data à l’ensemble d’une communauté.

Une des conclusions de l’étude Forrester est que cette stratégie doit être fondée sur un écosystème. En effet, la variété des systèmes, l’accroissement du volume de données, l’hétérogénéité des formats constituent un défi pour les systèmes de validation. A plus grande échelle, un des écueils du MDM qui consiste à renommer, éliminer ou dédoublonner certaines données se rencontre désormais à une échelle plus grande. L’ERP ne suffit plus et un traitement en profondeur, devient indispensable.

Une première approche consiste à s’entendre au sein de cette communauté sur le choix de standards ou de référentiels communs mais cette approche trouve aussi ses limites car elle se heurte très vite aux spécificités et exigences sectorielles. Des réseaux intelligents intégrant des outils de validation prennent le relais et permettent alors aux entreprises de tirer tous les bénéfices de leur master data. En offrant par exemple un système de vérification de la conformité ou l’imposition de références précises dans les commandes clients ou les factures fournisseurs. Si le master data est correctement défini dans toutes ses composantes et dispose de données pertinentes, il devient alors le composant essentiel du système de données de l’entreprise. Il révèle alors tout le potentiel de l'automatisation des processus RPA, de l'IA et du machine learning.

Qualité des données et MDM sont intimement liés

S’il est possible de conduire un projet qualité des données sans master data, l’inverse n’est pas vrai. A petite erreur grand dommage. En effet, le master data en tant que cœur du SI intègre le référentiel et l’ensemble des règles. Il est lui-même soumis à d’autres règles de gouvernance (propriété, production, mise à jour, évolution, criticité, risque etc.) comme à des politiques de gestion (sécurité, privacy, confidentialité, secret économique etc.) Le master data en tant que pivot du système de données de l’entreprise rend ensuite possible toutes les transformations, l’inférence de nouvelles règles, le passage de données brutes au données agrégées ou structurées ; facilite le reporting, l’analyse (data analytics) l’identification des écarts, voire le prédictif etc. Nous rejoignons à ce stade le domaine ou l’IA peut exercer toute sa pertinence.

Prenez le cas de données clients. Les données sont stockées dans des silos multiples, des systèmes hétérogènes sont maintenus par des services différents tels que la marketing, les ventes, le support technique, le delivery etc. Ceux qui ont effectué ce travail découvrent qu’il existait souvent plusieurs enregistrements de clients pour chaque emplacement de compte client dans des applications telles que Salesforce, l’ERP ou le système de commande client.

Quels gains attendre ?

La qualité des données augmente la productivité et génère des gains de temps mesurables, tout en rationalisant et en accélérant les processus. La qualité des données n'a pas seulement pour but de réduire les coûts. La qualité permet d’insuffler une nouvelle agilité à l’entreprise. Les services gagnent en visibilité alimentant de nouvelles initiatives métier, l'amélioration de l'expérience client, l'augmentation des ventes croisées, la dynamisation du chiffre d'affaires par l'amélioration des produits et services, le développement d'innovations ouvrant la voie à de nouveaux marchés, ou encore la promotion d'informations décisives, plus rapidement exploitables. A l’ère de l’IOT (2) et des objets connectés ce travail est névralgique pour libérer tout le potentiel de l’IA sans lequel aucun résultat ne sera réellement exploitable. Malheureusement, la plupart des données qui touchent les entreprises ne sont ni structurées ni classifiées. Elles ne sont donc pas adaptées à l'apprentissage supervisé « machine learning » et encore moins au « deep learning ».

« A key benefit of Deep Learning is the analysis and learning of massive amounts of unsupervised data, making it a valuable tool for Big Data Analytics where raw data is largely unlabelled and un-categorized (3) » .

Un Master Data de qualité facilite grandement la mise en conformité du SI. Le règlement sur les données personnelles s’inscrit dans une logique de veille active et continue. Savoir où résident vos données sensibles et où elles sont utilisées. Le master data vous permet de prouver que vos données sont utilisées en conformité et que vous savez les sécuriser. Enfin le master data simplifie la réalisation de processus documentés toujours requis dans les phases d’audit.

Le travail sur la qualité du MDM est donc indispensable pour réduire les coûts d’implémentation de politiques comme le RGPD fortement impactantes pour le SI, tout en permettant de garantir à l’entreprise une conformité permanente et une réactivité immédiate à la survenance de nouvelles mesures. De ce point de vue, le MDM rend possible la gouvernance sur les données.

D’une révolution à l’autre, digitale cette fois, la data représente cet or noir de l’ère numérique. Les données sont aujourd’hui et demain encore plus, appelées à investir progressivement tous les domaines de l’économie et de l’entreprise. Ne pas gérer ses données reviendrait à ne pas disposer d’Internet. Pour organiser et exploiter les données, le MDM est au cœur des décisions et permet le redéploiement agile des politiques au sein de l’organisation. Sans un travail sur la qualité des données, pas de MDM et donc impossibilité d’une vision cohérente. Il est urgent d’agir et faire de la qualité des données une priorité dont le ROI est quasi immédiat. Les entreprises qui survivront à la révolution digitale en cours seront celle qui auront pris la mesure d’un tel enjeu.

  • (1) The Forrester Wave™: Data Quality Solutions, Q4 2015
  • (2) IOT, Internet of things
  • (3) Deep learning applications and challenges in big data analytics – Journal of Big Data (2015)