Data Catalog : l’outil indispensable pour une meilleure exploitation de la donnée

Temps de lecture : 5 minutes

Jusqu’à 50% du temps collaborateur est perdu à rechercher des données, identifier des sources de qualité, corriger des erreurs, pour finalement ne pas leur faire confiance.

Harvard Business Review

C’est à cette problématique que répond le catalogue de données : rendre les données visibles et accessibles à tous les collaborateurs, soutenir la gouvernance Data, contribuer à rendre l’entreprise data-driven et proposer de l’analyse de données en self-service.

Nous vous proposons aujourd’hui de voir les 7 enjeux clés du Data Catalog.  

 

1- Partager une compréhension commune des données

Le Data Catalog fournit une fonctionnalité de Business Glossary. Il s’agit de partager les définitions des indicateurs clés présents dans les données. Par exemple :

  • Qu’est-ce qu’un client ?
  • Quelqu’un qui a déjà acheté, qui a déjà acheté cette année ou qui a déjà acheté ces 365 derniers jours ?

Le Business Glossary permet de mieux comprendre les données et d’uniformiser leur utilisation. Qui n’a pas déjà été confronté à des rapports présentant des résultats différents pour un même concept ? Le Business Glossary permet également de lier les termes définis à des sources de données.

Source : DataGalaxy

 

2- Avoir un accès centralisé à la donnée, une source unique de vérité

Le Data Catalog référence toutes les données de l’entreprise au sein d’un Data Dictionary. L’objectif est de casser les silos et de rendre la donnée accessible même si l’utilisateur n’a pas accès au logiciel concerné. Les données peuvent être croisées et on a la possibilité de définir la meilleure source à utiliser.

À titre d’exemple, les données clients sont susceptibles de se retrouver dans diverses bases au sein du SI de l’entreprise : quel est le jeu de données le plus fiable ? Le Data Catalog permet de l’identifier.

Source : Ataccama

 

3- Contextualiser la donnée

Il peut être intéressant de comprendre d’où vient la donnée qui nous intéresse et d’identifier les transformations qu’elle a subies. Le Data Lineage permet d’accéder à cette information ; ce processus permet en effet de visualiser le flux de la donnée et les différentes transformations qui l’ont impactée (agrégation, changement de format, etc.).

Source : Talend

 

4- Responsabiliser et identifier les Data Owners

Chaque terme du Business Glossary et chaque élément du Data Dictionary peuvent être rattachés à des Data Owners ou des Data Stewards. L’objectif est d’identifier facilement la personne qui est en mesure de me renseigner sur la donnée et qui est responsable de sa qualité. Cela permet de faciliter la mise en place de la Data Governance.

 

5- Démystifier et faciliter l’accès à la donnée, maximiser les opportunités  d’explorer les données

Un moteur de recherche permet de retrouver facilement une donnée au milieu de l’ensemble des données de l’entreprise. Les silos étant cassés, on peut identifier facilement les données qui nous intéressent. Les utilisateurs métiers peuvent ainsi tirer profit de ces données, en les analysant et en les croisant. La mise en place de rapports ou d’outils de data visualisation est ainsi facilitée.

 

6- Réduire les intermédiations entre les Data Owners et les acteurs IT

Sans Data Catalog, les utilisateurs métiers doivent échanger avec leurs interlocuteurs IT qui eux-mêmes vont faire suivre la demande d’information aux responsables de la base de données en question. Cela peut prendre du temps et aboutir à l’utilisation d’un mauvais jeu de données. Le Data Catalog permet d’identifier rapidement la donnée intéressante ainsi que son responsable.

 

7- Contrôler et sécuriser l’accès aux données

Bien évidemment, toutes les données ne doivent pas être rendues accessibles à tout le monde. Le Data Catalog permet de gérer un niveau de sécurité en ne donnant accès aux données qu’à certains groupes d’utilisateurs.

De nombreuses solutions existent sur le marché, couvrant des périmètres différents.

Chaque outil a ses avantages et ses inconvénients, et le choix devra se faire de façon ad hoc en fonction des besoins de l’entreprise.

 

Conclusion

Pour conclure, le rôle principal du Data Catalog est de permettre aux utilisateurs métiers et IT d’une entreprise (Data Analysts, Data Scientists, développeurs…) d’identifier, d’enrichir et de comprendre les sources de ses données, tout en y ayant accès en self-service.

Comme évoqué, divers outils du marché répondent à ce besoin. Ils facilitent l’analyse de la data, la rendent plus fiable et précise.

Un Data Catalog est désormais un vecteur indispensable pour maîtriser son patrimoine de données et en tirer davantage de valeurs.

 

Vous avez besoin d’accompagnement sur vos projets de Data Catalog ? Sur votre choix de solution ?