

Qu'est-ce qu'un data mart ? Indispensable pour traiter la masse de données des entreprises, il aide à répondre à des besoins métiers spécifiques. Détails.
Le média de ceux qui réinventent l'entreprise
À l’heure où la masse d’informations générées par une entreprise peut croître de 50 à 150 % d’une année sur l’autre, il est logique de vouloir l’exploiter au mieux et en tirer le maximum de profit.
Les infrastructures et architectures nécessaires à la gestion du Big Data rebutent encore beaucoup d’entreprises, notamment ce qui est souvent défini comme son cœur : le Data Lake.
Qu’est-ce qu’un data lake ? Quelle différence avec une data warehouse ? Quelles solutions data lake choisir ? Réponses dans l’article.
Un data lake, ou lac de données, peut être défini en premier lieu comme un réservoir de données brutes, qualifiées à la marge, de forme structurée ou non. Ces données peuvent être :
La première mission du data lake va être l’ingestion en masse de cette donnée brute afin d’en conserver l’historique pour de futurs besoins :
À cette caractéristique principale s’ajoutent de grands critères comme :
À la différence du Data Lake, le but premier du Data Warehouse est d’obtenir une donnée raffinée pour un besoin précis, récurrent, demandant de solides performances d’agrégation et permettant de servir des applications de reporting, d’analyse et parfois de nouvelles applications métier.
Mais, avec un coût du téraoctet stocké plus de 10 fois supérieur, le Data Warehouse a atteint ses limites comme pierre angulaire de la data au sein de l’entreprise.
Comment tirer parti du meilleur des deux mondes ?
De nombreuses grandes entreprises, ayant investi des sommes importantes dans leur data warehouse, ont pris le parti de faire une transition douce vers le data lake, avec une solution on premise et la composition sur mesure d’un panel d’outils pour le gérer.
La fondation Apache a fourni le framework open-source Hadoop, cœur des capacités du data lake à ingérer en masse par la parallélisation et la distribution du process de stockage.
Ce framework est enrichi de très nombreux outils open source qui ont rendu la mise en place du data lake abordable (financièrement) :
Mais au final, la multiplicité des outils et la possibilité de se créer un environnement ultra personnalisé peuvent engendrer des coûts de possessions très importants, en particulier si l’on a misé sur une technologie au futur incertain.
On peut donc logiquement préférer des solutions packagées comme Cloudera qui a avalé Hortonworks, et a conservé une distribution open source, mais propose bien sûr un modèle payant mieux supporté.
Un partenariat fort avec IBM vise d’ailleurs à fournir des solutions on-premise fortes.
MapR ayant été repris en 2019 par Hewlett Packard Enterprise, va être intégrée au HPE GreenLake, solution cloud visant à rivaliser avec les géants Amazon, Microsoft, Google ou encore Oracle qui multiplient les partenariats, rachats et nouveaux développements pour bâtir des plateformes cloud rivalisant avec les meilleurs outils d’analyse de données on premise.
Amazon AWS, Microsoft Azure, Google Big Query ou Oracle Cloud Infrastructure Data Flow intègrent tous des outils plus ou moins aboutis de gestion de la donnée (migration, lineage, suivi), d’analyse (transformation temps réel, agrégation, analyse classique ou modèles IA), mais cette fois-ci dans le cloud.
Le Cloud mutualisé a pour gros avantage de mettre de côté la question matérielle qui peut rapidement devenir un casse-tête lorsque l’on anticipe une forte croissance de données.
Toutefois, le cloud décomplexé a montré certaines limites avec des cas de piratage de masse. Le Private Cloud d’IBM propose de garantir l’intégrité de vos données (propriété industrielle, contrats confidentiels, etc.) et la solution Azure Stack offre une version on premise des principaux outils de Microsoft dans le domaine.
Teradata aussi, autre leader mondial du data warehousing, a amorcé son virage vers une solution cloud pour espérer reconquérir une base client émoussée par les coûts de ses puissants serveurs on premise.
Toutes les solutions ont leurs avantages et inconvénients. Il ne faut donc pas perdre de vue les engagements de votre entreprise envers ses clients (RGPD, secret industriel ou professionnel) et les mettre en balance de cette recherche d’élasticité qui peut représenter des coûts structurels et humains importants.
Évaluer cet équilibre doit faire partie du travail primordial de gouvernance de la donnée, qui doit définir et structurer le data lake et donc :
Cette gouvernance va permettre de saisir les besoins réels de votre cœur de métier tout en autorisant une exploitation élargie de la donnée. L’objectif :
De la bonne gouvernance peuvent découler des architectures complexes au premier abord, mais salvatrices aussi bien sur le plan technique que financier.
Ainsi, si le data lake impose son utilité, il ne fera pas nécessairement disparaître les autres structures de gestion de la donnée : du data swamp en amont, au data warehouse et datamarts en aval, jusqu’au dialogue de plusieurs de ces structures dans un contexte international, la bonne gouvernance des données peut permettre au contraire d’élargir la palette d’outils.
En favorisant le dialogue entre ces éléments de stockage et de traitement de la data, l’entreprise tirera le meilleur parti de chacun :
Ce maillage de la donnée (data mesh en anglais), dans le cadre d’une gouvernance forte, évitera à une entreprise de gâcher un existant en se lançant dans une migration « tout data lake », voire « tout cloud » parfois irréalisable et souvent inadaptée.
Le data mesh sera alors une garantie d’acceptation et de succès dans la transition vers le Big Data.