Optimisez la valeur de votre SI avec l’ETL

par Laurent Hercé, le 16/12/2020
Optimisez la valeur de votre SI avec l’ETL

ETL, trois lettres qui recouvrent un concept finalement assez simple : l’intégration des données de sources multiples.


Dans vos interrogations sur l’amélioration de votre système d’information, vous n’avez pu passer à côté de l’Extract-Transform-Load. Quelques questions en découlent. Quel est son fonctionnement ? Puis-je le faire avec les moyens du bord ? Quel outil ETL m’apportera le résultat le plus satisfaisant dans ce processus d’intégration ?

C’est ainsi que la nécessité de mieux comprendre la notion d’ETL a dû vous apparaître incontournable.

Qu’est-ce qu’un ETL ?

Définition

Cet acronyme est celui de l’association des mots anglais Extract — Transform — Load. Il caractérise la séquence de 3 opérations principales de l’intégration des données à un Système de gestion de base de données (SGBD ou DBMS en anglais).

Une solution ETL est donc un ensemble d’outils et de machines faisant l’interface entre les sources et la cible.

Extract Transform Load : schéma explicatif ETL

Talend

Fonctionnement de l’ETL en 3 étapes

1. E de Extract

Cette étape consiste à extraire les données de leurs systèmes de stockage : qu’elles proviennent d’un ERP, d’un SGBD ou de fichiers à plat.

2. T de Transform

Il s’agit de la transformation des données : elles sont

  • vérifiées,
  • reformatées,
  • nettoyées de leurs doublons,
  • anonymisées,
  • enrichies.

3. L de Load

On termine par le chargement des données dans le datawarehouse, où elles sont disponibles aux différents outils type Data mining ou OLAP (OnLine Analytical Processing).

Selon l’histoire et l’architecture de votre système d’information, la diversité de vos métiers, ce processus peut être relativement simple ou relever du numéro d’acrobate. C’est bien souvent là qu’un intergiciel ETL bien choisi pourra vous apporter une importante plus-value.

Exemple d’ETL

Le cas le plus parlant est celui de la mise en place d’un Datawarehouse. C'est-à-dire d’un réceptacle des données de l’ensemble de l’entreprise sous une forme propre et à même d’être restituée à différents consommateurs, analystes, auditeurs ou autres systèmes.

Un tel entrepôt peut alors fournir à chaque métier un datamart propre à son besoin spécifique d’analyse et de reporting. Il sera basé en grande partie sur ses propres données, mais pas uniquement. En effet, la plus grande valeur ajoutée viendra de l’enrichissement de ces données par les autres systèmes de l’entreprise.

Plus largement, l’ETL peut-être utile à tout besoin d’échange de données, ponctuel ou récurrent. Par exemple :

  • une migration de systèmes opérationnels,
  • des échanges avec des partenaires ou des organismes régulateurs,
  • ou encore un système d’archivage, de sauvegarde ou de redondance.

Enfin, les solutions ETL s’enrichissent continuellement pour intégrer des fonctionnalités parfois jugées secondaires. Il peut s’agir du monitoring des échanges d’information, de la gestion de la qualité et du traçage de l’information, voire la mise à disposition d’information par ESB.

Les avantages de l’ETL pour votre entreprise

  • l’évolution de votre architecture informatique vers un niveau supérieur d’intégration, de contrôle et d’échange de données ;
  • mieux répondre aux différents besoins des collaborateurs :
    • les besoins internes : faire vivre l’entreprise en permettant la communication d’une information homogène entre services pour réagir au mieux à son activité,
    • les besoins externes : optimiser les échanges avec les partenaires (fournisseurs, clients, groupements concurrentiels), satisfaire aux exigences administratives (déclarations administratives, audits, RGPD),
    • les besoins à naître : faire parler l’information cachée, détecter les signaux faibles,
  • le nettoyage et le formatage de la quantité d'informations générées à travers les processus, logiciels et machines utilisés par les collaborateurs ;
  • l’architecture optimisée, généralement on-premise, puis le chargement de l’information en base qu’une fois adaptée au besoin spécifié en amont pour :
    • produire une information enrichie et de qualité rapidement utilisable pour le reporting opérationnel ou l’analyse décisionnelle,
    • maximiser l’utilisation des infrastructures de stockage,
    • répondre à des exigences de sécurité, comme l’anonymisation des données.

ETL ou ELT ?

Bien sûr, il ne vous aura pas échappé que le Big Data et le Cloud ont révolutionné l’approche de l’information, de son utilité et de sa monétisation. Là encore les ETL tâchent de fourbir leur armes pour s’interfacer avec ces systèmes hyper scalables.

Mais la tâche n’est pas aisée et si vous avez connu une croissance exponentielle de vos données, les tentatives de traitement par ETL pourraient révéler les limites de ce principe.

Cet état de fait à donné un nouvel essor à l’ELT (Extract Load Transform), processus cousin dans l’intégration de données :

  1. l’information est stockée sous sa forme brute,
  2. puis elle est transformée,
  3. et enfin mise à disposition.

On tire donc partie de la puissance de la plateforme d’accueil des données plutôt que de serveurs intermédiaires.

L’ELT, couplé à un datalake hautement scalable, a donc la vertu de garder au chaud l’information brute, représentant des volumétries considérables. Elle est échangée en quasi temps réel, vierge de toute spécification de transformation, prête à être soumise à l’exploration des Data scientists. Ils en tireront de nouvelles connaissances, faisant naître de nouveaux besoins et au bout du compte de nouveaux profits.

Aujourd’hui, les mondes de l’ETL et de l’ELT ne peuvent que converger, soit par l’existence d’outils capables d’hybridation ou l'avènement de concepts comme la virtualisation de la donnée.

Quel outil ETL choisir ? Liste d’ETL

Le choix est particulièrement vaste dans ce domaine. Pour s’y retrouver, voici une proposition de classification rapide :

Type d’outil ETLExemples d’ETL
Les mastodontes
  • Informatica Powercenter - l’ETL par définition, et plus encore
  • IBM Infosphere Datastage - Géant de l’information
  • SAP Data Services - Solidement ancré dans les ERP et le décisionnel
  • Microsoft SSIS - Vous avez déjà un pied dans le cloud Azure
  • Oracle Data Integrator - ETL par excellence
Les nouveaux venus
  • Qlik Replicate - Intégration pour le décisionnel
  • Denodo - La Data Virtualization
Les ETL open source
  • Talend Open Studio for Data Integration - à la fois ETL et ELT
  • TIBCO Jaspersoft - ETL et Reporting
  • Pentaho Data Integration
Cloud based et No-code
  • Xplenty - Orientation Cloud et spécialisation Salesforce
  • Skyvia - No-code et BigData
  • Hevo - No-code et BigData

Conclusion

De l’open-source « gratuit » aux solutions les plus onéreuses, toutes répondent au moins à ces problématiques de base :

  • Ingérer des informations de systèmes divers
  • Nettoyer l’information pour l’homogénéiser
  • Mettre cette information à disposition des utilisateurs

Mais toutes mettent aussi en avant leurs spécificités pour coller le plus précisément possible à vos usages. Des solutions historiques les plus complètes aux « no-code » en passant par les spécialistes du cloud ou du temps réel, l’univers des ETL regorge de pépites. Il se rapproche des ELT, et la concentration de ce marché en plein renouvellement est encore loin d’être terminée.

À propos de l’auteur : 

Associé créateur de Marketor, Laurent Hercé évolue dans le monde de l’IT depuis son origine ou presque (1987). Il anime des communautés et des blogs dans les domaines IT, RH, Social Selling, Cloud computing, SaaS, innovation.

Passionné par la vulgarisation, Laurent rédige du contenu sous toutes ses formes, notamment pour les blogs, livres blancs, études et guides…

Article invité. Les contributeurs experts sont des auteurs indépendants de la rédaction d’appvizer. Leurs propos et positions leur sont personnels.