4 solutions d'ETL open source passées au crible

Par Fabien Paupier
Le 16/12/2020
software backgroundUn CRM pour optimiser votre cycle de vente

Devez-vous vous orienter vers un logiciel d'ETL open source ? Les solutions d'Extract Transform Load sont une brique essentielle à la BI (Business Intelligence). Aussi sont-elles au cœur de l’analyse de données en entreprise.

Quelles en sont les spécificités  de l'Open Source ? Et en quoi présentent-elles des limites pour votre entreprise ? Voici un comparatif dans le domaine de la BI pour mieux vous éclairer.
SOMMAIRE

Comparatif d’ETL open source

BIRT

BIRT signifie Business Intelligence and Reporting Tools. C’est un projet d’Actuate élaboré dans un environnement Java / J2EE. Il est centré sur les reportings, et propose une plateforme client avec visualisation des données automatisée.

Cloudera

Ce fournisseur développe CDH, une distribution d’Hadoop, comme Apache. C’est un pure player soutenu par Intel. Il propose des fonctions de sécurité et d’intégration, et délivre des formations et certifications aux développeurs, administrateurs et analystes.

Pentaho

Pentaho est un fournisseur BI avec brique ETL. Il se base sur le projet Kettle sous licence LGPL. Une fonctionnalité drill-down permet de combiner les outils graphiques pour une analyse exploratoire par croisements.

Talend ETL

Cette société française regroupe Talend Open Studio et Talend ESB. Elle propose une interface de modélisation graphique basée sur l’environnement IDE Eclipse. Sa gestion de la performance permet de manier du Big Data avec l’approche ELT (Extract Load Transform).

Tableau comparatif des solutions open source :

BIRTClouderaPentahoTalend Etl
Outil de reportings et visualisation de données.Distributeur, intégrateur et formateur de la solution CDH.Solution BI avec analyse exploratoire par croisements.Modélisation graphique et analyse Big Data.

Limites des ETL open source par rapport aux outils propriétaires

Une connectivité limitée

Les logiciels ETL open source ne permettent pas toujours d’extraire les données de toutes les applications d’entreprises. De même, certains standards de formats de fichiers, comme hipaa ou swift, ne sont souvent accessibles que dans le cadre d’options payantes.

Une capacité à tester

Dans le cas de jeux de données volumineux, fiez-vous à un outil qui a déjà fait ses preuves. À défaut, pensez à bien le tester en amont pour évaluer ses temps de traitement et son niveau de disponibilité.

Un outil peu collaboratif

Les ETL open source ne permettent pas, de base, un partage de métadonnées fluide entre différentes personnes. Or, l’analyse de données concerne rapidement différents utilisateurs : architectes, concepteurs, développeurs... et leurs interactions apporteraient un vrai plus.

Un seuil de complexité

Dès lors que vos règles de transformation passent un certain seuil de complexité, l’outil open source nécessite du scripting ou du code spécifique. Tandis que les solutions propriétaires, elles, proposent des assistants de règles intuitifs pour une gestion facilitée.

Les enjeux de la collecte de données pour l’entreprise

La collecte de données

Votre entreprise regorge de données éparses, éparpillées à travers les services. Il s’agit de les collecter pour les centraliser dans une base unique, afin qu’elles deviennent exploitables en terme d’analyse.

Les défis techniques de la collecte de données

Or, ces données sont hétérogènes : selon la nature de leur système, leur format, ou leur structure. Au gré de l’historique de votre SI, vos systèmes de stockage ont pu évoluer. Ajoutez-y les incompatibilités d’exploitation de fichiers et cela peut virer au casse-tête. Un autre aspect, et pas des moindres, est le déficit de logique dans l’approche transversale. Les entreprises ont rarement des données dites de référence. Si bien qu’à l’occasion d’opérations type concentration, absorption ou fusion, les difficultés de data management sont systématiques.

Capacité de traitement

Les outils d’ETL interviennent au niveau du système décisionnel global. Ils supportent un large spectre de Systèmes de Gestion de Bases de Données (SGBD) et de formats de fichiers, en lecture comme en écriture.

Conclusion

Les ETL open source sont certes gratuits. Par contre, leurs coûts cachés en matière d’intégration, pour des fonctionnalités additionnelles ou une montée en puissance, empêchent de budgétiser véritablement leur déploiement. Les solutions BI propriétaires, comme IBM, Vizzboard, Bime analytics ou encore Ganacos, proposent des packages complets assortis d’une dimension service précieuse dans votre approche décisionnelle.

Article mis à jour, initialement publié en juillet 2017.

La transparence est une valeur essentielle pour Appvizer. En tant que média, nous avons pour objectif d'offrir à nos lecteurs des contenus utiles et de qualité tout en permettant à Appvizer de vivre de ces contenus. C'est pourquoi, nous vous invitons à découvrir notre système de rémunération.   En savoir plus
Parole d'expert backgroundDatalab : les petits labos qui font émerger de grands projets
Parole d'expert
l’année dernière
Datalab : les petits labos qui font émerger de grands projets
Comment faire travailler plus efficacement, ensemble, les ressources humaines et les infrastructures sur le thème central de la Data ? Comment innover, mettre en place de nouvelles applications, et ceci le plus rapidement possible ? C’est l’objet d’un laboratoire transversal dédié à la donnée : le Datalab.
Définition backgroundQu’est ce que le e-commerce et quelles sont ses caractéristiques
Définition
il y a 2 ans
BI, EPM, analyse de données : quelle différence ?
Le choix entre Business Intelligence, analyse et EPM est d’autant plus difficile que certains éditeurs de logiciels proposent des solutions intégrant EPM, Business Intelligence ou analyse au sein de la même application.