4 solutions d'ETL open source passées au crible

4 solutions d'ETL open source passées au crible

Devez-vous vous orienter vers un logiciel d'ETL open source ? Les solutions d'Extract Transform Load sont une brique essentielle à la BI (Business Intelligence). Aussi sont-elles au cœur de l’analyse de données en entreprise. Quelles en sont les spécificités  de l'Open Source ? Et en quoi présentent-elles des limites pour votre entreprise ? Voici un comparatif dans le domaine de la BI pour mieux vous éclairer.

Suggestion de logiciels pour vous

Ganacos

Ganacos
Analyse de données, planification et simulation
Voir le site
Voir ce logiciel

vizzboard

vizzboard
Tableaux de bord 100% Web, faciles, intuitifs et partagés
Essayer Gratuitement
Voir ce logiciel

Bime Analytics

Bime Analytics
Explorez et visualisez vos données en direct
Essayer gratuitement
Voir ce logiciel

Les enjeux de la collecte de données pour l’entreprise

La collecte de données

Votre entreprise regorge de données éparses, éparpillées à travers les services. Il s’agit de les collecter pour les centraliser dans une base unique, afin qu’elles deviennent exploitables en terme d’analyse.

Les défis techniques de la collecte de données

Or, ces données sont hétérogènes : selon la nature de leur système, leur format, ou leur structure. Au gré de l’historique de votre SI, vos systèmes de stockage ont pu évoluer. Ajoutez-y les incompatibilités d’exploitation de fichiers et cela peut virer au casse-tête. Un autre aspect, et pas des moindres, est le déficit de logique dans l’approche transversale. Les entreprises ont rarement des données dites de référence. Si bien qu’à l’occasion d’opérations type concentration, absorption ou fusion, les difficultés de data management sont systématiques.

ETL : définition et fonctions

Capacité de traitement

Les outils d’ETL interviennent au niveau du système décisionnel global. Ils supportent un large spectre de Systèmes de Gestion de Bases de Données (SGBD) et de formats de fichiers, en lecture comme en écriture.

L’ETL en trois étapes

1/ E de Extract

Cette étape consiste à extraire les données de leurs systèmes de stockage : qu’elles proviennent d’un ERP type SAP, d’un SGBD ou de fichiers à plat.

2/ T de Transform

Il s’agit de la transformation des données : elles sont vérifiées, reformatées, nettoyées de leurs doublons.

3/ L de Load

On termine par le chargement des données dans le datawarehouse, où elles sont disponibles aux différents outils type Data mining ou OLAP (OnLine Analytical Processing).

Comparatif d’ETL open source

BIRT

BIRT signifie Business Intelligence and Reporting Tools. C’est un projet d’Actuate élaboré dans un environnement Java / J2EE. Il est centré sur les reportings, et propose une plateforme client avec visualisation des données automatisée.

Cloudera

Ce fournisseur développe CDH, une distribution d’Hadoop, comme Apache. C’est un pure player soutenu par Intel. Il propose des fonctions de sécurité et d’intégration, et délivre des formations et certifications aux développeurs, administrateurs et analystes.

Pentaho

C’est un fournisseur BI avec brique ETL. Il se base sur le projet Kettle sous licence LGPL. Une fonctionnalité drill-down permet de combiner les outils graphiques pour une analyse exploratoire par croisements.

Talend ETL

Cette société française regroupe Talend Open Studio et Talend ESB. Elle propose une interface de modélisation graphique basée sur l’environnement IDE Eclipse. Sa gestion de la performance permet de manier du Big Data avec l’approche ELT (Extract Load Transform).

Tableau comparatif des solutions open source :

BIRT Cloudera Pentaho Talend Etl
Outil de reportings et visualisation de données. Distributeur, intégrateur et formateur de la solution CDH. Solution BI avec analyse exploratoire par croisements. Modélisation graphique et analyse Big Data.
Suggestion de logiciels pour vous

Brainify

Brainify
Free Ecommerce Analytics
Voir le site
Voir ce logiciel

Grytics

Grytics
Améliorez la performance de vos Groupes Facebook
Voir le site
Voir ce logiciel

Self-Service DATA

Self-Service DATA
Self-Service DATA votre fournisseurs de données
3 mois gratuit
Voir ce logiciel

Limites des ETL open source par rapport aux outils propriétaires

Une connectivité limitée

Les logiciels ETL open source ne permettent pas toujours d’extraire les données de toutes les applications d’entreprises. De même, certains standards de formats de fichiers, comme hipaa ou swift, ne sont souvent accessibles que dans le cadre d’options payantes.

Une capacité à tester

Dans le cas de jeux de données volumineux, fiez-vous à un outil qui a déjà fait ses preuves. À défaut, pensez à bien le tester en amont pour évaluer ses temps de traitement et son niveau de disponibilité.

Un outil peu collaboratif

Les ETL open source ne permettent pas, de base, un partage de métadonnées fluide entre différentes personnes. Or, l’analyse de données concerne rapidement différents utilisateurs : architectes, concepteurs, développeurs... et leurs interactions apporteraient un vrai plus.

Un seuil de complexité

Dès lors que vos règles de transformation passent un certain seuil de complexité, l’outil open source nécessite du scripting ou du code spécifique. Tandis que les solutions propriétaires, elles, proposent des assistants de règles intuitifs pour une gestion facilitée.

Les ETL open source sont certes gratuits. Par contre, leurs coûts cachés en matière d’intégration, pour des fonctionnalités additionnelles ou une montée en puissance, empêchent de budgétiser véritablement leur déploiement. Les solutions BI propriétaires, comme IBM, Vizzboard, Bime analytics ou encore Ganacos, proposent des packages complets assortis d’une dimension service précieuse dans votre approche décisionnelle.

Commenter cet article

Ajouter un commentaire