Aus Linux-Magazin 06/2009

Talend Open Studio konvertiert per Mausklick Daten und Formate

© Andrzej Bardyszewski, Fotolia.com

Preislisten aus Warenwirtschaftssystemen oder Adresslisten aus der Human-Ressources-Datenbank erzeugen: Dafür gibt es in vielen Unternehmen ein Kartenhaus an Skripten, Batchjobs und langen SQL-Abfragen. Ärgerlich, wenn sich niemand mehr an ihre Funktion erinnert. Open Studio will Übersicht schaffen.

Datenintegration ist einer der Lieblingsbegriffe der Marketingabteilung des französischen Softwarehauses Talend. Letztlich adressiert der Anbieter damit ein banales, aber essenzielles Problem, mit dem sich viele Unternehmen konfrontiert sehen: Ein Tool soll irgendwelche Daten in irgendwelchen Formaten in andere Daten in andere Formate umwandeln. Talend Studio tritt an, das umzusetzen.

Die Software kommt als ZIP-Archiv von 239 MByte daher und enthält fast alle Funktionen des kommerziellen Schwesterproduktes Talend Integration Suite [1]. Die kommerzielle Version schließt jedoch technischen Support ein und ermöglicht, die Integrationsjobs auf einem zentralen Server zu verwalten. Um die Funktionsweise von Talend Open Studio kennen zu lernen reicht die Open-Source-Version jedoch vollkommen aus.

Die Anwendung ist in Java auf Basis des Eclipse Rich Client Toolkit geschrieben. Wer das Archiv entpackt, belegt weitere 344 MByte Plattenplatz. Dann findet er im obersten Verzeichnis das Binary »TalendOpenStudio-linux-gtk-x86« und macht es mit »chmod +x« ausführbar. Andere Executables starten das Programm auf einem 64-Bit- oder PowerPC-System oder auch wahlweise unter Open Solaris, MacOS X oder Windows. Aktuell ist Version 3.0.4, die Quellen lassen sich per Subversion auschecken.

Nach einem Splash-Screen gilt es, die GPLv2 als Lizenz zu akzeptieren. Zunächst klickt der Anwender rechts neben die Schaltfläche »Verbindung« (siehe Abbildung 1). Im neuen Fenster ist nur eine der Form nach gültige E-Mail-Adresse in »User eMail« einzutragen und mit »Ok« zu bestätigen (siehe Abbildung 2). Anschließend bietet das Eingangsfenster im unteren Auswahlmenu die Option »Create a new local project«, die der Anwender mit »Go!« quittiert. Benutzer, die Beispiele der umfangreichen Dokumentation durcharbeiten möchten, wählen alternativ »Importiere Demo-Projekt«, um einige Objekte vorzudefinieren.

Abbildung 1: Im Startfenster legt der Anwender zunächst eine neue Verbindung an, erzeugt dann ein leeres Projekt und darf sich schließlich einloggen.

Abbildung 1: Im Startfenster legt der Anwender zunächst eine neue Verbindung an, erzeugt dann ein leeres Projekt und darf sich schließlich einloggen.

Abbildung 2: Für eine neue Verbindung ist es ausreichend, eine der Form nach gültige E-Mail-Adresse einzugeben.

Abbildung 2: Für eine neue Verbindung ist es ausreichend, eine der Form nach gültige E-Mail-Adresse einzugeben.

Mächtige Intelligenz

Nun sind nur noch ein Projektname zu vergeben und die Sprache auszuwählen, die Talend Open Studio für die zu definierenden Jobs erzeugt. Zur Auswahl stehen Perl und Java, letztlich ist die Wahl aber für reine Talend-Anwender bedeutungslos, da sie kaum mit dem Code in Berührung kommen. Der Anbieter und seine Community scheinen Java etwas besser zu unterstützen. Hat der Anwender diese Auswahl bestätigt, öffnet er im Startfenster das neue Projekt mit »Open«. Zum Abschluss der Konfiguration erfragt die Software noch nach E-Mail-Adresse und das Land für einen freiwilligen Newsletter mit Update-Service.

Endlich öffnet sich eine Oberfläche auf Basis der Eclipse-RCP, nachdem der Anwender noch den Welcome-Tab geschlossen hat (siehe Abbildung 3). Im linken Teilfenster verwaltet er seine Datenquellen. Diese Hauptfunktion unterstützt die Software mit sehr umfangreichen und bequemen Hilfsmitteln. Auf diese Weise kann sie mit XML-, Text- oder Excel-Dateien genauso umgehen wie mit praktisch jeder gebräuchlichen Datenbank. Für jeden Eingabetyp stellt Open Studio bequeme Wizards bereit, die diese Quellen für den späteren Gebrauch einrichten (siehe Abbildung 4). Weitere Einträge dienen dazu, die Quellen zu strukturieren, zu versionieren und zu verwalten.

Abbildung 3: Die Oberfläche von Open Studio fußt auf Eclipse-RCP. Im linken Bereich verwalten Anwender Datenquellen, die sie im mittleren Hauptfenster per Maus zu Jobs verbinden. Im unteren Bereich überwachen sie deren Ausführung.

Abbildung 3: Die Oberfläche von Open Studio fußt auf Eclipse-RCP. Im linken Bereich verwalten Anwender Datenquellen, die sie im mittleren Hauptfenster per Maus zu Jobs verbinden. Im unteren Bereich überwachen sie deren Ausführung.

Abbildung 4: Open Studio bietet eine Menge an nützlichen Vorgaben, um etwa eine »/etc/passwd« mit den richtigen Trennzeichen zu versehen. Im unteren Teil des Fensters passt es nach Klick auf »Aktualisieren« die Datenfelder an.

Abbildung 4: Open Studio bietet eine Menge an nützlichen Vorgaben, um etwa eine »/etc/passwd« mit den richtigen Trennzeichen zu versehen. Im unteren Teil des Fensters passt es nach Klick auf »Aktualisieren« die Datenfelder an.

Per Maus skripten

Um einen Konvertierungsjob zu entwerfen zieht der Anwender nun Datenquellen auf die Arbeitsfläche in der Mitte und verbindet sie mit Filtern oder anderen Elementen. Zentral ist die Rolle der Komponente »tMap«, die einem Join in SQL entspricht, sich aber komplett per Maus bedienen lässt. Auf diese Weise verknüpft der User beispielsweise Attribute eines Datensatzes wie einen Ortsnamen mit einer Postleitzahlenliste, wenn nur die PLZ vorliegt. Zusätzlich dürfen Anwender hier eigene Filter definieren.

Als Ergebnisse steht eine ähnliche Vielfalt an Formaten und Datenspeichern zur Verfügung. Ist ein Job fertig entworfen, erzeugt Open Studio durch Klick auf den »Run«-Button im Job-Fenster, das im unteren Bereich der Arbeitsoberfläche liegt, den Code in der eingangs gewählten Zielsprache. Umfangreiche Einzelschrittausführungen und Debugging-Optionen stehen dem Anwender dabei zur Seite.

Daten-Profis finden sich schnell zurecht

Eigene Quelltexte lassen sich direkt in den Ablauf bei den Komponenten einbauen. Den automatisch erzeugten Code zu erweitern, ist nicht empfehlenswert, denn ihn generiert das Werkzeug ja bei jeder Änderung des Jobs neu. Für den Einstieg in die umfangreichen Möglichkeiten gibt es auf der Website des Herstellers eine Reihe von kostenlosen Tutorien, Videos und Webinars. Wer sich bislang mit SQL-Abfragen oder Konvertierungsskripten auskannte und den Umgang mit der Maus nicht scheut, findet sich hier nach kurzer Einarbeitung schnell zurecht.

Der Hersteller wirbt gelegentlich auch damit, die “Datenqualität” mit seinen Werkzeugen zu verbessern. Dazu gibt es unter gleichen Lizenzbedingngen das Programm Open Profiler, das jedoch primär technische Aspekte wie Häufigkeitsverteilungen oder Anzahl von exakten Doubletten bestimmt.

Anwender, die eine Datenquelle aufwerten und auch dauerhaft konsistent halten wollen, müssen hier selbst Hand anlegen. Denn Talend liefert zwar die bequemen Werkzeuge, aber kaum fertige Komponenten oder Sub-Jobs, die zum Beispiel mehrere »Meyer« und »Mair« an der gleichen Adresse aufspüren und dann aus dem Datenbestand eliminieren. Eine Hilfe kann die wachsende Community des Werkzeugs sein, die eigene Lösungen austauscht [2].

So erschließt sich der größte Produktivitätsgewinn erst dann, wenn eine komplette Abteilung geschlossen die Anwendung verwendet. Wichtig ist die einzelnen Jobs gut zu dokumentieren und auch konsequent einzusetzen. Dazu bietet die Software Hilfen an.

Grafische Skriptverwaltung

Technisch betrachtet kann Open Studio nicht viel mehr als ein Perl-Konverter mit DBI-Anbindung. Den Unterschied macht die Oberfläche, die es IT-Abteilungen effizienter erlaubt, “mal eben” für ihre Fachabteilungen Auswertungen und Listen zu erzeugen – und sie auch einen Monat später noch zu verstehen. Wer sich hingegen ein Tool erhofft, das selbstständig die Strukturen im Modell des eigenen Datengrabes erkennt, wird zwangsläufig enttäuscht.

Infos

[1] Talend Open Studio:[http://www.talend.com/download.php]

[2] Open-Studio-Blog von Maik Böttcher: [http://www.bob-team.de/wordpress/tag/talend-open-studio]

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDFUmfang: 2 HeftseitenPreis €0,99
(inkl. 19% MwSt.)
LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE Print-Ausgaben Digitale Ausgaben
ABONNEMENTS Print-Abos Digitales Abo
TABLET & SMARTPHONE APPS Readly Logo
E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben