Open Source im professionellen Einsatz
Linux-Magazin 02/2014
© tiero, alexwhite, 123RF.com

© tiero, alexwhite, 123RF.com

PDF-Ersteller, -Extrahierer und -Editoren im Quertest

PDF im Vollwaschgang

Dem Namen nach ist man mit dem Portable Document Format immer gut unterwegs. Der folgende Test erzeugt erst PDF-Dateien, um sie dann mit verschiedene Open-Source-Programmen in die Mangel zu nehmen. Einige der Editoren und Extrahierer machen eine ganz gute Figur, andere gehören in den Lumpensack.

1249

Adobe hat PDF als ein layouterhaltendes Transportformat für finale Dokumente konzipiert, PDF-Dateien nachträglich zu bearbeiten ist – abgesehen von der serienmäßigen Notiz- und Kommentarfunktion – nicht einfach. Für Mac und Windows bietet der Hersteller aber einen proprietären kostenpflichtigen Editor an, der in sehr begrenztem Umfang Elemente löschen, verschieben und Tippfehler in Texten korrigieren kann.

Da Adobe die PDF-Spezifikation offengelegt hat, sind glücklicherweise einige Tools entstanden, auch solche für Linux, die PDF-Dateien öffnen, Elemente daraus extrahieren oder sogar nachbearbeiten können. Das funktioniert allerdings nur befriedigend, wenn der Ersteller die zahlreichen Export-Einstellungen weise gesetzt hat und sein Programm standardkonformes PDF ausspuckt.

Ob und wie gut welche Werkzeuge miteinander harmonieren, soll deshalb eine Art Kreuz-und-Quer-Test (unter Ubuntu 13.10) zeigen: Mit Inkscape, Libre Office Writer und Scribus designten die Linux-Magazin-Tester zunächst mehrere Testdokumente, die sie als PDF-Dateien mit dem jeweiligen Standardeinstellungen exportierten (siehe Kasten "Testdokumente").

Da alle drei Programme auch PDF-Dokumente bearbeiten können, fütterten die Tester die Bande kurzerhand mit ihren Ergebnissen. Zudem warfen sie die Testdokumente den Konvertern Gpdftext, Mutool, Pdftotxt, Pdfimages, Pdftohtml und Pdf2svg vor. Das sind zwar keine Editoren, versprechen aber die Texte, Bilder und im Fall des Mutool sogar die Schriften zu extrahieren. Elemente aus PDF-Dateien zu exportieren, ist nicht abwegig: Im Alltag bekommt man oft Whitepapers, E-Books oder Präsentationen als PDF-Dateien zugeschickt oder findet sie im Netz. Wer daraus zitieren will oder eine Grafik weiterverwenden, handelt klug, die gewünschten Organe digital zu entnehmen, statt pixlige Adobe-Reader-Screenshots anzufertigen.

Testdokumente

In Inkscape platzierten die Tester auf einer leeren Seite ein Polizeiauto aus der Open Clip Art Gallery [1]. Diese Vektorgrafik enthält neben Farbverläufen zahlreiche überlappende Objekte. Darunter setzten die Tester einige Textrahmen mit Nonsense-Text. Zwei Spalten simulierten sie mit überlappenden Textrahmen. Als Schriftart fand die Liberation Sans Verwendung.

In Libre Office Writer verfassten die Tester ein mehrseitiges Dokument mit Inhaltsverzeichnis, Kopf- und Fußzeilen sowie Referenzen und Hyperlinks. Als Grundlage diente ihnen der Artikel "System statt Web" aus dem Linux-Magazin 06/12 [3]. Die Abbildungen importierten sie im PNG-Format und verpassten ihnen als Beschriftung eine fortlaufende Nummer sowie den passenden Untertitel. Code bekam einen farbigen Hintergrund und eine nichtproportionale Schrift verpasst, der Fließtext zeigte sich in der Libration Sans.

Jedem Listing spendierten die Tester einen eigenen Textkasten mit einem Rahmen, den der Haupttext auf einer Seite umfloss. Darüber hinaus presste sich der Fließtext in einigen Passagen in zwei Spalten. Vektorgrafiken in Form zweier einfacher Diagramme aus Libre Office Draw garnieren das Dokument zusätzlich. Es enthält somit auch Libre-Office-spezifischen Elemente, mit denen die PDF-Editoren und -Exporter klarkommen mussten. Darüber hinaus schützt ein Passwort das PDF vor Zugriffen.

Aus Scribus exportierten die Tester die mitgelieferten Vorlagen Broschüre, Business Card Collection, Menükarte, Newsletter und Titelblatt. Sie alle foltern die Importer und Konverter mit komplexen Layouts und Farbverläufen. Bei der Faltblatt-artigen Broschüre überlappen sich mehrere Textkästen, Bitmap- und Vektorgrafik-Objekte. Die Texte umfließen die Objekte teilweise. Analoges gilt für den Newsletter, der einen dreiseitigen Zeitschriftenartikel imitiert. Die Business Card Collection besteht aus 50 bunten Visitenkarten auf einer Seite. Ihre Hintergründe beinhalten Vektorgrafiken mit Farbverläufen. Das Titelblatt wiederum zeigt einen großen aufwändigen Farbverlauf und nicht wenige überlappende Vektorobjekte.

Als eine Art Referenz diente im Test ein originaler einseitiger Linux-Magazin-Artikel [4], wie ihn jedermann im Webshop des Verlages erwerben kann. Er enthält mehrere Textkästen, drei Spalten, zwei Bitmap-Bilder und mehrere Schriftarten. Das PDF erzeugt hatte das DTP-Programm Adobe Indesign unter Mac OS X.

Inkscape

Anwender des Zeichenprogramms Inkscape dürfen nur wenig Einfluss auf das erzeugte PDF nehmen. So haben sie lediglich die Wahl zwischen den PDF-Versionen 1.4 und 1.5. Darüber hinaus dürfen sie den Export auf ausgewählte Teile der Zeichnung beschränken und die Texte in Pfade respektive Linienzüge umwandeln lassen (siehe Kasten "Gute Schriften, schlechte Schriften"). Verzichten Anwender auf letzteres, bettet Inkscape nur Subsets der verwendeten Schriftarten ein.

Beim Import eines PDF-Dokuments kann der User die PDF-Schriften durch namensähnliche, installierte Fonts ersetzen lassen. Sein selbst geschriebenes PDF importierte Inkscape fast mustergültig, lediglich die übereinanderliegenden Textrahmen verschmolz es zu einem einzigen großen. Auch die anderen PDFs konnten sich sehen lassen, sogar das komplexe Layout der Seite aus Indesign blieb mustergültig erhalten (Abbildung 1).

Allerdings steckte Inkscape jede Textzeile oder Wortgruppe in einen eigenen Textrahmen. Ernüchterung stellte sich zudem ein, als die Tester einen der Texte bearbeiten wollten: Da Inkscape nicht die Größe des Textrahmens anpasst, quetschte es die Zeichen übereinander. Die Tester mussten erst einen neuen Textrahmen aufziehen und den Text dort hinein kopieren. Darüber hinaus patzte Inkscape leicht bei den aus Scribus exportierten Vorlagen. Dort fehlten immer wieder komplexe Farbverläufe, beim Titelblatt beispielsweise der rot-blaue Farbverlauf (Abbildungen 2 und 3).

Bei den Visitenkarten brach zudem auf dem Testrechner die Leistung ein – Inkscape ließ sich plötzlich nur stockend bedienen. Abschließend vermag das Zeichenprogramm keine passwortgeschützten PDFs zu öffnen und immer nur eine ausgewählte Seite zu importieren und anzuzeigen. Immerhin hilft eine kleine Vorschau bei der Auswahl der Seite.

Abbildung 1: Inkscape erhält das Layout des Artikels, der Text lässt sich zeilenweise nachbearbeiten.
Abbildung 2: Den rot-blauen Farbverlauf mit dem in Scribus designten Titelblatt …
Abbildung 3: … verschluckt Inkscape.

Gute Schriften, schlechte Schriften

Da nicht auf jedem Rechner alle möglichen Schriftarten installiert sind, lassen sich in PDF-Dokumente die darin verwendeten Schriftarten einbetten. Das allerdings sehen die Hersteller kommerzieller Schriften nicht gerne. Aus diesem Grund packen viele PDF-Ersteller nicht das komplette Schriftset in das PDF, sondern lediglich die Glyphen für alle sichtbaren Zeichen.

Das erschwert wiederum die Nachbearbeitung, da dem korrigierenden Autor mit hoher Wahrscheinlichkeit nicht alle Zeichen zur Verfügung stehen. Alternativ wandeln manche PDF-Exporter die Texte Buchstaben für Buchstaben in Vektorgrafiken um. Diese Kurven lassen sich zwar verlustlos skalieren, das Nachbearbeiten des Textes ist praktisch unmöglich.

Libre Office

Writer in der Version 4.1.2 produziert Dateien in der PDF-Version 1.4. Auf Wunsch des Bearbeiters liefert die Libre-Office-Textverarbeitung aber auch PDF/A-1a (siehe Kasten "Versionen satt"). Anwender dürfen auf den Export erstaunlich umfassend Einfluss nehmen, etwa die Qualität der exportierten Bilder in Prozent angeben, die Libre Office Writer beim Export in das Jpeg-Format überführt. Alternativ ist nur eine »Verlustfreie Kompression« möglich.

Libre Office kann zudem die Open-Document-Datei in das PDF-Dokument einbetten. Das soll ein späteres Nachbearbeiten erleichtern: Ein PDF-Reader bekommt dann das Dokument im PDF-Format vorgesetzt, Libre Office hingegen das eingebettete Open Document. Die Office-Daten fügt Writer dem PDF allerdings nicht als normalen Anhang hinzu, sie erscheint im Adobe Reader folglich nicht auf dem Register »Attachments« .

Auf Wunsch wandern aber Lesezeichen, Kommentare sowie ein aus einem beliebigen Text erzeugtes Wasserzeichen in das PDF. Automatisch erzeugte Tags sollen unter anderem behinderten Menschen den Zugriff auf das PDF erleichtern. Die verwendeten Schriftarten gelangen vollständig in die PDF-Datei, auf Anwenderwunsch auch noch die Standardschriften. Formularelemente wandelt die Textverarbeitung in ein PDF-Formular, für die Übermittlung darf der User zwischen FDF, PDF, HTML und XML wählen.

Versionen satt

Adobe schickte das Portable Document Format bereits 1993 in die Welt. Über die 20 Jahre erweiterte die Firma sechs Mal die Spezifikation. Unter anderem fügte sie Transparenzen, Formulare und immer wieder neue Verschlüsselungsalgorithmen hinzu. Die letzte PDF-Version, 1.7, stammt aus dem Jahr 2006. Des Weiteren dient PDF als Basis für verschiedene Dokumentformate der ISO. Die PDF/X-Standards kommen in der Druckvorstufe zum Einsatz, die PDF/A-Varianten sollen hingegen die Archivierung erleichtern.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 6 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

Linux-Magazin kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Noch ein Bleifreies

    Textsatz in Profiqualität ist ein wichtiges Merkmal, das ein gutes Satzprogramm von Textverarbeitungen abhebt. Der Artikel prüft, wie sich die freie Publishing-Software Scribus in dieser Disziplin im Vergleich mit Tex und den Profianwendungen Adobe Indesign und Quark Xpress schlägt.

  • Endstation PDF?

    PDF-Dateien lassen sich unter Linux leicht erzeugen, aber schwer nachträglich bearbeiten. Wann der Import in Inkscape und wann der Einsatz von PDF-Annotatoren wie des kommerziellen Cabaret Stage oder des freien Flpsed die bessere Lösung ist, untersucht diese Bitparade.

  • Werkbank für Designer

    Die Desktop-Publishing-Software Scribus bietet Funktionen und Hilfsmittel für häufig wiederkehrende Aufgaben, die das Entwerfen handwerklich einwandfreier Layouts erleichtern sollen. Doch wie schlägt sich die freie Software im Vergleich zur proprietären Konkurrenz von Adobe und Quark?

  • Libre Office importiert erstmals Corel-Draw-Text

    Der Libre-Office-Entwickler Fridrich Strba meldet, er habe erstmals Text aus Corel-Draw-Dokumenten in die freie Bürosuite importiert.

  • Geschickt platziert

    Für professionelles Layout taugen Open Office & Co. nicht: Grafiken lassen sich nicht exakt genug platzieren und auch bei der Qualität des Blocksatzes hapert es. Eine Testserie des Linux-Magazins klärt, ob das freie Scribus Profi-Software wie Quark Xpress oder Indesign ersetzen kann.

comments powered by Disqus

Stellenmarkt

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.