Aus Linux-Magazin 02/2014

PDF-Ersteller, -Extrahierer und -Editoren im Quertest

© tiero, alexwhite, 123RF.com

Dem Namen nach ist man mit dem Portable Document Format immer gut unterwegs. Der folgende Test erzeugt erst PDF-Dateien, um sie dann mit verschiedene Open-Source-Programmen in die Mangel zu nehmen. Einige der Editoren und Extrahierer machen eine ganz gute Figur, andere gehören in den Lumpensack.

Adobe hat PDF als ein layouterhaltendes Transportformat für finale Dokumente konzipiert, PDF-Dateien nachträglich zu bearbeiten ist – abgesehen von der serienmäßigen Notiz- und Kommentarfunktion – nicht einfach. Für Mac und Windows bietet der Hersteller aber einen proprietären kostenpflichtigen Editor an, der in sehr begrenztem Umfang Elemente löschen, verschieben und Tippfehler in Texten korrigieren kann.

Da Adobe die PDF-Spezifikation offengelegt hat, sind glücklicherweise einige Tools entstanden, auch solche für Linux, die PDF-Dateien öffnen, Elemente daraus extrahieren oder sogar nachbearbeiten können. Das funktioniert allerdings nur befriedigend, wenn der Ersteller die zahlreichen Export-Einstellungen weise gesetzt hat und sein Programm standardkonformes PDF ausspuckt.

Ob und wie gut welche Werkzeuge miteinander harmonieren, soll deshalb eine Art Kreuz-und-Quer-Test (unter Ubuntu 13.10) zeigen: Mit Inkscape, Libre Office Writer und Scribus designten die Linux-Magazin-Tester zunächst mehrere Testdokumente, die sie als PDF-Dateien mit dem jeweiligen Standardeinstellungen exportierten (siehe Kasten “Testdokumente”).

Da alle drei Programme auch PDF-Dokumente bearbeiten können, fütterten die Tester die Bande kurzerhand mit ihren Ergebnissen. Zudem warfen sie die Testdokumente den Konvertern Gpdftext, Mutool, Pdftotxt, Pdfimages, Pdftohtml und Pdf2svg vor. Das sind zwar keine Editoren, versprechen aber die Texte, Bilder und im Fall des Mutool sogar die Schriften zu extrahieren. Elemente aus PDF-Dateien zu exportieren, ist nicht abwegig: Im Alltag bekommt man oft Whitepapers, E-Books oder Präsentationen als PDF-Dateien zugeschickt oder findet sie im Netz. Wer daraus zitieren will oder eine Grafik weiterverwenden, handelt klug, die gewünschten Organe digital zu entnehmen, statt pixlige Adobe-Reader-Screenshots anzufertigen.

Testdokumente

In Inkscape platzierten die Tester auf einer leeren Seite ein Polizeiauto aus der Open Clip Art Gallery [1]. Diese Vektorgrafik enthält neben Farbverläufen zahlreiche überlappende Objekte. Darunter setzten die Tester einige Textrahmen mit Nonsense-Text. Zwei Spalten simulierten sie mit überlappenden Textrahmen. Als Schriftart fand die Liberation Sans Verwendung.

In Libre Office Writer verfassten die Tester ein mehrseitiges Dokument mit Inhaltsverzeichnis, Kopf- und Fußzeilen sowie Referenzen und Hyperlinks. Als Grundlage diente ihnen der Artikel “System statt Web” aus dem Linux-Magazin 06/12 [3]. Die Abbildungen importierten sie im PNG-Format und verpassten ihnen als Beschriftung eine fortlaufende Nummer sowie den passenden Untertitel. Code bekam einen farbigen Hintergrund und eine nichtproportionale Schrift verpasst, der Fließtext zeigte sich in der Libration Sans.

Jedem Listing spendierten die Tester einen eigenen Textkasten mit einem Rahmen, den der Haupttext auf einer Seite umfloss. Darüber hinaus presste sich der Fließtext in einigen Passagen in zwei Spalten. Vektorgrafiken in Form zweier einfacher Diagramme aus Libre Office Draw garnieren das Dokument zusätzlich. Es enthält somit auch Libre-Office-spezifischen Elemente, mit denen die PDF-Editoren und -Exporter klarkommen mussten. Darüber hinaus schützt ein Passwort das PDF vor Zugriffen.

Aus Scribus exportierten die Tester die mitgelieferten Vorlagen Broschüre, Business Card Collection, Menükarte, Newsletter und Titelblatt. Sie alle foltern die Importer und Konverter mit komplexen Layouts und Farbverläufen. Bei der Faltblatt-artigen Broschüre überlappen sich mehrere Textkästen, Bitmap- und Vektorgrafik-Objekte. Die Texte umfließen die Objekte teilweise. Analoges gilt für den Newsletter, der einen dreiseitigen Zeitschriftenartikel imitiert. Die Business Card Collection besteht aus 50 bunten Visitenkarten auf einer Seite. Ihre Hintergründe beinhalten Vektorgrafiken mit Farbverläufen. Das Titelblatt wiederum zeigt einen großen aufwändigen Farbverlauf und nicht wenige überlappende Vektorobjekte.

Als eine Art Referenz diente im Test ein originaler einseitiger Linux-Magazin-Artikel [4], wie ihn jedermann im Webshop des Verlages erwerben kann. Er enthält mehrere Textkästen, drei Spalten, zwei Bitmap-Bilder und mehrere Schriftarten. Das PDF erzeugt hatte das DTP-Programm Adobe Indesign unter Mac OS X.

Inkscape

Anwender des Zeichenprogramms Inkscape dürfen nur wenig Einfluss auf das erzeugte PDF nehmen. So haben sie lediglich die Wahl zwischen den PDF-Versionen 1.4 und 1.5. Darüber hinaus dürfen sie den Export auf ausgewählte Teile der Zeichnung beschränken und die Texte in Pfade respektive Linienzüge umwandeln lassen (siehe Kasten “Gute Schriften, schlechte Schriften”). Verzichten Anwender auf letzteres, bettet Inkscape nur Subsets der verwendeten Schriftarten ein.

Beim Import eines PDF-Dokuments kann der User die PDF-Schriften durch namensähnliche, installierte Fonts ersetzen lassen. Sein selbst geschriebenes PDF importierte Inkscape fast mustergültig, lediglich die übereinanderliegenden Textrahmen verschmolz es zu einem einzigen großen. Auch die anderen PDFs konnten sich sehen lassen, sogar das komplexe Layout der Seite aus Indesign blieb mustergültig erhalten (Abbildung 1).

Allerdings steckte Inkscape jede Textzeile oder Wortgruppe in einen eigenen Textrahmen. Ernüchterung stellte sich zudem ein, als die Tester einen der Texte bearbeiten wollten: Da Inkscape nicht die Größe des Textrahmens anpasst, quetschte es die Zeichen übereinander. Die Tester mussten erst einen neuen Textrahmen aufziehen und den Text dort hinein kopieren. Darüber hinaus patzte Inkscape leicht bei den aus Scribus exportierten Vorlagen. Dort fehlten immer wieder komplexe Farbverläufe, beim Titelblatt beispielsweise der rot-blaue Farbverlauf (Abbildungen 2 und 3).

Bei den Visitenkarten brach zudem auf dem Testrechner die Leistung ein – Inkscape ließ sich plötzlich nur stockend bedienen. Abschließend vermag das Zeichenprogramm keine passwortgeschützten PDFs zu öffnen und immer nur eine ausgewählte Seite zu importieren und anzuzeigen. Immerhin hilft eine kleine Vorschau bei der Auswahl der Seite.

Abbildung 1: Inkscape erhält das Layout des Artikels, der Text lässt sich zeilenweise nachbearbeiten.

Abbildung 1: Inkscape erhält das Layout des Artikels, der Text lässt sich zeilenweise nachbearbeiten.

Abbildung 2: Den rot-blauen Farbverlauf mit dem in Scribus designten Titelblatt …

Abbildung 2: Den rot-blauen Farbverlauf mit dem in Scribus designten Titelblatt …

Abbildung 3: … verschluckt Inkscape.

Abbildung 3: … verschluckt Inkscape.

Gute Schriften, schlechte Schriften

Da nicht auf jedem Rechner alle möglichen Schriftarten installiert sind, lassen sich in PDF-Dokumente die darin verwendeten Schriftarten einbetten. Das allerdings sehen die Hersteller kommerzieller Schriften nicht gerne. Aus diesem Grund packen viele PDF-Ersteller nicht das komplette Schriftset in das PDF, sondern lediglich die Glyphen für alle sichtbaren Zeichen.

Das erschwert wiederum die Nachbearbeitung, da dem korrigierenden Autor mit hoher Wahrscheinlichkeit nicht alle Zeichen zur Verfügung stehen. Alternativ wandeln manche PDF-Exporter die Texte Buchstaben für Buchstaben in Vektorgrafiken um. Diese Kurven lassen sich zwar verlustlos skalieren, das Nachbearbeiten des Textes ist praktisch unmöglich.

Libre Office

Writer in der Version 4.1.2 produziert Dateien in der PDF-Version 1.4. Auf Wunsch des Bearbeiters liefert die Libre-Office-Textverarbeitung aber auch PDF/A-1a (siehe Kasten “Versionen satt”). Anwender dürfen auf den Export erstaunlich umfassend Einfluss nehmen, etwa die Qualität der exportierten Bilder in Prozent angeben, die Libre Office Writer beim Export in das Jpeg-Format überführt. Alternativ ist nur eine »Verlustfreie Kompression« möglich.

Libre Office kann zudem die Open-Document-Datei in das PDF-Dokument einbetten. Das soll ein späteres Nachbearbeiten erleichtern: Ein PDF-Reader bekommt dann das Dokument im PDF-Format vorgesetzt, Libre Office hingegen das eingebettete Open Document. Die Office-Daten fügt Writer dem PDF allerdings nicht als normalen Anhang hinzu, sie erscheint im Adobe Reader folglich nicht auf dem Register »Attachments« .

Auf Wunsch wandern aber Lesezeichen, Kommentare sowie ein aus einem beliebigen Text erzeugtes Wasserzeichen in das PDF. Automatisch erzeugte Tags sollen unter anderem behinderten Menschen den Zugriff auf das PDF erleichtern. Die verwendeten Schriftarten gelangen vollständig in die PDF-Datei, auf Anwenderwunsch auch noch die Standardschriften. Formularelemente wandelt die Textverarbeitung in ein PDF-Formular, für die Übermittlung darf der User zwischen FDF, PDF, HTML und XML wählen.

Versionen satt

Adobe schickte das Portable Document Format bereits 1993 in die Welt. Über die 20 Jahre erweiterte die Firma sechs Mal die Spezifikation. Unter anderem fügte sie Transparenzen, Formulare und immer wieder neue Verschlüsselungsalgorithmen hinzu. Die letzte PDF-Version, 1.7, stammt aus dem Jahr 2006. Des Weiteren dient PDF als Basis für verschiedene Dokumentformate der ISO. Die PDF/X-Standards kommen in der Druckvorstufe zum Einsatz, die PDF/A-Varianten sollen hingegen die Archivierung erleichtern.

Linkisch eingebettet

Weitere Einstellungen beeinflussen die Darstellung im Adobe Reader: Unter anderem lässt sich die Menüleiste ausblenden und das Dokument nach dem Öffnen direkt als Doppelseite anzeigen. Referenzen, Links, Fußnoten und die Einträge im Inhaltsverzeichnis verwandelt Libre Writer in passende PDF-Links. Später genügt ein Klick, um zum verlinkten Kapitel oder Website zu gelangen.

Der Autor kann sein Dokument mit einem Passwort vor neugierigen Blicken schützen sowie den Funktionsumfang beschränken, etwa das Drucken des Dokuments verbieten. Dies ist nur Benutzern erlaubt, die ein weiteres Passwort eintippen, das der Autor hinterlegt hatte.

PDF-Dokumente öffnet Libre Office nicht in der Textverarbeitung Writer, sondern im Zeichenmodul Draw. Das wiederum hinterließ gemischte Ergebnisse: Der Artikel aus Indesign ließ sich gerade noch als solcher erkennen (Abbildung 4). Die Texte waren zudem komplett und ließen sich bearbeiten. Beim Dokument aus Inkscape zerwürfelte Libre Office jedoch die Vektorgrafik (Abbildung 5). Auch die PDF-Dateien aus Scribus enthielten zahlreiche kleine Layoutfehler, besonders häufig ragten lange Textrahmen über den Seitenrand hinaus, ähnlich wie beim Artikel in Abbildung 4.

Den besten Eindruck hinterließ noch das aus Writer exportierte PDF-Dokument – wohlgemerkt ohne die eingebettete Open-Document-Datei: Das Ergebnis war vollständig, das Layout blieb exakt erhalten. Allerdings steckte Libre Draw auch hier jede Textzeile in einen eigenen Textrahmen. Komplexere Grafiken im PDF verzögerten auf dem Testsystem zudem den Import. Bei den Visitenkarten aus Scribus stürzte Libre Office sogar reproduzierbar ab. Dass auch Draw mit passwortgeschützten PDF-Dokumenten umgehen kann, tröstet über die genannten Unzulänglichkeiten kaum hinweg.

Abbildung 4: Unter Libre Office Draw ist der "Alltag eines Sysadmins" recht chaotisch, wenngleich immer noch vollständig.

Abbildung 4: Unter Libre Office Draw ist der “Alltag eines Sysadmins” recht chaotisch, wenngleich immer noch vollständig.

Abbildung 5: Obwohl Draw ein Vektorzeichenprogramm ist, verstümmelte es den in Inkscape produzierten Polizeiwagen.

Abbildung 5: Obwohl Draw ein Vektorzeichenprogramm ist, verstümmelte es den in Inkscape produzierten Polizeiwagen.

Scribus

Das Layoutprogramm Scribus 1.4.3 kennt die PDF-Versionen 1.3, 1.4, 1.5 und PDF/X-3. Bilder packt das DTP-Programm auf Wunsch entweder mit dem Zip-Verfahren oder überführt sie ins Jpeg-Format. Im letzten Fall wählt der Anwender eine von fünf verschiedenen Qualitätsstufen aus. Scribus kann Vorschaubilder erzeugen und Lesezeichen integrieren sowie Texte und Vektorgrafiken komprimieren. Des Weiteren bestimmt der Anwender, welche der im Dokument verwendeten Schriftarten Scribus ins PDF einweben soll. Alternativ lässt er die Texte in Vektorpfade wandeln.

Auf Wunsch überblendet das Layoutprogramm die Wechsel zwischen einzelnen Seiten mit Präsentationseffekten. Wie bei Libre Office Writer dürfen User die Anzeige im Adobe Reader beeinflussen und beispielsweise die Menüleiste ausblenden. Über Kennwörter lässt sich der Zugriff auf das Dokument einschränken, wobei Konkurrent Libre Writer wesentlich feinere Einstellungen anbietet. Scribus vermag beispielsweise den Druck nur komplett zu verbieten, während Writer es noch zulässt, mit einer reduzierten Auflösung zu drucken. Im Gegenzug schreibt Scribus auf Wunsch Farbbalken, Anschnittmarken und weitere im Druck hilfreiche Elemente in das PDF. Bei PDF/X-3-Dokumenten versteht es sich darauf, ein explizites Farbprofil zu hinterlegen.

Import: Nicht genügend

War der PDF-Import von Libre Office noch durchwachsen, erwies sich der von Scribus 1.4.3 als schlichtweg unbrauchbar. In allen importierten PDF-Dokumenten fehlten Texte (Abbildung 6). Scribus behandelt das PDF zudem als eine große Vektorgrafik. Anwender können lediglich die Gruppe auflösen und dann einige der nach dem Import übrig gebliebenen Bestandteile verschieben oder löschen.

Den Vogel schoss Scribus aber ab, als es nach dem Import eines von ihm selbst geschriebenen PDFs abstürzte. Da passt es auch ins Bild, dass das DTP-Programm passwortgeschützte Dokumente zu verarbeiten verweigert.

Abbildung 6: Vom Artikel aus dem Linux-Magazin lässt Scribus nur wenig Brauchbares übrig.

Abbildung 6: Vom Artikel aus dem Linux-Magazin lässt Scribus nur wenig Brauchbares übrig.

Gpdftext

Das Tool Gpdftext öffnet den Text aus PDFs für E-Books in einem Texteditor [2]. Das sich auf GTK+ stützende Programm verdaut jedoch auch normale PDFs, solange sie nicht verschlüsselt sind. Die Tester setzten die Version 0.1.6 auf die Testdokumente an. Gpdftext konnte alle Texte aus den PDFs extrahieren und anzeigen. In jedem Fall ging jedoch das Layout verloren, der herausgelöste Text bildet eine einzige Bleiwüste (Abbildung 7).

Abbildung 7: Gpdftext lässt sich durch die Spalten im Linux-Magazin-Artikel verwirren. Insbesondere das Ende beider Texte zu vergleichen, lohnt.

Abbildung 7: Gpdftext lässt sich durch die Spalten im Linux-Magazin-Artikel verwirren. Insbesondere das Ende beider Texte zu vergleichen, lohnt.

Bei mehrspaltigen Texten, wie dem von Indesign ausgespuckten Artikel, waren die Sätze teils verwürfelt, teils ineinander verschachtelt. Gpdftext beharrt offenbar auf einspaltigen Texten, wie sie für E-Books typisch sind. In den Grundeinstellungen kann der Benutzer das Tool anweisen, einzelne Zeilen nicht mehr zusammenzuführen. Im Test blieb diese Einstellung ohne Auswirkung, der Text blieb ein dadaistischer Buchstabenblock. Darüber hinaus versucht Gpdftext mit Bindestrichen getrennte Wörter wieder zusammenzuziehen – was aber im Test nicht immer funktionierte. In jedem Fall kommt der Anwender nicht ums Nachbearbeiten herum.

Mutool

Zum einfachen PDF-Betrachter Mupdf gehört das kleine Kommandozeilenwerkzeug Mutool [5]. Der kalifornische Hersteller Artifex bezeichnet es als “Schweizer Messer unter den PDF-Manipulationswerkzeugen”. Sollte das stimmen, klemmt bei dem eidgenossenschaftlichen Qualitätstool aber einiges: Es kann nämlich lediglich das PDF neu generieren, die Schriften und Bilder extrahieren, ein paar Informationen anzeigen sowie die Seiten auf einem riesigen Poster anordnen. Wie Mupdf steht es unter der Affero GPL. Die Tester griffen zur Version 1.2.2, die in den Repositories von Ubuntu 13.10 als »mupdf-tools« -Paket lagert.

Aus den mit Indesign, Libre Office und Scribus geschriebenen Dokumenten extrahierte Mutool klaglos alle Bilder sowie die zugehörigen Schriften. Da das Werkzeug nichts mit Vektorgrafiken anzufangen weiß, lieferte es beim Inkscape-PDF nur die verwendete Schriftart Deja-Vu-Sans. Mutool speichert die Schriften in dem Dateiformat, das es im PDF vorfindet. Bei Indesign-Dokumenten traten so Postscript-Schriften in den Formaten CFF und CID [6] zu Tage. Die freien Anwendungen hingegen hatten Truetype-Fonts einkonserviert. Eine Ausnahme bildet Scribus, das Schriften als PFA-Dateien inkludiert.

Bilder liefert Mutool grundsätzlich im PNG-Format, andere Bildarten konvertiert das Tool eigenmächtig dorthin. Verschlüsselte PDF-Dateien öffnet Mutool, wenn der User ihm das Passwort über einen extra Parameter verrät.

Poppler Utilities

Das Kommandozeilentool »pdftotext« gehört mittlerweile zur Werkzeugsammlung Poppler, die ihrerseits als Fork von Xpdf entstand [7]. Die meisten Distributionen bieten Poppler in ihren Repositories an, unter Ubuntu 13.10 steckt »pdftotext« im Paket Poppler-utils. Zum Test trat die Version 0.24.1 an.

Wie sein Name bereits andeutet, extrahiert Pdftotext den Text aus einem PDF-Dokument. Die Ergebnisse bedürfen in jedem Fall einer Nachbearbeitung: Bei mehrspaltigen Dokumenten fängt die Extraktion links oben an und hört rechts unten auf einer Seite auf. Der Autorenkasten des Beispielartikels landete so mitten im Text. Immerhin gingen keine Texte verloren.

Über Kommandozeilenparameter dürfen Anwender die Analyse auf einzelne Seiten und rechteckige Bereiche einschränken. Auf Wunsch versucht Pdftotext das Layout zu erhalten (Abbildungen 8 und 9). Spalten und Einrückungen simuliert es dabei mit Leerzeichen. Hierdurch lässt sich das Libre-Office-Testdokument lesen, die Leerzeichen behindern aber das Weiterverarbeiten.

Zwar dürfen User auch das Zeichen-Encoding vorgeben, die aus den Beispieldokumenten erzeugten Texte hatten dennoch viele Sonderzeichen nicht erkannt. Mit dem Passwortschutz des Libre-Office-Dokuments hatte Pdftotext keine Probleme, User müssen lediglich das Kennwort mit einem Parameter übergeben.

Abbildung 8: Wer das von Libre Office angelandete PDF-Dokument an Pdftotext mit dem Parameter »-layout« überstellt, …

Abbildung 8: Wer das von Libre Office angelandete PDF-Dokument an Pdftotext mit dem Parameter »-layout« überstellt, …

Abbildung 9: … erhält dieses Ergebnis.

Abbildung 9: … erhält dieses Ergebnis.

Bilder fischen

Bestandteil der Poppler-Tools sind neben »pdftotext« auch »pdfimages« , das Bilder extrahiert, sowie »pdftohtml« , das ein PDF in HTML-Seiten konvertiert. Pdfimages löst nur Bitmapbilder aus dem PDF, die es alsdann im PPM-Format speichert. Erst mit dem Parameter »-j« legt es Jpeg-Bilder auch als solche auf der Festplatte ab. Passwörter übergibt der User wie bei Pdftotext, mit Vektorgrafiken kann das Tool nicht umgehen.

Pdftohtml verhält sich wie eine Mischung aus Pdftotext und Pdfimages: Es löst die Bilder heraus und packt den Text in eine oder mehrere HTML-Dateien. Um dabei keinen Zeichensalat zu ernten, gaben die Tester explizit die Zeichencodierung an. Pdftohtml übernimmt auf Wunsch die Links im PDF-Dokument in HTML.

Die extrahierten Texte waren genau so durcheinandergewürfelt wie bei Pdftotext, wobei User in diesem Fall nicht das Layout erzwingen können. Als Entschädigung kann das Tool ein so genanntes komplexes Dokument anlegen. Dabei wandert das Layout mit den Bildern in ein großes PNG-Bild, über das der Browser dann den Text legt (Abbildung 10). Das Ergebnis gibt zwar eine Ahnung vom Ursprungslayout, kopieren und nachbearbeiten lässt sich so allerdings nur der Text. Darüber hinaus ignoriert Pdftohtml sämtliche Vektorgrafiken.

Abbildung 10: Der erste, außerordentlich gute Eindruck täuscht: Die hier von Pdftothml produzierte HTML-Seite besteht aus einem riesigen PNG-Bild, über dem wiederum der Text liegt.

Abbildung 10: Der erste, außerordentlich gute Eindruck täuscht: Die hier von Pdftothml produzierte HTML-Seite besteht aus einem riesigen PNG-Bild, über dem wiederum der Text liegt.

Pdf2svg

Das Tool Pdf2svg überführt mit Hilfe von Poppler und Cairo einzelne oder alle PDF-Seiten ins SVG-Format [8]. Die SVG-Dateien lassen sich anschließend etwa mit Inkscape auseinandernehmen beziehungsweise weiterbearbeiten. Die Tester haben sich die Version 0.2.2 des Tools angesehen. Texte zerhackt »pdf2svg« ohne erkennbare Regeln und setzt jedes Teilstückchen in einen eigenen Textkasten.

Das Layout blieb immerhin bei allen Testdokumenten erstaunlich intakt. Das Gleiche lässt sich von Vektorgrafiken sagen, Bitmap-Bilder speichert Pdf2svg innerhalb der erzeugten SVG-Datei. Einzig bei den PDF-Dateien aus Scribus stimmten die Farbverläufe nicht mehr, beim Titelblatt erschienen die Streben beispielsweise als durchgehend rot. Passwortgeschützte PDF-Dokumente kann das Tool nicht verarbeiten.

Durchwachsene Allrounder

Die verwendeten Testdokumente konnten zwar nicht alle Aspekte des PDF-Ex- und Imports abdecken, lieferten aber dennoch einige interessante Ergebnisse (siehe Tabelle 1). Inkscape, Libre Office Writer und Scribus bieten zwar bei Weitem nicht den Funktionsumfang und die Möglichkeiten von Adobe Acrobat, erzeugen aber standardkonforme und qualitativ recht gute PDF-Dokumente.

Beim Import von PDF-Dokumenten offenbaren sich hingegen gewaltige Unterschiede: Inkscape importiert Dokumente klaglos, das Layout bleibt erhalten und die Texte kann man nachbearbeiten – wenn auch nicht besonders komfortabel. Allerdings öffnet das Zeichenprogramm immer nur eine Seite. Libre Office verdaut von ihm selbst geschriebene PDF-Dateien am besten, bei anderen PDFs müssen Anwender mit einem leicht zerschossenen Layout rechnen. Das DTP-Programm Scribus öffnete im Test keine einzige PDF-Datei fehlerfrei und scheidet bereits in der ersten Vorrunde zur Import-Liga aus.

Tabelle 1

Funktionstest – PDFs einlesen und bearbeiten

Ersteller:

Inkscape

Libre Office Writer

Scribus

Indesign

Editoren

Inkscape

gut

gut

gut

gut

Libre Office Draw

befriedigend

gut

befriedigend

befriedigend

Scribus

mangelhaft

mangelhaft

mangelhaft

mangelhaft

Spezialprogramme

Gpdftext

gut

gut

gut

gut

Mutool

gut

gut

gut

gut

Pstotext

gut, kann Layout behalten

gut, kann Layout behalten

gut, kann Layout behalten

gut, kann Layout behalten

Pdfimages

gut

gut

gut

gut

Pdftohtml

befriedigend

befriedigend

befriedigend

befriedigend

Pdf2svg

gut

gut

gut

gut

Schlanke Spezialisten

Besser schlagen sich die kleinen Spezialtools für die Kommandozeilen. Bei Pdftotext beispielsweise ist das Layout nach der Konvertierung zwar Geschichte, die enthaltenen Texte kommen komplett an. Hat allerdings jemand beim PDF-Schreiben die Texte als Pfade gespeichert, ist Pdftotext machtlos. Gleiches gilt für Gpdftext, das einen riesigen Textblock produziert. Die Texte aus Spalten sind zudem ineinander verschachtelt.

Sämtliche Bilder und Schriftarten holt Mutool aus den PDFs. Bei den Schriften müssen Anwender darauf hoffen, dass der Autor die komplette Schriftart eingebunden hat. Die Wahrscheinlichkeit ist dafür bei Dokumenten aus Libre Office und Inkscape am höchsten. Bilder spuckt Mutool allerdings immer im PNG-Format aus. Hier übernimmt Pdfimages, das genau wie Mutool sämtliche Bitmap-Bilder aus dem PDF extrahierte.

Wer Vektorgrafiken aus einem PDF herausschälen möchte, dem bleibt nur der Griff zu Pdf2svg und das Ausschneiden und Weiterverarbeiten mit Inkscape. Pdftohtml taugt nur für einfache PDF-Dokumente. Hier sollten Anwender besser die Einzelteile mit den anderen Tools extrahieren und dann selbst zu einem HTML-Dokument zusammensetzen.

Infos

  1. Open Clip Art: http://openclipart.org
  2. Gpdftext: http://gpdftext.sourceforge.net
  3. Tim Schürmann, “System statt Web – PHP für die Kommandozeile”: Linux-Magazin 06/12, S. 30, https://www.linux-magazin.de/Ausgaben/2012/06/PHP-CLI
  4. Charly Kühnast, “I’ll be back-up – Aus dem Alltag eines Sysadmin: Backup2l”: Linux-Magazin 01/14, S. 71
  5. Mupdf: http://www.mupdf.com
  6. Postscript-Fontformate: http://de.wikipedia.org/wiki/PostScript-Fontformate
  7. Poppler: http://poppler.freedesktop.org
  8. Pdf2svg: http://www.cityinthesky.co.uk/opensource/pdf2svg/
DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDFUmfang: 6 HeftseitenPreis €0,99
(inkl. 19% MwSt.)
LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE Print-Ausgaben Digitale Ausgaben
ABONNEMENTS Print-Abos Digitales Abo
TABLET & SMARTPHONE APPS Readly Logo
E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben