Open Source im professionellen Einsatz

LGPL-Bibliothek für die Silbentrennung

17.03.2008

Der Entwickler Steve Wolter hat Version 1.0 von Libhyphenate, seiner C++-Bibliothek für Silbentrennung, veröffentlicht. Eine Beispielanwendung hat er ebenfalls geschrieben.

161

Libhyphenate setzt den Trennungsalgorithmus um, der auch im Satzsystem Tex Verwendung findet und in der Doktorabeit "Word Hy-phen-a-tion by Com-put-er" von Frank Liang beschrieben ist. Derzeit liefert die Bibliothek Trennwörterbücher für US-Englisch, Deutsch und Französisch mit. Weitere sollen sich nach Angaben des Programmautors aus den entsprechenden Tex-Dateien erzeugen lassen. Die aktuelle Release behebt Probleme mit der UTF-8-Kodierung in deutschen Texten, die in Vorgängerversionen auftraten.

Wolter hat bereits eine erste kleine Anwendung auf Basis seiner C++-Bibliothek geschaffen: XHTML-Hyphenate, seit kurzem in Version 1.0 erhältlich, bietet Silbentrennung für XHTML-Dokumente. Dazu fügt es in alle Textinhalte (von Überschriften abgesehen) an den Silbengrenzen das bedingte UTF-8-Trennzeichen U+00AD ein, das viele Browser interpretieren, Firefox aber ignoriert. Die korrekte Spracheinstellung für die Trennung entnimmt das Programm den Attribut "xml:lang".

XHTML-Hyphenate steht unter GPL, die Bibliothek Libhyphenate unter der LGPL. Beide sind auf der Homepage des Autors als Quelltext-Archive erhältlich.

comments powered by Disqus

Ausgabe 05/2014

Digitale Ausgabe: Preis € 6,40
(inkl. 19% MwSt.)

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.

Insecurity Bulletin

Insecurity Bulletin

Im Insecurity Bulletin widmet sich Mark Vogelsberger aktuellen Sicherheitslücken sowie Hintergründen und Security-Grundlagen. mehr...

Linux-Magazin auf Facebook