Aus Linux-Magazin 10/2007

Vier Rechtschreibprogramme im Test

Freie Rechtschreibprüfungen kranken an zu kleinen Wortlisten. Sie belästigen den Anwender daher mit vielen ihnen unbekannten Wörtern. Diese Bitparade vergleicht die drei verbreitetsten Linux-Spellchecker mit dem ebenfalls für Linux verfügbaren kommerziellen Duden-Korrektor.

Die Tastatur ist eine unvollkommene Mensch-Maschine-Schnittstelle: Das fehlerfreie Eintippen langer Texte gelingt nicht immer, gerade wenn die Zeit drängt. Zudem erschwert die wechselvolle Geschichte der deutschen Rechtschreibung orthografisch (oder orthographisch) korrektes Deutsch. Wer nicht den Luxus eines sprachkundigen Korrektorats genießt, muss auf eine Rechtschreib-Software zurückgreifen, da die Betriebsblindheit gegenüber eigenen Texten eine zusätzliche Hürde beim Finden der Rechtschreibfehler aufbaut.

Wie bei allen Filtern, die gültige und ungültige Werte trennen, gibt es auch bei der Rechtschreibprüfung False-negatives und False-positives. Buchstabendrehern wie in “Art und Wiese” gegenüber sind die Spellchecker bislang machtlos: “Wiese” erkennen sie als richtig geschriebenes Wort, die Bedeutung der Wortfolge bleibt ihnen verborgen.

Das Problem der False-positives stellt vor allem die Geduld des Anwenders auf die Probe. Die unter Linux verbreiteten Prüfprogramme wie Ispell oder Aspell muten es dem Anwender oft zu, mehrere Wörter pro Absatz von Hand auf Richtigkeit zu prüfen – ihre Wortlisten sind einfach zu klein.

Umfangreiche Wörterbücher zusammenstellen und aufbereiten erfordert viel Experten-Arbeitszeit, sodass die Open-Source-Gemeinde ihre Schwierigkeiten damit hat. Daher testet diese Bitparade neben den freien Rechtschreibprüfungen Ispell [1], Aspell [2] und Hunspell [3] die für etwa 20 Euro verfügbare kommerzielle Software Duden-Korrektor [4].

Intelligenz gefragt

Im Deutschen und vielen anderen Sprachen existieren die meisten Wörter in unterschiedlichen Formen (leg-t, leg-te, ge-leg-t oder Tisch, Tisch-e, Tisch-es), Vor- und Nachsilben verändern die Bedeutung von Wörtern (Sicht, Um-sicht oder trink-en, trink-bar), mehrere eigenständige Wörter lassen sich kombinieren (blau-grau, Arbeit-s-speicher). Aus der Kombination aller Grundelemente und aller ihrer möglichen Vor- und Nachsilben ergibt sich folglich eine schier unendliche Anzahl orthografisch korrekter Wortformen.

Sprache lässt sich daher in der Praxis nicht mit statischen Listen erfassen. Vielmehr muss Rechtschreibsoftware Regeln beherrschen, nach denen sie die Elemente der Sprache kombiniert. Dabei gibt es eine ganze Reihe von Herausforderungen zu meistern: “Legtest” ist eine korrekte Wortform, “trinktest” dagegen sollte der Rechtschreibprüfung aufstoßen. Beim Vergleich von “Arbeit-s-speicher” und “Regen-messer” fällt auf, dass im ersten Fall zwischen den Wortbestandteile ein zusätzliches Fugen-s steht, im zweiten Fall nicht.

“Tische” ist der Plural von “Tisch”, “Computer” hingegen verändert sich in der Mehrzahl nicht, “Computere” muss die Rechtschreibprüfung daher als Tippfehler erkennen, zumal [R] und [E] auf der Tastatur nebeneinander liegen: Das zusätzliche “e” schleicht sich leicht beim Tippen ein.

Formenrepertoire

Ein Beispiel, wie Rechtschreib-Software Wortbildungsregeln umsetzt, ist die relativ neue und leistungsfähige Rechtschreibprüfung Hunspell [3], die Open Office seit Version 2.0.2 nutzt (Abbildung 1). Das Wörterbuch besteht aus einer Wortliste und einem Formenrepertoire, auf das die Wortliste Bezug nimmt. Eine eigene Regelsprache verknüpft die Wortgrundbestandteile in der Wortliste mit bestimmten Klassen aus der Formenliste. So verweist der Wörterbucheintrag “töt” zum Beispiel auf eine Formenreihe wie “-e, -est, -et, -en”. Das Wörterbuch legt außerdem fest, dass “töt” verpflichtend eine Endung hinzuzufügen ist, “steh” hingegen nicht. Oft muss die Rechtschreibprüfung einen Zusammenhang zwischen Vor- und Nachsilbe berücksichtigen: “ge-” als Vorsilbe fordert die Endung “t” (“ge-leg-t). Den vollen Umfang der Hunspell-Regelsprache erläutert das Handbuch [5].

Auf den Zahn gefühlt

Ein wichtiges Kriterium für die Qualität einer Rechtschreibprüfung ist die Anzahl der False-positives, also jener Wörter, die der Engine unbekannt, aber richtig geschrieben sind. Sie bedeuten für den Anwender einerseits Aufwand, der eventuell dazu führt, dass die elektronische Prüfung länger dauert als ein gründliches Korrekturlesen.

Bei der manuellen Korrektur schleichen sich zudem leicht neue Fehler ein. Im schlimmsten Fall übernimmt der Benutzer ein falsch geschriebenes Wort in die Wortliste, sodass es die Prüfung in Zukunft nicht mehr findet. Abhilfe schaffen sinnvolle Korrekturvorschläge.

False-negatives, die durch gleichlautende, im Sinnzusammenhang jedoch falsche Wörter entstehen, kann keiner der getesteten Spellchecker erkennen. Dass moderne Rechtschreib-Software jedoch Wortformen aus Grundwörtern und Vor- und Nachsilben bildet, birgt die Gefahr besonders schwer wiegender False-negatives: Wenn eine Rechtschreibprüfung schon nicht den Sinn der Sätze versteht, sollten sich Anwender wenigstens darauf verlassen können, dass sie unabhängig vom Kontext falsch geschriebene Wörter zuverlässig findet.

Diese Bitparade testet die Spellchecker an drei Texten aus unterschiedlichen Themenbereichen: dem Beginn einer Linux-Magazin-News über den Google-Desktop für Linux (1797 Zeichen, [6]), einem Ausschnitt aus Rilkes Erzählung “Die Turnstunde” (1847 Zeichen, [7]) und einem Interview zum Thema “Notenprobleme” (1843 Zeichen, [8]). Eigennamen zählen bei der Wertung nicht.Das Ergebnis zeigt der Kasten “Umfang der Wortlisten im Praxistest”.

Ausgetrickst

Außer dieser quantitativen Analyse prüft der Test über Stichproben die Qualität der Korrekturvorschläge und stellt damit die Fähigkeit der Software, abgeleitete Wortformen richtig zu erkennen, auf die Probe. Tabelle 1 prüft die Fähigkeit der Software, Substantive zu Komposita zu verbinden. Erstmals fällt die Duden-Engine (Abbildung 2) negativ auf: Anders als alle anderen Prüfprogramme erkennt sie die fehlerhafte Zusammensetzung “Heißkleberpistole” nicht.

Tabelle 2 prüft die Fähigkeit der Anwendungen, mit Vor- und Nachsilben bei Verben umzugehen. Auch hier leistet sich die Duden-Engine als einzige ein False-negative: Sie erkennt das nicht existierende Wort “zerleuchteter” nicht als Fehler. Auch bei der Konjugation (Beugung) der Verben (Tabelle 3) übersieht sie die fehlerhafte Verbform “spieß”, die allerdings als verkürzte Form von “spieße” durchgehen könnte. Tabelle 4 testet typische Tippfehler wie Buchstabendreher und fehlende oder zusätzliche Buchstaben. Keine der Engines übersah hier Fehler. Unterschiedlich konstruktiv fielen aber die Korrekturvorschläge aus.

Duden = richtiges Deutsch?

Was den Umfang der Sprachkenntnisse angeht, schlägt die Duden-Software die freien Rechtschreibprüfungen um Längen. Der Test offenbart, dass das Wörterbuch der kommerziellen Software weit umfangreicher ist. Einzig der IT-spezifischen Text bringt das Programm mit einem unbekannten Wort in Verlegenheit. Der Vorteil, dass die Anwendungen den Benutzer nur sehr selten mit unbekannten, aber richtig geschriebenen Wörtern belästigt, ist allerdings durch eine zu große Liberalität erkauft: Nur bei der Duden-Engine war es im Test möglich, False-negatives, also nicht erkannte fehlerhafte Wörter, zu provozieren.

Zwar handelt es sich bei den nicht erkannten falschen Schreibungen oft um mit sprachwissenschaftlichen Hintergrundwissen konstruierte Beispiele. Ein Fehler wie “Heißklebe-r-pistole”, der auch durch das Hängenbleiben des Fingers zwischen [E] und [R] entstehen kann, offenbart dennoch eine praxisrelevante Schwäche der Anwendung.

Noch wesentlich störender ist die beschränkte Verfügbarkeit der Software. Der Hersteller liefert sie als selbstentpackenden Installer, der intern auf RPM- oder Debian-Paketen basiert. Nach Angaben von Duden läuft die Software nur auf Suse Linux 10.0 mit Open Office 2.0.2. Glücklicherweise funktioniert sie dennoch auf aktuellen Suse- und Ubuntu-Versionen.

Jedoch nicht mit den aktuellen Paketen von Openoffice.org selbst. Diese installieren die Software, anders als die Pakete der jeweiligen Distribution, nach »/opt«. Dort findet das Office-Programm die Bibliotheken aus den Duden-Korrektor-Paketen aber nicht. Der trotz einiger False-positives in der Praxis beste Spellchecker lässt sich also nur mit veralteten Open-Office-Versionen nutzen. Duden teilte auf Anfrage mit, man wolle auch in Zukunft ausschließlich die distributionseigenen Pakete unterstützen.

Freie Spellchecker

Ispell (Abbilldung 3) ist die klassische Rechtschreibprüfung unter Unix. Sowohl Wörterbuch als auch die Fähigkeit, zusammengesetzte Formen zu erkennen, können sich mit kommerziellen Lösungen aber bei weitem nicht messen. Aspell (Abbilldung 4), das es sich zum Ziel gesetzt hat, Ispell zu verdrängen, nutzt das gleiche Wörterbuchmaterial wie Ispell und liefert im Test bei der Fehlererkennung identische Ergebnisse. Auch dem Anspruch der Entwickler, die Qualität der Korrekturvorschläge zu verbessern, löst die Software nur zum Teil ein. Zwar liefert die Software stets mehr Alternativen, im Fall von “Sofware” fehlt aber, anders als bei Ispell, gerade der einzige plausible Vorschlag.

Hunspell sorgt für einen Lichtblick unter den freien Spellcheckern. Zwar ist das Wörterbuch offenbar viel kleiner als bei der kommerziellen Duden-Rechtschreibprüfung. Die Anzahl der unbekannten Wörter ist allerdings wesentlich geringer als bei Ispell und Aspell. Open Office bringt den Spellchecker in allen Versionen ab 2.0.2 mit. Hunspell steht zum Einbinden in weitere Anwendungen als Library zur Verfügung. Außer Open Office wird auch Firefox 3.0 die leistungsfähigste freie Engine nutzen.

Infos

[1] Ispell: [http://ficus-www.cs.ucla.edu/geoff/ispell.html]

[2] Aspell: [http://aspell.net/]

[3] Hunspell: [http://hunspell.sourceforge.net]

[4] Duden-Korrektor: [http://www.duden.de/produkte/detail.php?isbn=3-411-06554-0]

[5] Hunspell-Handbuch: [http://sourceforge.net/docman/display_doc.php?docid=29374&group_id=143754]

[6] Test-Text “Google-Desktop”: [ftp://ftp.linux-magazin.de/pub/listings/magazin/2007/10/Bitparade/google.txt]

[7] Test-Text “Notenprobleme”: [ftp://ftp.linux-magazin.de/pub/listings/magazin/2007/10/Bitparade/noten.txt]

[8] Test-Text “Turnstunde”: [ftp://ftp.linux-magazin.de/pub/listings/magazin/2007/10/Bitparade/rilke.txt]

 

 

 

 

Umfang der Wörterlisten im
Praxistest

Drei knapp 2000 Zeichen lange Textausschnitte zeigen den Umfang der Wortlisten.

Linux-Magazin-Text [6]

  • Ispell und Aspell (9 False-positives):

Google

Suchmaschinenbetreiber

Textdateien

PDF

Musikdateien

Manpages

Ordnernamen

Nachhausetelefonieren

Anwendungsnummer

  • Hunspell (3 False-positives):

Manpages

Ordnernamen

Nachhausetelefonieren

  • Duden-Korrektor (2 False-positives):

Manpages

Nachhausetelefonieren

Interview [7]

  • n
  • Ispell und Aspell (10
    False-positives):

Expertenstimmen

Notenprobleme

schulpsychologischen

Schulpsychologen

Schulleistung

Klassengemeinschaft

Schulnoten

Tagesablauf

Ballettunterricht

Konzentrationsfähigkeit

Hunspell (1 False-positive)

schulpsychologischen

  • Duden-Korrektor (0 False-positives)

Literarischer Text [8]

  • Ispell und Aspell (11 False-positives):

Militärschule

Turnsaal

Zwillichblusen

Gaskronen

Freiübungen

Saale

Kniebeugen

Kletterstangen

Uniformröcke

Kletterschluss

abzuspringen

  • Hunspell (6 False-positives):

Militärschule

Zwillichblusen

Freiübungen

Saale

Uniformröcke

abzuspringen

  • Duden-Korrektor (0 False-positives)

Testergebnis

Der kommerzielle Duden-Korrektor siegt mit Abstand, als beste freie Engine geht Hunspell aus dem Rennen.

Tabelle 1:
Komposita-Test

 

 

Ispell

Aspell

Hunspell

Duden-Korrektor

Wort bekannt

Rasenkante

nein

nein

nein

ja

Servervirtualisierung

nein

nein

nein

ja

Heißklebepistole

nein

nein

nein

ja

Fehler übersehen

Heißkleberpistole

nein

nein

nein

ja

Tabelle 2: Vor- und
Nachsilben

 

 

Ispell

Aspell

Hunspell

Duden-Korrektor

Wort bekannt

erleuchteter

ja

ja

ja

ja

unbeleuchteter

ja

ja

ja

ja

zusteigender

nein

nein

nein

ja

Fehler übersehen

zerleuchteter

nein

nein

nein

ja

unleuchteter

nein

nein

nein

nein

zursteigender

nein

nein

nein

nein

Tabelle 3:
Verbformen

 
 
 

 

Ispell

Aspell

Hunspell

Duden-Korrektor

Wort bekannt

rannte

ja

ja

ja

ja

spießte

ja

ja

ja

ja

floss

ja

ja

ja

ja

schoss

ja

ja

ja

ja

verließe

ja

ja

ja

ja

zerließe

nein

nein

nein

ja

Fehler übersehen

spieß

nein

nein

nein

ja

schießte

nein

nein

nein

nein

fließte

nein

nein

nein

nein

zeließe

nein

nein

nein

nein

zurließe

nein

nein

nein

nein

Tabelle 4: Typische
Tippfehler

 
 
 

 

Ispell

Aspell

Hunspell

Duden-Korrektor

“Afnang” (Buchstabendreher)

Fehler erkannt

ja

ja

ja

ja

Vorschläge

Anfang

Anfang

Anfang

Anfang

 

 

Anhang

 

 

Anfänge

 

 

[weitere]

“Sofware” (fehlender Buchstabe)

Fehler erkannt

ja

ja

ja

ja

Vorschläge

Software

Rohware

Software

Software

 

 

Sphäre

 

 

Schuhware

 

 

Zuwarte

“klöasifizieren” (zwei Tasten erwischt)

Fehler erkannt

ja

ja

ja

ja

Vorschläge

klassifizieren

Klassifizieren

klassifizieren

[kein Vorschlag]

 

 

Klassifizierens

diversifizieren

 

 

klassifizierend

klassifiziere

 

 

klassifizierten

disqualifizieren

 

 

klassifiziere

LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE Print-Ausgaben Digitale Ausgaben
ABONNEMENTS Print-Abos Digitales Abo
TABLET & SMARTPHONE APPS Readly Logo
E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben