Seit dem 1. November 1998 beschäftigt sich eine Arbeitsgruppe an der Universität Trier im Rahmen eines DFG-Projekts mit der retrospektiven Digitalisierung des Deutschen Wörterbuchs von Jacob und Wilhelm Grimm. Der Umfang und die Heterogenität dieses größten existierenden Wörterbuchs zur deutschen Sprache, bestehend aus insgesamt 32 Bänden und einem Quellenverzeichnis, stellen entsprechend hohe Anforderungen an die Konzeption und Realisierung einer elektronischen Publikation. Im Zentrum des Projekts steht dabei der maschinenlesbar gemachte Wörterbuchtext, der für komplexe Recherchen aufbereitet und in einem Format gehalten wird, das seine langfristige Archivierbarkeit und Verwendbarkeit gewährleistet. Nach der zweifachen manuellen Eingabe des Wörterbuchs (im sogenannten double-keying-Verfahren) in China - unter Berücksichtigung aller typographischen Merkmale - wurde in Trier automatisch ein Vergleichsprotokoll der beiden Eingabe-Versionen erstellt. Im folgenden Korrekturschritt wurde die Liste der Abweichungen manuell anhand der Druckvorlage abgearbeitet und eine elektronische Fassung des Wörterbuchtexts erstellt. Dabei ist eine Wiedergabegenauigkeit von ca. 99,997% gegenüber dem gedruckten Wörterbuch erreicht worden, d.h. es sind ca. drei Fehler in 100.000 Zeichen zu verzeichnen. Diese hochgradig fehlerfreie Version der Eingabedaten kann als Grundlage für die Generierung eines hochwertigen Nachdrucks dienen aufgrund der genauen Erfassung der typographischen Merkmale, einschließlich des Seiten-Layouts.
In einem zweiten Schritt erfolgt die systematische Auszeichnung der Textdaten. Hier folgen wir dem Beispiel anderer großer Digitalisierungsprojekte, vor allem an englischen und amerikanischen Universitäten und bei großen Verlagen wie Chadwyck & Healey, indem wir uns am internationalen Standard SGML/XML und an Unicode orientieren. Es werden alle wesentlichen Informationspositionen der Wörterbuchartikel, wie z.B. die Stichwörter, grammatischen Angaben, Belegzitate (unterschieden nach Vers und Prosa) mit Quellensiglen ausgezeichnet, um später komplexe Recherchen zu ermöglichen, die weit über das hinausgehen, was eine einfache Volltextsuche erlaubt. Es wird also der gezielte Zugriff auf jede derart markierte Information ermöglicht. Die Auszeichnung der Daten erfolgt weitgehend automatisch über TUSTEP-Routinen, die im Projekt programmiert werden und aufgrund der heterogenen Artikelstrukturen immer wieder angepaßt werden müssen. Die Auszeichnung mit SGML/XML basiert dabei auf den von der TEI (Text Encoding Initiative) vorgeschlagenen Richtlinien zur Kodierung von Wörterbüchern. Dies garantiert nicht nur eine langfristige und plattformunabhängige Datenarchivierung, sondern ermöglicht auch die Vernetzung mit anderen digitalen Wörterbüchern, deren Daten in gleicher Weise aufbereitet wurden. [1]
Der Pool von SGML-Daten bildet die Ausgangsbasis sowohl für die Internet- als auch die Offline-Publikation auf CD-ROM; einen Eindruck von der Benutzerschnittstelle der CD-ROM sollen die folgenden Abbildungen geben.
1. Die Wörterbuch-Oberfläche
![]() |
| Abb. 1: Begrüßungsseite der CD-ROM |
Durch einen Mausklick auf die Startseite der CD-ROM wird die Titelseite des Wörterbuchs geöffnet.
Hier wird auf der rechten Seite die Möglichkeit geboten, entweder die Titelseite, eines der Vorworte oder eine Buchstabenstrecke anzuwählen. Ein Mausklick auf eine der Indexkarten öffnet das elektronische Wörterbuch, das sich dem Nutzer folgendermaßen präsentiert:
![]() |
| Abb. 2: Übersicht über das elektronische Wörterbuch |
In der Lemmalaufleiste im linken Fenster wird eine Liste aller Lemmata der ausgewählten Buchstabenstrecke abgebildet. Die entsprechenden Artikel können durch einen Mausklick aufgerufen werden und erscheinen im Artikelfenster.
Neben dem Scrollen in der Lemmalaufleiste besteht die Möglichkeit der direkten Suche nach einem bestimmten Stichwort, indem man in dem Eingabefeld unter dem Artikelfenster ein Wort oder Präfix eingibt. Während der Eingabe reagiert die Lemmalaufleiste bereits auf die eingegebene Zeichenfolge und zeigt immer die Lemmata an, die mit den eingegebenen Buchstaben beginnen. Wieder kann der gewünschte Artikel per Mausklick auf das Lemma im Wörterbuchfenster aktiviert werden.
![]() |
| Abb. 3: Artikelfenster |
Das Artikelfenster ist folgendermaßen aufgebaut: Ganz oben werden der ausgewählte Buchstabe des Alphabets und die aktuell geladene Wörterbuchstrecke angezeigt, gleich darunter das Stichwort des gerade geöffneten Artikels mit grammatischer Angabe, bei umfangreichen Artikeln mit entsprechend tiefer Gliederung folgen die Gliederungsmarken des gerade im Wörterbuchfenster angezeigten Artikelteils. Rechts vom Stichwort wird zusätzlich auf Band, Spalte und Zeile des Stichworts im gedruckten DWB referiert. In einer späteren Version wird diese Band-, Spalten-, Zeilenangabe auch für die Gliederungsmarken realisiert werden.
Unter diesem Kopf wird der Wörterbuchtext selbst abgebildet, wobei Typographie und Struktur genauso wiedergegeben werden, wie sie im gedruckten Wörterbuch erscheinen; allerdings - mit Ausnahme der Verszitate - ohne Spalten- und Zeilenfall des Originals.
Im Artikelfenster wird nicht nur der ausgewählte Artikel angezeigt, sondern eine umfassendere Wörterbuchstrecke vorgehalten, so daß durch Scrollen auch der Artikelkontext gezeigt werden kann. Die Größe dieser umfassenderen Wörterbuchstrecke ist so ausgewählt, daß vertretbare Ladezeiten garantiert sind. Dies wird vor allem bei der Benutzung der Internetversion des DWB von Bedeutung sein.
Aus Gründen der besseren Übersicht über längere Artikel werden ihre umfangreicheren Abschnitte zunächst verkürzt dargestellt: Dazu werden die einzelnen Abschnitte auf den Anfangsteil reduziert; über die horizontalen Pfeile am rechten Rand der Zeilen können sie ergänzt und entsprechend auch wieder reduziert werden.
![]() |
| Abb. 4: reduzierte bzw. komplette Artikeldarstellung |
Allerdings wird auf diese Weise die Struktur besonders langer und gegliederter Artikel, die mehr als hundert Spalten umfassen können, für den Nutzer, der auf der Suche nach einer ganz bestimmten Information ist, nicht ersichtlich. Daher wird im rechten Fenster eine Übersicht über die Artikel mit einer expliziten Gliederung geboten:
Oben wird das entsprechende Stichwort angezeigt, leicht eingerückt darunter der Beginn des ersten Abschnitts mit der entsprechenden Gliederungsmarke usw. für alle folgenden Gliederungsebenen des Artikels. Die Zeilen für die einzelnen Gliederungsebenen können - dem System des Windows Explorer ähnlich - geöffnet oder geschlossen werden. Durch einen Doppelklick auf eine dieser Zeilen wird der Beginn des entsprechenden Abschnitts im Wörterbuchfenster aufgeschlagen. Die angezeigte Artikelgliederung entspricht immer dem Artikel, der gerade im Wörterbuchfenster sichtbar ist, der entsprechende Abschnitt ist farbig unterlegt.
![]() |
| Abb. 5: Artikelgliederungsfenster |
In die Navigation durch das Wörterbuch wird auch das Quellenverzeichnis einbezogen werden können, das bisher nur als Volltext vorliegt, später aber über die Siglen mit den Wörterbuchbänden verlinkt wird.
![]() |
| Abb. 6: Quellenverzeichnis |
Als zusätzliche Funktion der CD-ROM-Version bietet sich dem Nutzer zum einen die Möglichkeit, einzelne Wörterbuchpositionen jeweils in verschiedenen Farben zu markieren. Dies ist für die grammatischen Angaben exemplarisch bereits realisiert, für weitere Positionen wie zum Beispiel die Belegzitate, Siglen oder Siglenreferenzen aber auch vorgesehen.
Darüber hinaus besteht die Möglichkeit, durch Anklicken eines Lemmas mit der rechten Maustaste Lesezeichen anzulegen und Anmerkungen zu dem entsprechenden Stichwort in einem elektronischen Notizbuch festzuhalten. Die Lesezeichen und Anmerkungen können entfernt oder korrigiert werden und sind zudem mit dem Wörterbuch verlinkt: Ein Doppelklick öffnet den entsprechenden Artikel im Wörterbuchfenster. Außerdem sollen diese Einträge in einer späteren Version exportiert und somit auf andere Weise weiter verwendet werden können.
![]() |
| Abb. 7: Fenster für Lesezeichen/Anmerkungen |
Komplettiert werden diese zusätzlichen Funktionen des digitalen DWB durch das Aufrechterhalten der Verbindung zum Druckwerk: Indem von den Eingabedaten mit einem Satzprogramm Post-Script-oder PDF-Files generiert und in die CD-ROM-Version integriert werden, wird genaues Zitieren der Buchversion und auch Ausdrucken der simulierten Buchseiten ermöglicht.
2. Volltext- und Datenbanksuche
Neben der bisher vorgeführten Navigation durch das Wörterbuch erlaubt die CD-ROM spezifische Suchen im Datenbestand, in die zusätzlich zu den 32 Wörterbuchbänden zu einem späteren Zeitpunkt auch das Quellenverzeichnis einbezogen werden kann.
So besteht zunächst einmal die Möglichkeit der einfachen Suchanfrage im Volltext.
![]() |
| Abb. 8: Suchfenster |
Auf diese Weise können beispielsweise alle Vorkommen eines bestimmten Autors, wie zum Beispiel STIELER gesucht werden. In der bisher umgesetzten Wörterbuchstrecke A bis E werden - wie die Trefferliste anzeigt - 2964 Treffer erzielt. Die aufgelisteten Artikel sind in der Voreinstellung nach der Trefferhäufigkeit sortiert - so finden sich im Artikel DAHIN 14 Vorkommen von STIELER, im Artikel D 12 usw. Zu einem späteren Zeitpunkt werden die Artikel, in denen die Suchzeichenfolge vorkommt, aber auch alphabetisch sortiert werden können. Ein Mausklick auf einen der Artikel in der Trefferliste - für die im übrigen auch eine Exportmöglichkeit vorgesehen ist - öffnet den entsprechenden Artikel im Wörterbuchfenster, die Suchzeichenfolge wird hier farbig unterlegt.
![]() |
| Abb. 9: Such- und Wörterbuchfenster mit markiertem Suchergebnis |
Die im Fall des Autornamens STIELER bereits für die Strecke A bis E erzielte sehr hohe Trefferquote läßt erahnen, um wieviel höher sie sein wird, wenn man diese Suchanfrage an das gesamte Wörterbuch stellt. Aus diesem Grund kann die Volltextsuche auf bestimmte Artikelpositionen begrenzt werden, wie zum Beispiel auf Lemmata, grammatische Angaben, Zitate, Siglen usw. Gibt man beispielsweise die Suchzeichenfolge FISCHER in das Feld für die Suche nach Siglen ein, statt in allen Artikelteilen zu suchen, so läßt sich auf diese Weise ein Autor Fischer unterscheiden und abgrenzen von allen sonstigen Vorkommen des Wortes "Fischer".
Weiterhin kann die Trefferliste eingeschränkt werden durch kombinierte Suchanfragen, für die selbstverständlich die allgemein bekannten Möglichkeiten der logischen Verknüpfung mit UND, ODER und NICHT (die Angabe der logischen Verknüpfung erfolgt in den Checkboxen hinter den Eingabefeldern; Ausrufezeichen markiert die UND-Verknüpfung, Kreuz die ODER-Verknüpfung), der Rechts- und Linkstrunkierung, der Nachbarschafts- und Alternativsuche zum Tragen kommen. Wenn man sich beispielsweise für Wortbildung bei Goethe interessiert, so lassen sich alle Adverbien mit dem Wortbildungssuffix -LICH, die als Lemma aufgenommen sind UND zu denen es einen Beleg von Goethe gibt, ausgeben.
![]() |
| Abb. 10: Beispiel für eine kombinierte Suchanfrage |
Diese Art kombinierter Suchanfragen wird in der Endversion komfortabel ausgebaut und auf alle relevanten Artikelpositionen hin anwendbar sein.
Die Funktionalität dieses Prototyps wird in der weiteren Projektarbeit bedeutend ausgebaut werden. Einhergehend mit der ständig erweiterten und vertieften inhaltlichen Auszeichnung, die sich zunächst auf die Kodierung der Siglen, Sprachangaben, Prosazitate und Binnenverweise konzentriert, wird auch die Verlinkung der Wörterbuchbände untereinander und mit dem Quellenverzeichnis in Angriff genommen.
Dem oft postulierten Mehrwert retrodigitalisierter Wörterbücher im Vergleich mit den zugrunde liegenden Druckversionen wird also bei der Herstellung des elektronischen DWB Rechnung getragen durch eine philologisch fundierte und an internationalen Standards der Textdigitalisierung orientierte Umsetzung. Die mit der elektronischen Aufbereitung einhergehende Neuerschließung des Wörterbuchinhalts bietet eine komfortablere Benutzung des Wörterbuchs und schafft die Voraussetzung für ein innovatives, datenbankorientiertes lexikographisches Fragen und Arbeiten.
(Weitere Informationen zur Vergehensweise im Projekt sind zu finden unter http://germa83.uni-trier.de/DWB-online)
[1]Zur Projektorganisation vgl.:
[Weitere Referate] [Zur Startseite des Digitalisierungszentrums]
BSB München 24.01.2001 MDZ@bsb-muenchen.de