Annotation

Für die Annotation des Korpus wurde ein neues, web-basiertes Annotationstool (CorA) entwickelt. Dies ermöglichte es zum einen, spezifische Anforderungen der historischen Daten, wie z.B. verschiedene Tokenisierungsebenen (originale Handschrift vs. moderne Wortgrenzen), zu modellieren, wofür eigens ein Datenmodell entwickelt wurde. Zum anderen konnte so auch eine nachträgliche Bearbeitung der Primärdaten, die insbesondere für die diplomatische Transkriptionen wichtig ist, ermöglicht werden. Texte, die in das Annotationstool importiert werden, werden automatisch mit POS- und Morphologie-Tags vorannotiert. Dafür wurde der RFTagger auf einer entsprechend aufbereiteten Version des ‚Bonner Frühneuhochdeutschkorpus‘ trainiert. Für die Lemmatisierung wurde zudem eine Anbindung an die Online-Version des Deutschen Wörterbuchs von Jacob und Wilhelm Grimm realisiert. Als web-basiertes Annotationstool kann CorA von jedem PC mit Internetanschluss aus bedient werden.

Da der Lexembestand des Frnhd. lexikographisch bislang nicht vollständig erschlossen ist (Fertigstellung des Frnhd. Wörterbuchs in 2027), wird der Wortbestand des Korpus anhand des (lemmatisierten) ‚Bonner Frühneuhochdeutschkorpus‘ sowie des DWB (Grimm) lemmatisiert; sofern es sich um Wortmaterial handelt, das dort nicht ‚verbucht‘ ist, wird auf das Mittelhochdeutsche Wörterbuch (Lexer bzw. vorliegende Neubearbeitung der Wörterbuchstrecke A-E der Akademiearbeitsstellen Göttingen/ Trier) zurückgegriffen.

Für die Annotation wird das - auf die Besonderheiten des Frühneuhochdeutschen angepasste - Tagset HiTS (Historisches Tagset) genutzt. HiTS wurde um die morphologische Komponente erweitert: Sämtliche Wortarten werden morphologisch tief annotiert. Indem das Programm jede bestätigte Wortformenannotation als entsprechende Information auch dem zugehörigen Lemma zuweist, liefert der jeweils automatisch erzeugte Annotationsvorschlag eine Kombination aus Lemma, Wortklasse (z.T. mit syntaktischer Information, wie z.B. attributiv oder prädikatives Adjektiv) und konkreter morphologischer Kategorienausprägung.