Mit dem Projekt "Referenzkorpus Mittelhochdeutsch (1050-1350)", kurz "ReM", soll ein Referenzkorpus für die mittelhochdeutsche Sprachstufe im Rahmen des Korpus historischer Texte des Deutschen (ehemals Deutsch Diachron Digital = DDD) bereitgestellt werden. Ziel ist es, damit eine hinlänglich umfangreiche, verlässliche und handschriftengetreue Datenbasis des Mittelhochdeutschen (1050-1350) zu schaffen, die historiolinguistische und mediävistische Recherchen in einem Maße erlaubt, das weit über das bisher Mögliche hinausgeht. Dazu ist gemeinsam mit dem Projekt "Referenzkorpus Altdeutsch (750 - 1050)" ein Annotationsstandard "DDDTS" entwickelt worden, der auf dem STTS () basiert, aber für die Besonderheiten älterer Sprachstufen des Deutschen modifiziert und erweitert worden ist.

Der Aufbau und die Bereitstellung des ReM-Korpus vollzieht sich in folgenden Schritten:

  1. Die frühmittelhochdeutsche handschriftliche Überlieferung von ca. 1050 bis 1200/Anf. 13. Jh. ist in der 1. Projektphase weitgehend vollständig digital erfasst und grammatisch tief annotiert worden.
  2. In der 2. Projektphase wird eine strukturierte Auswahl mittelhochdeutscher Texte in zeitgenössischer handschriftlicher Überlieferung in gleicher Weise erschlossen. Außerdem werden bislang nur ausschnitthaft digitalisierte Texte hinsichtlich ihrer Digitalisierung und Annotierung ergänzt, um so für das Mittelhochdeutsche insbesondere die Grundlage für die Untersuchung syntaktischer Strukturen entscheidend zu verbessern.
  3. Das ReM-Korpus wird um weitere mhd. Texte ergänzt, die bereits grammatisch tief annotiert vorliegen, aber noch dem DDDTS-Standard anzupassen sind; es handelt sich insbesondere um das Korpus der neuen mhd. Grammatik (MiGraKo).
  4. Das so erstellte mhd. ReM-Korpus wird in das XML-Standoff-Format PAULA konvertiert und über die linguistische Datenbank ANNIS verfügbar gemacht.

Insgesamt wird das im Projekt "Referenzkorpus Mittelhochdeutsch (1050-1350)" erstellte bzw. zusammengeführte Korpus etwa 2,4 Mio. digitalisierter und 2,1 Mio. tief annotierter Wortformen enthalten.