Nomina: Annotationen auf Wortebene

Tabelle 2.4. Testsuite: Nomina: Annotationen auf Wortebene

KategorieEigenschaftSub-EigenschaftSub-Sub-EigenschaftWertebereichErläuterungen
AllgemeinesAblaut  0/1binär
neokl. Wortbildung (Kopf)  textbetroffener Wortbestandteil
opake Analyse bevorzugt  textbetroffener Wortbestandteil
WortbildungKompositionAnzahl Stämme ipositive Zahl
Fugenelement(e) (im weiteren Sinn) 0/s/o/i/t/e/er/es/enMehrfache Einträge durch Bindestrich getrennt
neokl. Nichtkopf textbetroffener Wortbestandteil
DerivationPräfigierungan Nomenstammtextbetroffener Wortbestandteil
an Verbstammtextbetroffener Wortbestandteil
an AdjektivstammTEXT_textArt des Präfixes_betroffener Wortbestandteil
Suffigierung an Derivations-/Kompositions-NomenstammD/K+textD/K+Suffix_derivierte Wortart
VerbstammD/K+text / Stammänderung_text / D/K+Konversion_textD/K+Suffix_derivierte Wortart
AdjektivstammD/K+text / Stammänderung_text / D/K+Konversion_textD/K+Suffix_derivierte Wortart
Annahme über Wortbildungsvorgang  textWortstruktur (f: bedeutet Formativ ist Basis)


Folgende Richtlinien gelten für Einträge in diese Tabelle:

Die Wortformen werden, soweit wie m\"oglich auf Stämme, die im Deutschen auch sonst produktiv sind, zurückgeführt. Falls das Nomen von einem Verb oder einem Adjektiv deriviert wurde, wird der Derivationsvorgang in den entsprechenden Spalten der Kategorientabelle vermerkt. Zusätzlich wird eine Annahme über den Wortbildungsvorgang beschrieben, der sich normalerweise nicht in den SMOR-Analysen wiederfindet (da diese keine hierarchische Wortstruktur abbilden).

Einige Sonderfälle zeigen sich in der neoklassischen Wortbildung, hier wurden die im folgenden aufgeführten Grundsätze beachtet.

Der Wortbildungsprozess wird zurückgehend auf Wortstämme, im Normalfall jedoch auf Formative abgebildet; Prä- und Suffigierungsprozesse werden identisch zu den deutschen entsprechenden Prozessen beschrieben.
(Flexions-)Endungen, die bereits in der originären (nicht unbedingt lateinschen oder griechischen) Form vorliegen, z.B. Status, Dressurwerden nur abgetrennt, wenn der übrige Stamm eigenständig im Deutschen vorkommt (System. In allen anderen Fällen wird das Suffix nicht getrennt, auch wenn es sonst produktiv ist. Diese Vorgehensweise ist eine rein praktisch motivierte: Sie verhindert ein zu starkes Übergenerieren des Morphologie-Werkzeugs.
Wir gehen bei Formativen von Allomorphie aus (siehe [bib.Luedeling-etal-2001]), dabei wird angenommen, dass die langen Formen (indikat) derselben Wortart angehören wie die kurzen (indiz), auch wenn sie im Deutschen eher zur Bildung von Nomina verwendet werden. In der überwiegenden Anzahl der Fälle sind dies Verben.
Einen Problemfall in der automatischen Abbildung von Wortbildungsprozessen stellen Suffigierungen mit -o- bzw. -a- dar: einigen Wortformen werden diese (Fugen-?)-Elemente hinzugefügt (Phon-o-log-ie, Sol-ar-ium), bei anderen scheinen sie zu entfallen, da sie bereits im Stamm enthalten zu sein scheinen (Bio-log-ie, Techno-krat-ie, Aqua-rium etc.). Um Übergenerierungen zu vermeiden werden in der Testsuite einheitliche Produktionsregeln angenommen, damit gehen wir bei den letzteren Bildungen von Formativen aus (Bi-o-log-ie, Techn-o-krat-ie, Aqu-ar-ium).

Weiterhin wurden folgende Einzel-Entscheidungen getroffen:

Wenn in einer Wortform der Bestandteil Daten vorkommt (Im Sinne von Duden: durch Beobachtungen, Messungen, statistische Erhebungen u. a. gewonnene) [Zahlen]werte, (auf Beobachtungen, Messungen, statistischen Erhebungen u. a. beruhende) Angaben, formulierbare Befunde: ... verarbeitende (die Datenverarbeitung betreffende, zu ihr gehörende, ihr dienende) Maschinen), wird der Wortbestandteil nicht auf die Singular-Form zur¨ckgeführt, sondern als Pluralform belassen (siehe Wortformen 88, 414, 418, 492, 584).
Adjektive und Nomina, die auf ex enden, wie z.B. komplex, Index etc., werden (vorerst) opak belassen, da entsprechende Produktionsregeln hier noch genauer erforscht werden müssen.
Das Suffix tum zu Adjektiven wird als kaum mehr produktiv angesehen, daher wird der Wortbestandteil eigentum (Teil von 620 Bodenreformeigentum) opak analysiert (anders bei Herzogtum: Hier wird tum an ein Nomen suffigiert, was als heute immer noch produktiver Prozess angesehen wird).
Die Wortform Gedanke wird opak analysiert; da die heutzutage üblichen morphologische Analysen solcher GeXe Wortformen keinen Ablautungsprozess vorsehen. So ein Vorgang (GeXe + Ablaut) wird nicht als produktiv vorgesehen (*Gedenke).