Tabelle 2.4. Testsuite: Nomina: Annotationen auf Wortebene
Kategorie | Eigenschaft | Sub-Eigenschaft | Sub-Sub-Eigenschaft | Wertebereich | Erläuterungen |
---|---|---|---|---|---|
Allgemeines | Ablaut | 0/1 | binär | ||
neokl. Wortbildung (Kopf) | text | betroffener Wortbestandteil | |||
opake Analyse bevorzugt | text | betroffener Wortbestandteil | |||
Wortbildung | Komposition | Anzahl Stämme | i | positive Zahl | |
Fugenelement(e) (im weiteren Sinn) | 0/s/o/i/t/e/er/es/en | Mehrfache Einträge durch Bindestrich getrennt | |||
neokl. Nichtkopf | text | betroffener Wortbestandteil | |||
Derivation | Präfigierung | an Nomenstamm | text | betroffener Wortbestandteil | |
an Verbstamm | text | betroffener Wortbestandteil | |||
an Adjektivstamm | TEXT_text | Art des Präfixes_betroffener Wortbestandteil | |||
Suffigierung an Derivations-/Kompositions- | Nomenstamm | D/K+text | D/K+Suffix_derivierte Wortart | ||
Verbstamm | D/K+text / Stammänderung_text / D/K+Konversion_text | D/K+Suffix_derivierte Wortart | |||
Adjektivstamm | D/K+text / Stammänderung_text / D/K+Konversion_text | D/K+Suffix_derivierte Wortart | |||
Annahme über Wortbildungsvorgang | text | Wortstruktur (f: bedeutet Formativ ist Basis) |
Folgende Richtlinien gelten für Einträge in diese Tabelle:
Die Wortformen werden, soweit wie m\"oglich auf Stämme, die im Deutschen auch sonst produktiv sind, zurückgeführt. Falls das Nomen von einem Verb oder einem Adjektiv deriviert wurde, wird der Derivationsvorgang in den entsprechenden Spalten der Kategorientabelle vermerkt. Zusätzlich wird eine Annahme über den Wortbildungsvorgang beschrieben, der sich normalerweise nicht in den SMOR-Analysen wiederfindet (da diese keine hierarchische Wortstruktur abbilden).
Einige Sonderfälle zeigen sich in der neoklassischen Wortbildung, hier wurden die im folgenden aufgeführten Grundsätze beachtet.
Der Wortbildungsprozess wird zurückgehend auf Wortstämme, im Normalfall jedoch auf Formative abgebildet; Prä- und Suffigierungsprozesse werden identisch zu den deutschen entsprechenden Prozessen beschrieben. |
(Flexions-)Endungen, die bereits in der originären (nicht unbedingt lateinschen oder griechischen) Form vorliegen, z.B. Status, Dressurwerden nur abgetrennt, wenn der übrige Stamm eigenständig im Deutschen vorkommt (System. In allen anderen Fällen wird das Suffix nicht getrennt, auch wenn es sonst produktiv ist. Diese Vorgehensweise ist eine rein praktisch motivierte: Sie verhindert ein zu starkes Übergenerieren des Morphologie-Werkzeugs. |
Wir gehen bei Formativen von Allomorphie aus (siehe [bib.Luedeling-etal-2001]), dabei wird angenommen, dass die langen Formen (indikat) derselben Wortart angehören wie die kurzen (indiz), auch wenn sie im Deutschen eher zur Bildung von Nomina verwendet werden. In der überwiegenden Anzahl der Fälle sind dies Verben. |
Einen Problemfall in der automatischen Abbildung von Wortbildungsprozessen stellen Suffigierungen mit -o- bzw. -a- dar: einigen Wortformen werden diese (Fugen-?)-Elemente hinzugefügt (Phon-o-log-ie, Sol-ar-ium), bei anderen scheinen sie zu entfallen, da sie bereits im Stamm enthalten zu sein scheinen (Bio-log-ie, Techno-krat-ie, Aqua-rium etc.). Um Übergenerierungen zu vermeiden werden in der Testsuite einheitliche Produktionsregeln angenommen, damit gehen wir bei den letzteren Bildungen von Formativen aus (Bi-o-log-ie, Techn-o-krat-ie, Aqu-ar-ium). |
Weiterhin wurden folgende Einzel-Entscheidungen getroffen:
Wenn in einer Wortform der Bestandteil Daten vorkommt (Im Sinne von Duden: durch Beobachtungen, Messungen, statistische Erhebungen u. a. gewonnene) [Zahlen]werte, (auf Beobachtungen, Messungen, statistischen Erhebungen u. a. beruhende) Angaben, formulierbare Befunde: ... verarbeitende (die Datenverarbeitung betreffende, zu ihr gehörende, ihr dienende) Maschinen), wird der Wortbestandteil nicht auf die Singular-Form zur¨ckgeführt, sondern als Pluralform belassen (siehe Wortformen 88, 414, 418, 492, 584). |
Adjektive und Nomina, die auf ex enden, wie z.B. komplex, Index etc., werden (vorerst) opak belassen, da entsprechende Produktionsregeln hier noch genauer erforscht werden müssen. |
Das Suffix tum zu Adjektiven wird als kaum mehr produktiv angesehen, daher wird der Wortbestandteil eigentum (Teil von 620 Bodenreformeigentum) opak analysiert (anders bei Herzogtum: Hier wird tum an ein Nomen suffigiert, was als heute immer noch produktiver Prozess angesehen wird). |
Die Wortform Gedanke wird opak analysiert; da die heutzutage üblichen morphologische Analysen solcher GeXe Wortformen keinen Ablautungsprozess vorsehen. So ein Vorgang (GeXe + Ablaut) wird nicht als produktiv vorgesehen (*Gedenke). |