Tabelle 2.2. Testsuite: Eigenschaften
Kriterium | Beschreibung |
---|---|
Datenbasis | SDeWaC |
Selektion | Häufigkeit der Wortform zwischen Median und häufigstes Element. Für Medianberechnung wurden Frequenzen < 3 nicht berücksichtigt. |
Größe | je 1000 Wortformen aus NN, ADJA und VVFIN wurden per Random-Algorithmus selektiert |
Enthalten in der Testsuite | 726 Nomina, 520 Verben sowie 762 Adjektive (die übrigen Wortformen wurden als true negatives klassifiziert und aussortiert, siehe Abschnitt „Testsuite Dokumentation: "True Negatives" - Erläuterungen und Listen“). In der V+ADJ Dokumentation finden sich außerdem 275 Einträge aus der Verb- und 40 Einträge aus der Adjektiv-Tabelle (in der Summe 315 Wortformen) . |
Granularität | V1: so fein wie möglich; Achtung: Für die Adjektiv-Kategorientabelle gilt, dass hier nur die Wortbildungsvorgänge dokumentiert, die für das gebildete Adjektiv relevant sind, trotz feinster Granularität in der Testsuite. Aus Platzgründen findet sich die feinere Analyse der zugrundeliegenden Wörter in den Kategorientabellen von Verben und Nomina. |
V2: nur Flexion (wird zu einem späteren Zeitpunkt erstellt) |