Die Validierung wurde überwiegend semi-automatisch durch die Studenten Ronny Jauch und Alexandra Kolb durchgeführt, die dafür erforderlichen Tools wurden von ihnen selbst entwickelt. Die Studentin Natali Mavrovic validierte überwiegend die Analysen der Verben. Koordiniert wurden diese Arbeiten durch Gertrud Faaß in Zusammenarbeit mit Helmut Schmid. Anfänglich arbeitet auch Fabienne Fritzinger im Projekt mit. Ulrich Heid leitete das Projekt im Auftrag von Hinrich Schütze.
Die Arbeiten begannen im Juli 2009 und werden im April 2011 mit der Freigabe von SMOR als Webservice abgeschlossen.
Datenaufbereitung
Im ersten Schritt wurden alle Analysen (pro Wortart) in eine Excel-Datei überführt. Es entstanden die Spalten:N(umme)r., Wortform, Analyse Das Dokument wurde dann um mehrere Spalten erweitert:N(umme)r. der Analyse, Kommentar zur Analyse (Wertebereich: K=korrekte Kompositionsanalyse, D=korrekte Derivationsanalyse, 0=korrekte Flexionsanalyse, -1=falsche Analyse) Testsuite-Default sowie ein weiteres Kommentar-Feld, in dem die Annotatoren weitere (freie) Vermerke eintragen konnten:
Tabelle 7.1. Validierung: Beispiel Priesterweihe
Nr. | Wortform | Analyse-Nr. | Analyse | Kommentar | Testsuite-Default | Kommentar |
---|---|---|---|---|---|---|
9 | Priesterweihe | 1 | Priester<NN>Weihe<+NN><Fem><Nom><Sg> | K | ||
9 | Priesterweihe | 2 | Priester<NN>Weihe<+NN><Fem><Gen><Sg> | K | ||
9 | Priesterweihe | 3 | Priester<NN>Weihe<+NN><Fem><Acc><Sg> | K | ||
9 | Priesterweihe | 4 | Priester<NN>Weihe<+NN><Fem><Dat><Sg> | K | ||
9 | Priesterweihe | s1 | Priester<NN>weihen<V><SUFF><+NN><Fem><Nom><Sg> | KD | ||
9 | Priesterweihe | s2 | Priester<NN>weihen<V><SUFF><+NN><Fem><Gen><Sg> | KD | ||
9 | Priesterweihe | s3 | Priester<NN>weihen<V><SUFF><+NN><Fem><Acc><Sg> | KD | ||
9 | Priesterweihe | s4 | Priester<NN>weihen<V><SUFF><+NN><Fem><Dat><Sg> | KD |
In Tabelle Tabelle 7.1, „Validierung: Beispiel Priesterweihe“ sind in den ersten vier Zeilen die Original-Analysen von SMOR aufgeführt. Jede davon wurde als korrekte Kompositionsanalyse (siehe Spalte 5) erkannt. Vorgabe für unsere Testsuite ist jedoch, dass die feinstmögliche Analyse eines Wortes dargestellt werden soll (Ausnahme: wenn opake Analysen bevorzugt werden, siehe „Richtlinien für die Erstellung der Testsuite“), daher wurden neue Analysen (gekennzeichnet mit s und einer laufenden Nummer, siehe Spalte 3) hinzugefügt. Diese Analysen (s1 bis s4) zeigen den Derivationsschritt vom zugrundeliegenden Verb weihen zum nominalen Kompositionsbestandteil Weihe.
In die Berechnung der Precision (s. „Erläuterungen zur Precision-Berechnung“) im Fall von Priesterweihe gehen die Analysen 1 - 4 als korrekt ein.
Das Vorgehen im Einzelnen ist im Artikel [bib.Faasz-et-al-2010] beschrieben.