Für NLP-Werkzeuge wird der Recall üblicherweise aus der Anzahl "negatives" (vom Tool nicht erkannte Wortformen) und aus der Anzahl aller in den Test miteinbezogenen Wortformen berechnet. Die errechnete Prozentzahl gibt die Erfolgsquote an. Üblicherweise werden "true negatives" (korrekterweise nicht erkannt) und "false negatives" (inkorrekterweise nicht erkannt) unterschieden.
Die Erstellung unserer Testsuite erfolgte mit automatischen Methoden, z.B. wurden per Zufallsgenerator eine 1.000-Nomina-, eine 1.000-Verb- und eine 1.000-Adjektiv-Liste aus dem SDeWaC Korpus (siehe [bib.Faasz-et-al-2010]) erzeugt - dabei wurde nicht geprüft, ob die Annotation jeweils korrekt ist. Es finden sich daher in den Listen auch korrekt geschriebene Wörter, die einer anderen Wortklasse angehören. Bei der Untersuchung der vom Tool erstellten Analysen klammern wir diese Wortformen jedoch völlig aus, dabei wird nicht beachtet, ob die Analyse korrekt oder inkorrekt war.
Es ergeben sich in unserem Fall also zwei Unterkategorien von "true negatives":
Recall - Kategorien
"true negatives"
Wortformen, die korrekterweise nicht erkannt wurden, weil sie falsch geschrieben sind
Wortformen, die zu einer anderen Wortklasse gehören, als für die Liste gefordert bzw. die aus sonstigen Gründen nicht in die Liste gehören. Hier wird nicht beachtet, ob die vom Tool erzeugte Analyse korrekt ist. Um den berechneten Recall-Wert allerdings nicht zu verfälschen, gehen diese Wortformen nicht in seine Berechnung ein (nur insoweit, dass ihre Anzahl von der Gesamt-Anzahl der Wortformen abgezogen wird).
Einige Verben bzw. Adjektive wurden als Homographen erkannt und daher separat analysiert (in der V+ADJ Kategorie). Die Berechnung des Recall für diese Wortarten ist jedoch davon unabhängig, da es hier ausschließlich um das Erkennen bzw. nicht-Erkennen von Wortformen geht.
"false negatives"
Wortformen, die das Tool nicht erkannt hat, obwohl sie korrekt geschrieben und von der vorgesehenen Wortklasse sind. Für diese wird eine manuell erzeugte Analyse in die Testsuite aufgenommen.
Tabelle 7.2. Validierung: Recall: Berechnung und Ergebnisse
Wortart, Liste |
---|
Nomen (13) false negatives |
Zyklotron, Pimpf, Benzpyren, Russistik, Avataren, Krebsgen, Natriumchlorat, Gullydeckel, Arbeitnehmerpauschalbetrages, Alzheimer-Gen,
Terpenoide, Miniaturist, Billigeier |
Verb: (6) false negatives |
gefrustet, hauszuhalten, infundiert, pullen, schwächeln, shoppen |
Adjektiv (29 false negatives) |
muskulärer, fokalen, bellizistische, konföderale, kompetitive, solitäre, poetologisches, organschaftlicher, monoklonaler, präferenzielle,
genotoxische, lacandonischen, kuschitischen, linksventrikulären, exotherme, animalen, präklinischer, ophthalmologischen, abrahamitische, abgetreppten,
boolsche, austriakischen, speicherresidenten, piefigen, gemorphten, contergangeschädigten, cerebraler, beinerne, aliquoter |
Verb+Adjektiv (3 false negatives, aus Adjektiv-Liste) |
levitierten, substantiierte, korporierten |