Testsuite Dokumentation: "True Negatives" - Erläuterungen und Listen

Die in der Testsuite auftretenden Wortformen wurden über einen Zufallsalgorithmus aus dem Web-Korpus SDeWaC ausgewählt. Dieses Korpus wurde mit dem TreeTagger (s. [bib.Schmid-1994] und [bib.Schmid-1999] ) mit Wortklassen annotiert. TreeTagger arbeitet mit einer hohen Zuverlässigkeit, jedoch muss bei einem Webkorpus davon ausgegangen werden, dass ein relativ hoher Anteil der Texte nicht seinem Sprachmodell (u.a. wegen des vermehrten Vorkommens von Dialogen) entsprechen. Es kommt daher zu einer Fehlerrate, die höher ist als z.B. bei Zeitungstexten.

Morphologische Analysesysteme auf der anderen Seite können oft weit mehr Wörter und Schreibweisen verarbeiten, als der offizielle Sprachgebrauch vorsieht, z.B. analysiert SMOR problemlos Wortformen, in denen der Umlaut vermieden wird (z.B. faellen statt fällen). Weiterhin kann man einem solchen Tool normalerweise nicht vorgeben, dass es nur Wortformen bestimmter Wortarten analysieren soll.

Aufgrund der erhöhten Fehlerrate und der Robustheit von SMOR sind also einige Wortformen in den Listen der von SMOR erkannten Formen, die einer anderen Wortart angehören oder nicht der offiziellen Rechtschreibung entsprechen. Diese haben wir als (weitere) "true negatives" klassifiziert und aus der Testsuite entfernt (siehe Tabellen unten). Bei der Berechnung des Recall werden diese Wortformen allerdings nicht berücksichtigt (nur insoweit, dass ihre Anzahl von der Gesamt-Anzahl der Wortformen abgezogen wird, siehe „Erläuterungen zur Recall-Berechnung“).

Liste der (korrekterweise) nicht erkannten Wortformen, die aus der Nomen-Liste entfernt wurden (274 Wortformen)

Tabelle 2.9. Testsuite: nicht erkannte Wortformen, die aus der Nomen-Liste entfernt wurden (274 Wortformen)

Begründung, Wortformen
Groß-/Klein-/Rechtschreibung/Umlaute falsch (42 Wortformen)
organisationen, uhren, abhandlung, übernachtungen, zitaten, rückgrat, bude, büsche, atomstrom, postbote, buchbesprechung, datenpakete, wasserpfeife, theaterspielen, rechtsänderungen, begleiters, einheitspreis, lieferschwierigkeiten, vorteil, typ, verstaendnis, ordung, zuckerspiegel, üblichkeiten, Unterneh-men, werbevideo, gegeninformationsbüro, staatsbuerger, Tembo, leistungsausweis, ökoforum, Büsch, Wirtschafts-und, Modificationen, Mitgleider, Nachhinnein, Begiffe, Polizei-direktion Blitz-umfrage, Erlebnise, Entspannungs­politik, Angestellen
Fremd/Lehnwörter, Groß-/Kleinschreibung falsch (28 Wortformen)
agents, hardliner, kingdom, protocol, mustang, arbitration, Slub, individuals, Departemente, e-books, smokers, Mbô, Testsample, stamp, Retrospect, Callgirl, porteños, eraserhead, Threads., Mirafiori, excitement, congregation, Midshipman, enormous, Blogosphere, analysing, situ, RUNNING
kein Nomen / Eigennamen /Abkürzungen (149 Formen)
Negri, m/w, Hoeneß, MVA, Mubarak, rössel, FAP, ISiS, sichem, Ronhof, Haußmann, Janssen-Cilag, U9, Cooder, cwi, e36, AEAO, rse, LohnFG, Eureka, BBesG, Mebes, DNC, Metschurat, Großenhainer, Garamond, Unctad, Sekretar, ToT, Bliemel, Wutzler, Kestner, CRE, WIRO, Nimbschen, hoy, willste, Rojahn, Besiktas, bdU, &#64979, ZRL, Shakaar, mg/100, Korten, gutter, Wesermünde, Nobiskrug, InterCityHotel, Chatillon, Unbegriff, S&D, Morgenes, einnen, BUKG, Joliot-Curie, Toliman, Pfahl-Traughber, Novaplant, Mzoudis, Maegerle, LfI, Krank-sein, gege, vindicator, Pindars, Krützen, I-KG, HMWVL, Goodell, FBG, EuAlÜbk, D?S2, Thirsis, Metabolite, Klasvogt, Klaiber, Hohenurach, EBSU, Brunswiker, Archos, V/52, Steinem, Speratus, Reichelbräu, Panzano, över, Montedison, Monssen-Engberding, Krüdener, Kivelingsfest, WVHA, Tscharlie, Stretta, RuedigerK, Nimbun, Musiel, Zeltival, verbrand, umsunst, taffel, SGU, Schiputznik, Peterwardein, ..............., mAl, Lysol, http://www.bverfg.de, Hinrichsens, Gesäuse, Furkapass, üro, turen, Silkerode, Qinzwisi, N&#333, Phänophasen, Milgrams, Liorets, Künzig, Klinsmänner, i.L., http://www.school-scout.de/abonnements., Amann, Zombiefilmen, www.frsw.de/forum, Twike, SüdL, SRS-Worldhotels, Schusdziarra, Scheifinger, Raphaelhaus, organisierung, Muirs, Motzischken, morum, Lur, Literärgeschichte, KdEÖ, HighChem, Hartmannsche, Gittelde, Gardners, exzellence, Ellok, BuddyListe, adam, #51, 1961a


Liste der erkannten Wortformen, die aus der Nomen-Liste entfernt wurden (55 Wortformen)

Tabelle 2.10. Testsuite: Liste der erkannten Wortformen, die aus der Nomen-Liste entfernt wurden (55 Wortformen)

Begründung
Wortform
Eigennamen (29 Wortformen)
Bobenheim, Eurotier, Eurovideo, Flottau, Flughafen-Hahn, Friedrich-Wieck-Straße, Gamigstraße, Großglockners, Groß-Hamburg, Grünbau, Gestanden, Hallendorf, Hallenserin, Heidelbergers, Hintersasse, Kirchheller, Knautkleeberg, Kornbergstraße, Langfort, Lüdinghausen, Main-Spitze, Oberharmersbach, Ohlstadt, Ostwestfale, Pulheim-Brauweiler, Queichhambach, Wandlitz, Wäscherburg, Wichlinghausen
 
Kein (deutsches) Nomen, Groß-/Kleinschreibung falsch (19 Wortformen)
A-ßbung, Ausgestellt, bauch, Dienten, kalk, kopier, nachbauten, normalsichtige, oute, Punktgleich, regelkonform, rumprobieren, Sekundär, Service-orientierte, SINNVOLL, Struktureller, vorkeimen, zurücktretende, XML-basierte
 
Nicht (mehr) im offiziellen Sprachgebrauch / Rechtschreibfehler (7 Wortformen)
Besenreisern, Defizit-, -File, -haltung, -kompetenz, Problemes, -User
 


Liste der (korrekterweise) nicht erkannten Wortformen, die aus der Verb-Liste entfernt wurden (149 Wortformen)

Tabelle 2.11. Testsuite: nicht erkannte Wortformen, die aus der Verb-Liste entfernt wurden (149 Wortformen)

Begründung, Wortformen
Nicht (mehr) im offiziellen Sprachgebrauch / Rechtschreibung (130 Wortformen)
------------------, --------------------, -denn, AGBG, ähm, al&#8209, amal, ansehn, anzuschaun, atte, ausgehölt, beeinhalten, begang, bescheibt, burnt, bzw, Colegio, cabinet, cafe, dafuer, deßhalb, dissen, draft, drinken, du's, eineR, elearning, emerging, enstehen, errinnert, erwürgete, extravertiert, eyes, Fiege, Fran, falsch., fands, funktionniert, Gerleve, ge-genüber, geÄndert, gefagt, gefällts, gehypt, gemalert, gesalbet, geschriehen, gehn, geniesen, ger, get, getimet, google, ha-ben, ham, hamburg.de, hanging, haperts, happyend, hätt´s, here, hinzugehn, höhren, hows, ill, Immelt, inn, innovieren, lnw, iVm, jemacht, jezt, Kalniete, ka, knieen, knnte, kommte, kontakten, kopstand, lan, las-sen, leihn, list-style-image:url(/cma/libs/do_display/0,1294,7852,00, meinete, mes, message, mounten, movies, nachwievor, nahete, nam, nis, nn, ober, ohngefähr, P.S, Pickles, pocket, premiere, rührete, sager, S.3, Saur, sol, soror, stande, that´s, tres, trügte, uz, variert, vb, vergeb, verliert., vorübergehn, wald, wär´s, wech, WEIl, were, win, with, written, www.jungle-world, zoget, z.T, zu-mindest
kein Verb (19 Wortformen)
äh, Ahlgrimm, Birbaumer, BVV, VVE, Eisele, Freetown, Keeler, Kobler, KVV, Lennox, Lynen, Magath, Meyl, Mommsen, Nicklas, Passah, Valium, Verità


Liste der erkannten Wortformen, die aus der Verb-Liste entfernt wurden (56 Wortformen)

Zum Eintrag schräge ist zu bemerken, dass diese Wortform im Korpus ausnahmslos im adjektivischer Verwendung auftrat, obwohl sie homograph zur Imperativ-Form des Verbs ist. Die Wortform wurde daher aus der Testsuite entfernt. Der Eintrag verzehr beschreibt im Korpus überwiegend fälschlicherweise kleingeschriebene Nomina sowie nur wenige Verb-Vorkommen; diese finden sich allerdings in offensichtlich Sätzen, die veraltetes Deutsch aufweisen.

Tabelle 2.12. Testsuite: Liste der erkannten Wortformen, die aus der Verb-Liste entfernt wurden (56 Wortformen)

Begründung
Wortform
Kein Verb / kein oder kaum verbaler Gebrauch im Korpus (21 Wortformen)
Köpenick, unbefristet, schräge, verzehr, tapp, Hur, nee, schnitzel, befall, entsprich, ausrede, Mild, bekifft, 10-mal, Tantra, Lüttringhausen, Mäh, WENIGER, mutmassen, einbüsste Deufringen
 
Kein Umlaut (12 Wortformen)
fuehren, fuehlen, wuerden, gepraegt, enthaelt, eingefuehrt, uebersetzt, gegruendet, ausdruecken, aufhoert, waehlen, gewaehlt
 
Nicht (mehr) im offiziellen Sprachgebrauch / Rechtschreibfehler (23 Wortformen)
unterfallen, pause, ss, weißte, spornen, ausversehen, gleichberechtige, reget, verheissen, projezieren GEGEBEN, erweben, weitergleitet, Gehab, schützet, geziemet, passieret, dransteht, compilieren, sott, Prüfet, jauchze, gezieme


Liste der (korrekterweise) nicht erkannten Wortformen, die aus der Adjektiv-Liste entfernt wurden (146 Wortformen)

Tabelle 2.13. Testsuite: nicht erkannte Wortformen, die aus der Adjektiv-Liste entfernt wurden (146 Wortformen)

Begründung, Wortformen
Nicht (mehr) im offiziellen Sprachgebrauch / Rechtschreibung (146 Wortformen)
z, cheap, "., business, sachen, offnen, cable, rules, 4ten, marianischen, desktop, pe, mother, minden, weapons, unserern, kuba, ders, prononcierte, ätiologischen, Städelschen, jackie, gegebnen, een, Verdener, creatio, Für´s, C3, schubert, Rainbow, along, inet, 73d, ry, diesesmal, darüberhinausgehende, Dafa, ode, nam, Escher, überkandidelte, ent, choose, meißte, diastolischer, ausm, roße, games, DDs, Ellies, schmalkaldische, psychological, popperschen, erl, mords, desde, certificate, affen, 651e, Aengevelt, www.auswaertiges-amt.de, geeignet., för, Choriner, überkandidelten, schaftliches, sachse, halo, Garbsener, anwortete, tradionellen, Staufener, gibtes, architectural, unterschiednen, meter, ebay.de, Moishe, lvpro_kg., keren, imperii, Baethge, changing, sinistre, prisma, no., mathias, konkordanten, Grouse, fuldischen, fer, chirugischen, archon, 80x80, mediterane, laaaangen, Bertone, taschen, PHR, menu, hofen, cry, mane, europäi-schen, demo-kratischen, Aszites, Raumfahrt24.de, Mil, händeln, ellen, Candle, 24mm, veschiedene, testikuläre, specielle, showing, shave, seid., Rainbirds, Provost, Manech, homepage., endometriose, alller, 25%igen, www.testdaf.de, victim, Treitschke, recherchieren., partei, ontrol, militairischen, messingenen, Lactulose, knives, gesell­schaft­liche, Elfrather, elefanten, eingestellen, drops82, bedeutet., Barri, baerliner, agricole, ±1, i.S.d.


Liste der erkannten Wortformen, die aus der Adjektiv-Liste entfernt wurden (51 Wortformen)

Tabelle 2.14. Testsuite: Liste der erkannten Wortformen, die aus der Adjektiv-Liste entfernt wurden (51 Wortformen)

Begründung, Wortform
Können auch als Nomina auftreten (8 Wortformen)
10-jährigem, 16jährigen, 38-jährige, 65-jährige, 76-jährige, 13-teilige, 80-jähriger, 50-köpfigen
 
Kein Adjektiv / kein oder kaum adjektivischer Gebrauch im Korpus (25 Wortformen)
pol., prakt., büschelweise, regalweise, Föhr, Gabler, Maltes, Sandys, Staufen, Uerdinger, Versender, Vilshofen, Langenweddingen, Sehnde, Zerebralparese, Zitierweise, 156., 406., bolzten, hoppeln, zockt, Droht, netzte, zeitigten, Neuen
 
Kein Umlaut (7 Wortformen)
goettlichen, langjaehrigen, oeffentlicher, oertliche, staendigen, toedliche, vielfaeltige
 
Nicht (mehr) im offiziellen Sprachgebrauch / Rechtschreibfehler (11 Wortformen)
jeweilgen, papierener, ausserordentlichem, barfüssige, übergrosse, Ians, Bestimmt, -jugendliche, vital-, erbschaftsteuerrechtlich, qualitätvoll