Die in der Testsuite auftretenden Wortformen wurden über einen Zufallsalgorithmus aus dem Web-Korpus SDeWaC ausgewählt. Dieses Korpus wurde mit dem TreeTagger (s. [bib.Schmid-1994] und [bib.Schmid-1999] ) mit Wortklassen annotiert. TreeTagger arbeitet mit einer hohen Zuverlässigkeit, jedoch muss bei einem Webkorpus davon ausgegangen werden, dass ein relativ hoher Anteil der Texte nicht seinem Sprachmodell (u.a. wegen des vermehrten Vorkommens von Dialogen) entsprechen. Es kommt daher zu einer Fehlerrate, die höher ist als z.B. bei Zeitungstexten.
Morphologische Analysesysteme auf der anderen Seite können oft weit mehr Wörter und Schreibweisen verarbeiten, als der offizielle Sprachgebrauch vorsieht, z.B. analysiert SMOR problemlos Wortformen, in denen der Umlaut vermieden wird (z.B. faellen statt fällen). Weiterhin kann man einem solchen Tool normalerweise nicht vorgeben, dass es nur Wortformen bestimmter Wortarten analysieren soll.
Aufgrund der erhöhten Fehlerrate und der Robustheit von SMOR sind also einige Wortformen in den Listen der von SMOR erkannten Formen, die einer anderen Wortart angehören oder nicht der offiziellen Rechtschreibung entsprechen. Diese haben wir als (weitere) "true negatives" klassifiziert und aus der Testsuite entfernt (siehe Tabellen unten). Bei der Berechnung des Recall werden diese Wortformen allerdings nicht berücksichtigt (nur insoweit, dass ihre Anzahl von der Gesamt-Anzahl der Wortformen abgezogen wird, siehe „Erläuterungen zur Recall-Berechnung“).
Tabelle 2.9. Testsuite: nicht erkannte Wortformen, die aus der Nomen-Liste entfernt wurden (274 Wortformen)
Begründung, Wortformen |
---|
Groß-/Klein-/Rechtschreibung/Umlaute falsch (42 Wortformen) |
organisationen, uhren, abhandlung, übernachtungen, zitaten, rückgrat, bude, büsche, atomstrom, postbote, buchbesprechung, datenpakete, wasserpfeife, theaterspielen, rechtsänderungen, begleiters, einheitspreis, lieferschwierigkeiten, vorteil, typ, verstaendnis, ordung, zuckerspiegel, üblichkeiten, Unterneh-men, werbevideo, gegeninformationsbüro, staatsbuerger, Tembo, leistungsausweis, ökoforum, Büsch, Wirtschafts-und, Modificationen, Mitgleider, Nachhinnein, Begiffe, Polizei-direktion Blitz-umfrage, Erlebnise, Entspannungspolitik, Angestellen |
Fremd/Lehnwörter, Groß-/Kleinschreibung falsch (28 Wortformen) |
agents, hardliner, kingdom, protocol, mustang, arbitration, Slub, individuals, Departemente, e-books, smokers, Mbô, Testsample, stamp, Retrospect, Callgirl, porteños, eraserhead, Threads., Mirafiori, excitement, congregation, Midshipman, enormous, Blogosphere, analysing, situ, RUNNING |
kein Nomen / Eigennamen /Abkürzungen (149 Formen) |
Negri, m/w, Hoeneß, MVA, Mubarak, rössel, FAP, ISiS, sichem, Ronhof, Haußmann, Janssen-Cilag, U9, Cooder, cwi, e36, AEAO, rse, LohnFG, Eureka, BBesG, Mebes, DNC, Metschurat, Großenhainer, Garamond, Unctad, Sekretar, ToT, Bliemel, Wutzler, Kestner, CRE, WIRO, Nimbschen, hoy, willste, Rojahn, Besiktas, bdU, , ZRL, Shakaar, mg/100, Korten, gutter, Wesermünde, Nobiskrug, InterCityHotel, Chatillon, Unbegriff, S&D, Morgenes, einnen, BUKG, Joliot-Curie, Toliman, Pfahl-Traughber, Novaplant, Mzoudis, Maegerle, LfI, Krank-sein, gege, vindicator, Pindars, Krützen, I-KG, HMWVL, Goodell, FBG, EuAlÜbk, D?S2, Thirsis, Metabolite, Klasvogt, Klaiber, Hohenurach, EBSU, Brunswiker, Archos, V/52, Steinem, Speratus, Reichelbräu, Panzano, över, Montedison, Monssen-Engberding, Krüdener, Kivelingsfest, WVHA, Tscharlie, Stretta, RuedigerK, Nimbun, Musiel, Zeltival, verbrand, umsunst, taffel, SGU, Schiputznik, Peterwardein, ..............., mAl, Lysol, http://www.bverfg.de, Hinrichsens, Gesäuse, Furkapass, üro, turen, Silkerode, Qinzwisi, Nō, Phänophasen, Milgrams, Liorets, Künzig, Klinsmänner, i.L., http://www.school-scout.de/abonnements., Amann, Zombiefilmen, www.frsw.de/forum, Twike, SüdL, SRS-Worldhotels, Schusdziarra, Scheifinger, Raphaelhaus, organisierung, Muirs, Motzischken, morum, Lur, Literärgeschichte, KdEÖ, HighChem, Hartmannsche, Gittelde, Gardners, exzellence, Ellok, BuddyListe, adam, #51, 1961a |
Tabelle 2.10. Testsuite: Liste der erkannten Wortformen, die aus der Nomen-Liste entfernt wurden (55 Wortformen)
Begründung |
---|
Wortform |
Eigennamen (29 Wortformen) |
Bobenheim, Eurotier, Eurovideo, Flottau, Flughafen-Hahn, Friedrich-Wieck-Straße, Gamigstraße, Großglockners, Groß-Hamburg, Grünbau, Gestanden, Hallendorf, Hallenserin, Heidelbergers, Hintersasse, Kirchheller, Knautkleeberg, Kornbergstraße, Langfort, Lüdinghausen, Main-Spitze, Oberharmersbach, Ohlstadt, Ostwestfale, Pulheim-Brauweiler, Queichhambach, Wandlitz, Wäscherburg, Wichlinghausen |
Kein (deutsches) Nomen, Groß-/Kleinschreibung falsch (19 Wortformen) |
A-ßbung, Ausgestellt, bauch, Dienten, kalk, kopier, nachbauten, normalsichtige, oute, Punktgleich, regelkonform, rumprobieren, Sekundär, Service-orientierte, SINNVOLL, Struktureller, vorkeimen, zurücktretende, XML-basierte |
Nicht (mehr) im offiziellen Sprachgebrauch / Rechtschreibfehler (7 Wortformen) |
Besenreisern, Defizit-, -File, -haltung, -kompetenz, Problemes, -User |
Tabelle 2.11. Testsuite: nicht erkannte Wortformen, die aus der Verb-Liste entfernt wurden (149 Wortformen)
Begründung, Wortformen |
---|
Nicht (mehr) im offiziellen Sprachgebrauch / Rechtschreibung (130 Wortformen) |
------------------, --------------------, -denn, AGBG, ähm, al‑, amal, ansehn, anzuschaun, atte, ausgehölt, beeinhalten, begang, bescheibt, burnt, bzw, Colegio, cabinet, cafe, dafuer, deßhalb, dissen, draft, drinken, du's, eineR, elearning, emerging, enstehen, errinnert, erwürgete, extravertiert, eyes, Fiege, Fran, falsch., fands, funktionniert, Gerleve, ge-genüber, geÄndert, gefagt, gefällts, gehypt, gemalert, gesalbet, geschriehen, gehn, geniesen, ger, get, getimet, google, ha-ben, ham, hamburg.de, hanging, haperts, happyend, hätt´s, here, hinzugehn, höhren, hows, ill, Immelt, inn, innovieren, lnw, iVm, jemacht, jezt, Kalniete, ka, knieen, knnte, kommte, kontakten, kopstand, lan, las-sen, leihn, list-style-image:url(/cma/libs/do_display/0,1294,7852,00, meinete, mes, message, mounten, movies, nachwievor, nahete, nam, nis, nn, ober, ohngefähr, P.S, Pickles, pocket, premiere, rührete, sager, S.3, Saur, sol, soror, stande, that´s, tres, trügte, uz, variert, vb, vergeb, verliert., vorübergehn, wald, wär´s, wech, WEIl, were, win, with, written, www.jungle-world, zoget, z.T, zu-mindest |
kein Verb (19 Wortformen) |
äh, Ahlgrimm, Birbaumer, BVV, VVE, Eisele, Freetown, Keeler, Kobler, KVV, Lennox, Lynen, Magath, Meyl, Mommsen, Nicklas, Passah, Valium, Verità |
Zum Eintrag schräge ist zu bemerken, dass diese Wortform im Korpus ausnahmslos im adjektivischer Verwendung auftrat, obwohl sie homograph zur Imperativ-Form des Verbs ist. Die Wortform wurde daher aus der Testsuite entfernt. Der Eintrag verzehr beschreibt im Korpus überwiegend fälschlicherweise kleingeschriebene Nomina sowie nur wenige Verb-Vorkommen; diese finden sich allerdings in offensichtlich Sätzen, die veraltetes Deutsch aufweisen.
Tabelle 2.12. Testsuite: Liste der erkannten Wortformen, die aus der Verb-Liste entfernt wurden (56 Wortformen)
Begründung |
---|
Wortform |
Kein Verb / kein oder kaum verbaler Gebrauch im Korpus (21 Wortformen) |
Köpenick, unbefristet, schräge, verzehr, tapp, Hur, nee, schnitzel, befall, entsprich, ausrede, Mild, bekifft, 10-mal, Tantra, Lüttringhausen, Mäh, WENIGER, mutmassen, einbüsste Deufringen |
Kein Umlaut (12 Wortformen) |
fuehren, fuehlen, wuerden, gepraegt, enthaelt, eingefuehrt, uebersetzt, gegruendet, ausdruecken, aufhoert, waehlen, gewaehlt |
Nicht (mehr) im offiziellen Sprachgebrauch / Rechtschreibfehler (23 Wortformen) |
unterfallen, pause, ss, weißte, spornen, ausversehen, gleichberechtige, reget, verheissen, projezieren GEGEBEN, erweben, weitergleitet, Gehab, schützet, geziemet, passieret, dransteht, compilieren, sott, Prüfet, jauchze, gezieme |
Tabelle 2.13. Testsuite: nicht erkannte Wortformen, die aus der Adjektiv-Liste entfernt wurden (146 Wortformen)
Begründung, Wortformen |
---|
Nicht (mehr) im offiziellen Sprachgebrauch / Rechtschreibung (146 Wortformen) |
z, cheap, "., business, sachen, offnen, cable, rules, 4ten, marianischen, desktop, pe, mother, minden, weapons, unserern, kuba, ders, prononcierte, ätiologischen, Städelschen, jackie, gegebnen, een, Verdener, creatio, Für´s, C3, schubert, Rainbow, along, inet, 73d, ry, diesesmal, darüberhinausgehende, Dafa, ode, nam, Escher, überkandidelte, ent, choose, meißte, diastolischer, ausm, roße, games, DDs, Ellies, schmalkaldische, psychological, popperschen, erl, mords, desde, certificate, affen, 651e, Aengevelt, www.auswaertiges-amt.de, geeignet., för, Choriner, überkandidelten, schaftliches, sachse, halo, Garbsener, anwortete, tradionellen, Staufener, gibtes, architectural, unterschiednen, meter, ebay.de, Moishe, lvpro_kg., keren, imperii, Baethge, changing, sinistre, prisma, no., mathias, konkordanten, Grouse, fuldischen, fer, chirugischen, archon, 80x80, mediterane, laaaangen, Bertone, taschen, PHR, menu, hofen, cry, mane, europäi-schen, demo-kratischen, Aszites, Raumfahrt24.de, Mil, händeln, ellen, Candle, 24mm, veschiedene, testikuläre, specielle, showing, shave, seid., Rainbirds, Provost, Manech, homepage., endometriose, alller, 25%igen, www.testdaf.de, victim, Treitschke, recherchieren., partei, ontrol, militairischen, messingenen, Lactulose, knives, gesellschaftliche, Elfrather, elefanten, eingestellen, drops82, bedeutet., Barri, baerliner, agricole, ±1, i.S.d. |
Tabelle 2.14. Testsuite: Liste der erkannten Wortformen, die aus der Adjektiv-Liste entfernt wurden (51 Wortformen)
Begründung, Wortform |
---|
Können auch als Nomina auftreten (8 Wortformen) |
10-jährigem, 16jährigen, 38-jährige, 65-jährige, 76-jährige, 13-teilige, 80-jähriger, 50-köpfigen |
Kein Adjektiv / kein oder kaum adjektivischer Gebrauch im Korpus (25 Wortformen) |
pol., prakt., büschelweise, regalweise, Föhr, Gabler, Maltes, Sandys, Staufen, Uerdinger, Versender, Vilshofen, Langenweddingen, Sehnde, Zerebralparese, Zitierweise, 156., 406., bolzten, hoppeln, zockt, Droht, netzte, zeitigten, Neuen |
Kein Umlaut (7 Wortformen) |
goettlichen, langjaehrigen, oeffentlicher, oertliche, staendigen, toedliche, vielfaeltige |
Nicht (mehr) im offiziellen Sprachgebrauch / Rechtschreibfehler (11 Wortformen) |
jeweilgen, papierener, ausserordentlichem, barfüssige, übergrosse, Ians, Bestimmt, -jugendliche, vital-, erbschaftsteuerrechtlich, qualitätvoll |