Bei der Informationsextraktion (IE) geht es um die automatische Extraktion von Information aus Volltexten. Die Anwendungen erstrecken sich von der Unterstützung von Internet-Suchmaschinen bis hin zum automatischen Aufbau von Fachdatenbanken. Die Methoden reichen von der Analyse natürlicher Sprache über automatische Termerkennung bis zu automatischen Lernverfahren, wobei symbolische, statistische und hybride Methoden zum Einsatz kommen. Komplexe Informationsstrukturen können mit sogenannten Templates (Informationsmustern) repräsentiert werden. In der Veranstaltung werden verschiedene Anwendungen und Methoden für diverse Anwendungsdomänen betrachtet.
Inhalte:
Das Seminar behandelt Ansätze, Verfahren und Werkzeuge der Informationsextraktion und legt einen besonderen Fokus auf die Erkennung von Eigennamen und von domänen- bzw. fachspezifischer Information. Auch sollen Fragestellungen der Evaluation derartiger Verfahren diskutiert werden.
Lernziele:
Die Teilnehmer sollen lernen, wie sie Ressourcen für IE Systeme bewerten können. Außerdem sollen sie befähigt werden, dass sie bei der Entwicklung, beim Einsatz und bei der Bewertung von IE-Systemen mitwirken können.
Here is a link to the Lecture
Email Address: SubstituteMyLastName@cis.uni-muenchen.de
DFG Project: Models of Morphosyntax for Statistical Machine Translation
Thanks to Gerhard Rolletschek for help in preparing the course.
Thursdays, 10 to 12 (c.t.), ROOM CHANGE: 151
...
October 17th | Information on Participants, Ungraded/Anonymous Quiz | |
October 24th | Presentation of Referatsthemen | slides |
October 31st | Ubung: civil rights timeline (regular expressions) | assignment 1 |
November 7th | Cancelled | |
November 14th | Ubung: civil rights timeline (questions, Unix tools) | civil_rights_solution.pl python (just handles complicated lines with multiple dates for now) further notes including on sort and grep html input |
November 21st | Cancelled | |
November 28th | Room/Time moved to 165, December 4th, 16:00 to 18:00 |
Referatsthemen (name: topic)
Date | Topic | Materials | Hausarbeit Received |
04.12 (VL) | Symonenko: History of IE (Message Understanding Conferences, MUC) | slides | yes |
04.12 (VL) | Scholz: Focused Web Crawling | slides | yes |
04.12 (VL) | Siilivask: Rule-Based Named Entity Recognition of Regular Sets in Europarl DE/EN | slides | yes |
05.12 | Ari: Citation Parsing | slides | yes |
11.12 (VL) | Seifer/Vukobrad: Wrappers | slides | yes/yes |
12.12 | Schätz: Fine-grained Open Classes of Named Entities | slides | yes |
12.12 | Arends/Kaiser: Language Identification | slides | yes/yes |
19.12 | Rausch: Learning Rules for Named Entity Recognition | slides | yes |
19.12 | Hamberger: Crowd-sourcing with Amazon Mechanical Turk | slides | yes |
19.12 | Wulandari: Lightly Supervised Named Entity Recognition | slides | yes |
08.01 (VL) | Huttenloher: Hidden Markov Models for NER | slides | yes |
08.01 (VL) | Martin: Wikification, Annotating Text with Wikipedia Links | slides | yes |
08.01 (VL) | Badalova: GATE Rule-based Named Entity Recognition in Europarl EN | slides | yes |
09.01 | Meyer: Structured Perceptron for NER | slides | yes |
09.01 | Zengea: Distant Supervision for Named Entity Recognition | slides | yes |
09.01 | | ||
15.01 (VL) | Krkic/Still: Geographic Information Extraction | slides | yes/yes |
16.01 | Uvarov: Domain Adaptation | ||
16.01 | Schlegel: Biological Named Entity Recognition | slides | yes |
16.01 | | ||
22.01 (VL) | Länger/Schweter: Stanford Named Entity Recognition in Europarl DE/EN | slides | yes/yes |
23.01 | Kalasouskaya: Transliteration Mining | slides | yes |
23.01 | Hahn/Klotzeck: Stanford Coreference in Europarl EN | slides | yes/yes |
30.01 | Davletgareeva: Bilingual Terminology Mining | slides | yes |
30.01 | Lipay: Projecting Annotations to Another Language Via Aligned Corpora | ||
30.01 | Shevchuk: Applying opencalais.com to Europarl | slides | yes |