Bei der Informationsextraktion (IE) geht es um die automatische Extraktion von Information aus Volltexten. Die Anwendungen erstrecken sich von der Unterstützung von Internet-Suchmaschinen bis hin zum automatischen Aufbau von Fachdatenbanken. Die Methoden reichen von der Analyse natürlicher Sprache über automatische Termerkennung bis zu automatischen Lernverfahren, wobei symbolische, statistische und hybride Methoden zum Einsatz kommen. Komplexe Informationsstrukturen können mit sogenannten Templates (Informationsmustern) repräsentiert werden. In der Veranstaltung werden verschiedene Anwendungen und Methoden für diverse Anwendungsdomänen betrachtet.
Inhalte:
In der Vorlesung wird zunächst der Begriff der Informationsextraktion in Abgrenzung zum Information Retrieval definiert. Dazu gehört auch, die Teilgebiete und Aufgaben der Informationsextraktion (IE) vorzustellen. Dabei wird konkret auf die einzelnen Probleme der IE eingegangen, bevor Ansätze und Verfahren zur Lösung dieser behandelt werden. Die Veranstaltungsteilnehmer werden lernen, wie die Architektur eines generischen IE-Systems aussieht, welche Komponenten es enthält, und auf welchen Ressourcen es aufbaut.
Lernziele:
Ziel ist es, die Probleme bei der automatischen Informationsextraktion aus Dokumenten zu verstehen und die notwendigen Komponenten und Ressourcen kennenzulernen.
Here is a link to the Seminar
Email Address: SubstituteMyLastName@cis.uni-muenchen.de
DFG Project: Models of Morphosyntax for Statistical Machine Translation
Room BU101, Wednesdays, 16 to 18 (c.t.)
IMPORTANT NOTICE: the Nachholklausur will be on April 9th, see below.
Date | Topic | Reading (DO BEFORE THE MEETING!) | lecture slides |
October 8th | Introduction to Information Extraction | slides | |
October 15th | History/Related Fields, Sources, Regular Classes | Read Sarawagi: Introduction (pages 1 to 21) | slides |
October 22nd | Introduction to evaluation, Rule-based NER | Read Sarawagi: Rule-based | slides |
October 29th | More evaluation, IE Tasks, Annotation | slides | |
November 5th | IR vs. IE and introduction to classification-based NER | slides | |
November 5th/12th | Decision Trees | slides | |
November 12th/19th | Linear Models | Read Sarawagi: Statistical | slides |
November 26th | Relation Extraction | slides | |
December 3rd | Event Extraction (and review of the Übung) | Read Sarawagi: Relationship Extraction | slides |
December 10th | Ontological and Open IE | slides | |
December 17th | Sentiment Analysis | slides | |
January 7th | Multilingual Extraction | slides | |
January 14th | Machine Learning (Maximum Entropy) | slides | |
January 21st | Review | ||
January 28th | Klausur | ||
April 9th | NACHHOLKLAUSUR! 10:00 c.t., room C003 (one floor below CIS) |
Literature:
Sunita Sarawagi. Information Extraction. Foundations and Trends in Databases, 1(3):261–377, 2008. Table of Contents