Information Extraction

Information Extraction

Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen maschinellen Verarbeitung von unstrukturierter Information mit dem Ziel, Wissen bezüglich einer im Vorhinein definierten Domäne zu gewinnen. Ein typisches Beispiel ist die Extraktion von Informationen über Firmenzusammenschlüsse (engl. merger events), wobei etwa aus Online-Nachrichten Instanzen der Relation merge(Firma1, Firma2, Datum) extrahiert werden. Der Informationsextraktion kommt eine große Bedeutung zu, da viele Informationen in unstrukturierter (nicht relational modellierter) Form vorliegen, zum Beispiel im Internet, und dieses Wissen durch Informationsextraktion besser erschließbar wird.

Inhaltsverzeichnis

Informationsextraktion

Informationsextraktion kann aus zwei verschiedenen Perspektiven betrachtet werden. Einerseits als das Erkennen von bestimmten Informationen – so bezeichnet etwa Grishman IE als ”the automatic identification of selected types of entities, relations, or events in free text” (Grishman 2003) –, andererseits als das Entfernen der Informationen, die nicht gesucht werden. Letztere Sichtweise drückt etwa eine Definition von Cardie aus: ”An IE system takes as input a text and ’summarizes’ the text with respect to a prespecified topic or domain of interest” (Cardie 1997). In diesem Sinne könnte man Informationsextraktion auch als gezielte Textzusammenfassung bezeichnen (vgl. Euler 2001a, 2001b). Informationsextraktionssysteme sind also immer zumindest auf ein spezielles Fachgebiet, meist sogar auf bestimmte Interessengebiete (Szenarios) innerhalb eines allgemeineren Fachgebietes (Domäne) ausgerichtet. So wäre etwa in der Domäne ’Wirtschaftsnachrichten’ ein mögliches Szenario ’Personalwechsel in einer Managementposition’. Eine weitergehende Einschränkung macht Neumann, wenn er schreibt, dass das Ziel der IE ”die Konstruktion von Systemen” sei, ”die gezielt domänenspezifische Informationen aus freien Texten aufspüren und strukturieren können [...]” (Neumann 2001, Hervorhebung hinzugefügt). In diesem Zusammenhang ist zu beachten, dass eine solche Einschränkung Konsequenzen für die technische Realisierung eines Informationsextraktionssystems hat.

Abgrenzung von Nachbargebieten

Abzugrenzen ist das eigenständige Forschungsgebiet der Informationsextraktion von verwandten Gebieten: Textzusammenfassung hat eine umfassende Zusammenfassung des Inhaltes eines Textes zum Ziel (die umfassende automatische Textzusammenfassung ist insofern problematisch, als dass auch menschliche Leser bei der Aufgabe, das Wichtigste eines Textes zusammenzufassen, nie völlige Übereinstimmung erzielen werden, wenn nicht spezifiziert wurde, inwiefern die Informationen wichtig sein sollen). Textclustering bedeutet das selbstständige Gruppieren von Texten, Textklassifikation das Einordnen von Texten in vorgegebene Gruppen. Mit Information Retrieval kann die Suche nach Dokumenten in einer Dokumentenmenge (Volltextsuche) oder auch – entsprechend der wörtlichen Bedeutung – die allgemeiner formulierte Aufgabe des Abrufs von Informationen gemeint sein (vgl. Strube et al. 2001). Datenschürfung (data mining) bezeichnet ganz allgemein den “Prozess, Muster in Daten zu erkennen” (Witten 2000:3).

Anwendungsmöglichkeiten

Generell lassen sich zwei Arten der Anwendung von Informationsextraktion unterscheiden: Zum Einen können die extrahierten Daten sofort für einen menschlichen Betrachter gedacht sein. In diesen Anwendungsbereich fällt etwa das von Euler (2001a) zu Testzwecken entwickelte System, das aus E-Mails extrahierte Informationen als SMS weiterleitet, oder ein System, das in einer Suchmaschine zu den Treffern extrahierte Informationen anzeigt, etwa die angebotenen Positionen in Stellenanzeigen.

Zum Anderen können die Daten für die maschinelle Weiterverarbeitung gedacht sein, sei es zur Speicherung in Datenbanken, zur Textkategorisierung oder -klassifikation oder als Ausgangspunkt für eine umfassende Textzusammenfassung. Bestehen die gesuchten Informationen aus mehreren Einzelinformationen, bestimmt das Anwendungsgebiet gewisse Ansprüche an das Informationsextraktionssystem. So müssen zu einer maschinellen Weiterverarbeitung die Informationen strukturiert vorliegen, während für eine Weiterverarbeitung direkt durch den Menschen auch ein unstrukturiertes Ergebnis genügen kann.

Wenn die gesuchten Informationen nicht aus weiteren Einzelinformationen bestehen, wie bei der Erkennung von Eigennamen, ist eine solche Unterscheidung überflüssig.

Evaluationskriterien

Zur Bewertung (Evaluation) von Informationsextraktionssystemen werden die im Information Retrieval gebräuchlichen Kriterien Vollständigkeit (Recall) und Präzision (Precision) bzw. das aus diesen Werten ermittelte F-Maß verwendet. Ein weiteres Kriterium zur Bewertung der Güte des Extraktes ist der Anteil der unerwünschten Informationen (Fall-out).

Message Understanding Conferences

Die Entwicklung auf dem noch recht jungen Forschungsgebiet der Informationsextraktion wurde maßgeblich durch die Message Understanding Conferences (MUC) vorangetrieben. Die sieben MUC wurden von 1987 bis 1997 von der ’Defense Advanced Research Projects Agency’ (DARPA) – der zentralen Forschungs- und Entwicklungseinrichtung des US-amerikanischen Verteidigungsministeriums – veranstaltet. Vorgegebene Szenarios waren Nachrichten über nautische Operationen (MUC-1 1987 und MUC-2 1989), über terroristische Aktivitäten (MUC-3 1991 und MUC-4 1992), Joint Ventures und Mikroelektronik (MUC-5 1993), Personalwechsel in der Wirtschaft (MUC-6 1995), sowie über Raumfahrzeuge und Raketenstarts (MUC-7 1997) (Appelt und Israel 1999). Da zur gemeinsamen Evaluation ein standardisiertes Ausgabeformat notwendig war, verwendete man ab der zweiten MUC eine gemeinsame Ausgabeschablone (Template), weshalb nahezu alle Informationsextraktionssysteme eine strukturierte Ausgabe der extrahierten Informationen leisten, eine Ausnahme hierzu bildet Euler (2001a, 2001b, 2002).

Zusammenfassung

Informationsextraktionssysteme können für verschiedene Aufgabenbereiche von der automatischen Analyse von Stellenanzeigen bis zur Vorbereitung einer allgemeinen Textzusammenfassung eingesetzt werden. Entsprechend diesen Anforderungen können die Systeme strukturierte oder unstrukturierte Ergebnisse liefern. Weiter können die Systeme völlig unterschiedliche linguistische Tiefe aufweisen, von der Extraktion durch gezielte Zusammenfassung (Euler 2001a, 2001b, 2002) mit reiner Satzfilterung, wo lediglich semantische Orientierung in Form der Wortliste gegeben ist, bis hin zu Systemen mit Analysemodulen für sämtliche Ebenen der Sprache (Phonologie, Morphologie, Syntax, Semantik, ev. auch Pragmatik). In einigen Bereichen führt unser mangelndes Verständnis für die Funktionsweise natürlicher Sprache zu einer Stagnation der Entwicklung, doch da Informationsextraktion eine eingeschränktere Aufgabe als ein komplettes Textverständnis darstellt, sind vielfach im Sinne eines ”appropriate language engineering” (Grishman 2003) den Anforderungen angemessene Lösungen (vielleicht auch gerade in Verbindung mit den Nachbargebieten) möglich. Als Beispiel hierfür möge das von Euler (2001a, 2001b, 2002) entworfene Verfahren dienen, das im Unterschied zu den die IE dominierenden Systemen lediglich unstrukturierte Ergebnisse liefert. Dafür erreicht es hohe Leistung nach F-Maß und verlangt lediglich einen geringen oder gar minimalen Annotierungsaufwand des Trainingskorpus, was eine hohe Portabilität auf neue Domänen und Szenarios bedeuten könnte, etwa in Form einer Erstellung von Wortlisten en passant bei einer Textklassifikation.

Literatur

  • Appelt, Douglas; John Bear, Jerry Hobbs, David Israel, Megumi Kameyama, Mark Stickel, Mabry Tyson (1993) FASTUS: A Cascaded Finite-State Tranducer for Extracting Information from Natural-Language Text, Sri International. 11. Februar 2006: [1].
  • Appelt, Douglas & David Israel (1999) Introduction to Information Extraction Technology. A Tutorial Prepared for IJCAI-99, SRI International. 11. Februar 2006: [2].
  • Cardie, Claire (1997) ”Empirical Methods in Information Extraction” in AI Magazine, Vol. 18, 4, 65-68. 11. Februar 2006: [3].
  • Cunningham, Hamish; Diana Maynard, Kalina Bontcheva, Valentin Tablan, Cristian Ursu, Marin Dimitrov (2003) Developing Language Processing Components with GATE (a User Guide), University of Sheffield. 11. Februar 2006: [4].
  • Euler, Timm (2001a) Informationsextraktion durch Zusammenfassung maschinell selektierter Textsegmente, Universität Dortmund. 11. Februar 2006: [5].
  • — (2001b) Informationsextraktion durch gezielte Zusammenfassung von Texten, Universität Dortmund. 11. Februar 2006: [6].
  • — (2002) ”Tailoring Text using Topic Words: Selection and Compression” in Proceedings of the 13th International Workshop on Database and Expert Systems Applications (DEXA), IEEE Computer Society Press. 11. Februar 2006: [7].
  • Grishman, Ralph; Silja Huttunen, Pasi Tapanainen, Roman Yangarber (2000) ”Unsupervised Discovery of Scenario-Level Patterns for Information Extraction” in Proceedings of the Conference on Applied Natural Language Processing ANLP-NAACL2000, Seattle. 282-289. 11. Februar 2006: [8].
  • Grishman, Ralph (2003) ”Information Extraction” in Mitkov, Ruslan et al., The Oxford Handbook of Computational Linguistics, Oxford University Press. 545-559.
  • Mitkov, Ruslan (2003) ”Anaphora Resolution” in Mitkov, Ruslan et al., The Oxford Handbook of Computational Linguistics, Oxford University Press. 267-283.
  • Neumann, Günter (2001) ”Informationsextraktion” in Carstensen, Kai-Uwe et al. Computerlinguistik und Sprachtechnologie. Eine Einführung, Heidelberg, Berlin: Spektrum. 448-455.
  • Strube, Gerhard u.a. (Hrsg.) (2001) Digitales Wörterbuch der Kognitionswissenschaft, Klett-Cotta.
  • Witten, Ian & Eibe Frank (2000) Data Mining - Praktische Werkzeuge und Techniken für das maschinelle Lernen, Hanser.
  • Xu, Feiyu; Hans Uszkoreit;Hong Li (2006) "Automatic Event and Relation Detection with Seeds of Varying Complexity", In Proceedings of AAAI 2006 Workshop Event Extraction and Synthesis, Boston, July, 2006.
  • Xu, Feiyu; Hans Uszkoreit;Hong Li (2007) "A Seed-driven Bottom-up Machine Learning Framework for Extracting Relations of Various Complexity", In Proceedings of ACL 2007, Prague, June, 2007. [9].

Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Information extraction — In natural language processing, information extraction (IE) is a type of information retrieval whose goal is to automatically extract structured information, i.e. categorized and contextually and semantically well defined data from a certain… …   Wikipedia

  • Information Awareness Office — seal The Information Awareness Office (IAO) was established by the Defense Advanced Research Projects Agency (DARPA) in January 2002 to bring together several DARPA projects focused on applying surveillance and information technology to track and …   Wikipedia

  • Information retrieval — This article is about information retrieval in general. For the fictional government department, see Brazil (film). Information retrieval (IR) is the area of study concerned with searching for documents, for information within documents, and for… …   Wikipedia

  • Information filtering system — An Information filtering system is a system that removes redundant or unwanted information from an information stream using (semi)automated or computerized methods prior to presentation to a human user. Its main goal is the management of the… …   Wikipedia

  • Information-Retrieval — [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationswiedergewinnung, gelegentlich Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem inhaltsorientiertem Suchen beschäftigt. Es ist ein Teilgebiet der Informationswissenschaft …   Deutsch Wikipedia

  • Information retrieval — [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationswiedergewinnung, gelegentlich Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem inhaltsorientiertem Suchen beschäftigt. Es ist ein Teilgebiet der Informationswissenschaft …   Deutsch Wikipedia

  • Extraction De L'uranium — L industrie d extraction de l uranium est une industrie minière qui va de la prospection initiale jusqu au produit transportable (le yellowcake). Elle fait partie du cycle du combustible nucléaire (ensemble d opérations visant à fournir le… …   Wikipédia en Français

  • Information forensics — is the science of investigation into systemic processes that produce information. Systemic processes utilize primarily computing and communication technologies to capture, treat, store and transmit data. Manual processes complement technology… …   Wikipedia

  • Extraction de connaissances à partir de bases de données — Exploration de données L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l’extraction …   Wikipédia en Français

  • Information Awareness Office — Siegel des Information Awareness Office Das Information Awareness Office (IAO) war ein Projekt, das von der DARPA, einer Agentur des Verteidigungsministeriums der Vereinigten Staaten, gegründet wurde. Aufgabe des IAO war es, innerhalb einer… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”