Computerlinguistik


Computerlinguistik

In der Computerlinguistik wird untersucht, wie natürliche Sprache in der Form von Text- oder Sprachdaten mit Hilfe des Computers algorithmisch verarbeitet werden kann. Sie ist Teilbereich der künstlichen Intelligenz und gleichzeitig Schnittstelle zwischen Sprachwissenschaft und Informatik. Als Studiengang wird sie auch als linguistische Datenverarbeitung oder maschinelle Sprachverarbeitung[1] bezeichnet.

Hauptmotivation sind dabei folgende zwei Bestrebungen:

  1. Die Unterstützung der sprachwissenschaftlichen Forschung durch den Einsatz von Computern. Das geschieht z. B. durch die automatische Analyse großer Korpora (Sammlungen von Texten oder gesprochener Äußerungen), um sprachliche Phänomene zu untersuchen oder die Gültigkeit von Theorien zu prüfen.
  2. Die Entwicklung sprachverarbeitender Systeme, z. B. für die maschinelle Übersetzung, automatische Textzusammenfassung, Extraktion von Informationen aus Texten, natürlichsprachige Interaktion mit Maschinen usw. Es steht hierbei also mehr die Anwendung im Vordergrund.

Inhaltsverzeichnis

Anwendungen in der Praxis

Die praktische Aufgabe der Computerlinguistik besteht darin, Computerprogramme zu entwickeln, die bestimmte, an Sprache geknüpfte Leistungen erbringen. Dazu gehören zum Beispiel:

  • Die Unterstützung des Computerbenutzers bei der Textverarbeitung, beispielsweise Korrektur von Tipp- und Rechtschreibfehlern, Prüfung auf grammatische Richtigkeit, Umwandlung in Bedeutungszeichen in Japanisch oder Chinesisch.
  • Die automatische Suche nach Textstellen, und zwar nicht nur ihrer Form, sondern ihrer Bedeutung nach (Information Retrieval und Suchmaschinen).
  • Die Unterstützung beim Übersetzen von Texten in eine andere Sprache (CAT, Computer-aided Translation) oder auch die vollständige automatische Übersetzung.
  • Die Verarbeitung von gesprochener Sprache (Spracherkennung und Sprachsynthese), zum Beispiel bei telefonischen Auskunftsdiensten oder Lesegeräten für Blinde.
  • Die Auffindung von Information in großem Stil, von Literaturangaben bis hin zu direkter Beantwortung von Fragen auf der Basis großer Datenbanken (Information Retrieval, Data-Mining, Informationsextraktion).
  • Die Generierung von natürlichsprachlichen Texten wie Wegbeschreibungen oder Wettervorhersagen.
  • Die Aufbereitung von sprachlich vorliegenden Daten, beispielsweise die Verschlagwortung von Literatur, die Anfertigung von Registern und Inhaltsverzeichnissen, die Herstellung von Zusammenfassungen und Abstracts.
  • Die Unterstützung von Autoren beim Verfassen von Texten, zum Beispiel das Finden des treffenden Ausdrucks oder der richtigen Terminologie.
  • Die Interaktion des Benutzers mit dem Computer in natürlicher Sprache, so dass Computer auch Personen zugänglich sind, die sich mit den speziellen Befehlen nicht auskennen.
  • Die automatisierte Messung von persönlichen Stärken anhand natürlicher Gespräche wie offenen Interviews, Bewerbungsgesprächen, Talkshows, Podiumsdiskussionen oder Gruppendiskussionen.

Stufen in der Verarbeitung natürlicher Sprache

Computer sehen Sprache entweder in der Form von Schallinformation (wenn die Sprache akustisch vorliegt) oder in der Form von Buchstabenketten (wenn die Sprache als Text vorliegt). Um die Sprache zu analysieren, arbeitet man sich schrittweise von dieser Eingangsrepräsentation in Richtung Bedeutung vor und durchläuft dabei verschiedene sprachliche Repräsentationsebenen. In praktischen Systemen werden diese Schritte typischerweise sequentiell durchgeführt, daher spricht man vom Pipelinemodell.

Die einzelnen Schritte sind dabei die folgenden:

  • Spracherkennung. Falls der Text als Schallinformation vorliegt, muss er erst in Textform umgewandelt werden.
  • Tokenisierung. Die Buchstabenkette wird in Wörter, Sätze etc. segmentiert.
  • Morphologische Analyse. Personalformen oder Fallmarkierungen werden analysiert, um die grammatische Information zu extrahieren und die Wörter im Text auf Grundformen zurückzuführen, wie sie z.B. im Lexikon stehen.
  • Syntaktische Analyse. Die Wörter jedes Satzes werden auf ihre strukturelle Funktion im Satz hin analysiert (z.B. Subjekt, Objekt, Modifikator, Artikel, etc.)
  • Semantische Analyse. Den Sätzen bzw. ihren Teilen wird Bedeutung zugeordnet. Dieser Schritt umfasst potentiell eine Vielzahl verschiedener Einzelschritte, da Bedeutung schwer fassbar ist.
  • Dialog- und Diskursanalyse. Die Beziehungen zwischen aufeinander folgenden Sätzen werden erkannt: Im Dialog könnte das z.B. Frage--Antwort sein, im Diskurs beispielsweise eine Aussage und ihre Begründung, oder eine Aussage und ihre Einschränkung.

Es ist allerdings nicht der Fall, dass sämtliche Verfahren der Computerlinguistik diese komplette Kette durchlaufen. Die zunehmende Verwendung von maschinellen Lernverfahren hat zu der Einsicht geführt, dass auf jeder der Analyseebenen statistische Regelmäßigkeiten existieren, die zur Modellierung sprachlicher Phänomene genutzt werden können. Beispielsweise verwenden viele aktuelle Modelle der maschinellen Übersetzung Syntax nur in eingeschränktem Umfang und Semantik so gut wie gar nicht; stattdessen beschränken sie sich darauf, Korrespondenzmuster auf Wortebene auszunutzen.[2]

Allgemeiner gesprochen, versucht die praktische Computerlinguistik für jede gegebene Aufgabe (siehe oben) die Frage zu beantworten: wie "tief" muss ich analysieren, wie "flach" kann ich bleiben?

Herausforderungen der Computerlinguistik

Im folgenden sind einige Herausforderungen der CL genannt.

Sprache und Kognition

Letztlich wirft dieser Ansatz allerdings mancherlei psychologische und philosophische Fragen auf. Der Computer ist eine Maschine; die Sprache ist etwas Geistiges. Wie weit kann man das Rechnen mit Sprache treiben? Werden Computer eines Tages denken beziehungsweise funktioniert der menschliche Geist wie eine Symbolmaschine? Das Faszinierende an der Computersimulation von Sprachverhalten ist gerade das Ausloten ihrer Grenzen. Ein Erkenntnisinteresse, aus dem heraus man auch Computerlinguistik betreiben kann, ist es herauszufinden, ob und wie weit menschliche Kommunikation von Computern verarbeitbar ist und falls man an Grenzen stößt, wie diese aussehen. Sind diese Grenzen nur praktische oder grundlegend theoretische? Diese Erkenntnis ist sehr wichtig für den Platz, den wir Computern in der Gesellschaft einräumen wollen.

Sprachspezifität

Ob und wie sich diese Aufgaben maschinell lösen lassen, ist nicht nur vom Stand der Computertechnologie her vorgegeben, sondern hängt natürlich sehr von den Eigenschaften der Sprache ab. Mehr noch: Man wird zwar nach Verfahren streben, die auf alle Sprachen anwendbar sind, die Details müssen aber für jede einzelne Sprache gesondert ausgearbeitet werden. Ein Programm zur automatischen Trennung von Wörtern, das für das Englische entworfen wurde, wird ohne Anpassung für das Deutsche nicht verwendbar sein, weil hier die Prinzipien der Worttrennung andere sind. Im Unterschied zur Informatik, die sich allgemein mit dem Programmieren von Computern befasst, liegt das Anwendungsfeld der Computerlinguistik also in den sprachspezifischen Teilen von Computerprogrammen.

Was ist Bedeutung?

  • Bestimmen der Semantik. Die gleiche Wortform kann je nach Kontext eine andere Bedeutung aufweisen (vergleiche Homonym). Man muss die für den Kontext zutreffende Bedeutung auswählen. Auf der anderen Seite braucht man Formalismen zur Repräsentation von Wortbedeutungen.
  • Auflösung syntaktischer Mehrdeutigkeiten. In einigen Fällen lässt sich ein Satz auf mehrere Arten analysieren und deuten. Die Richtige auszuwählen, erfordert manchmal semantische Information über den Sprechakt und die Intention der Sprecher, mindestens jedoch statistisches Vorwissen über das gemeinsame Auftreten von Wörtern.
Beispiel: „Peter sah Maria mit dem Fernglas“ – hier ist nicht zwangsläufig klar, ob Peter Maria gesehen hat, die ein Fernglas in der Hand hielt, oder ob Peter Maria mit Hilfe eines Fernglases sehen konnte.
  • Erkennen der Absicht einer sprachlichen Äußerung (siehe Pragmatik). Manche Sätze sind nicht wörtlich zu verstehen. Beispielsweise erwartet man auf die Frage „Können Sie mir bitte das Salz reichen?“ nicht die Antwort „Ja“ oder „Nein“, sondern bittet stattdessen um das Salz.

Studienorte

Computerlinguistik kann man im deutschsprachigen Raum an verschiedenen Hochschulen als eigenständiges Fach mit verschiedenen Abschlussmöglichkeiten studieren. Diplom- und Magisterprogramme sind dabei inzwischen am Auslaufen und können i.A. nicht mehr neu begonnen werden. Sie wurden durch Bachelor- und Masterprogramme ersetzt. Die Studiengänge können sehr unterschiedliche Namen haben und haben unterschiedliche Profile (mehr/weniger Sprachwissenschaft bzw. Informatik, Anbindung an die Kognitionswissenschaft etc.).

Die folgende Liste ist nicht vollständig, umfasst aber die größten Institute im deutschsprachigen Raum mit grundständigen Studiengängen:

Geschichte

Die ersten Computerlinguistik-Studiengänge in Deutschland wurden an der Universität des Saarlandes und in Stuttgart eingerichtet. Sie führten zum Abschluss Diplom-Linguist (Computerlinguistik).[3] An der Universität Stuttgart wurde der Studiengang mit der Umstellung auf das Bachelor/Master-System insofern umstrukturiert, dass der Studiengang jetzt eine technischere Ausrichtung hat. Die Anteile der Informatik im Verhältnis zur Linguistik sind hier, im Gegensatz zu manchen anderen Computerlinguistikstudiengängen, jeweils 50%. Um dies hervorzuheben, wurde der Studiengang in "Maschinelle Sprachverarbeitung" umbenannt[1].

Regelmäßige Veranstaltungen

Tagungen

  • jährlich stattfindende Studentische Tagung Sprachwissenschaft (StuTS) - drei- bis viertägige Tagung von Studenten für Studenten
  • alle zwei Jahre stattfindende Jahrestagung der Gesellschaft für linguistische Datenverarbeitung (GLDV) bzw. (seit 2008) Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL)

Schulen

  • Computational Linguistics Fall School: Seit 2001 regelmäßig alle zwei Jahre stattfindende Herbstschule der Deutschen Gesellschaft für Sprachwissenschaft in englischer Sprache.
  • ESSLLI: European Summer School in Logic, Language and Information
  • EMA Summerschool: European Masters in Language and Speech Technology Summerschool

Organisationen

Literatur

  • James Allen: Natural Language Understanding. Redwood City, CA: The Benjamin/Cummings Publishing Company, Inc., 1995, ISBN 0-8053-0334-0
  • Daniel Jurafsky, James H. Martin: Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition Upper Saddle River, New Jersey: Prentice Hall, 2. Auflage 2008, ISBN 978-0-13-187321-6
  • Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Ralf Klabunde, Hagen Langer (Hrsg.): Computerlinguistik und Sprachtechnologie. Heidelberg: Spektrum Akademischer Verlag, 3. Auflage, 2010, ISBN 978-3827420237
  • Henning Lobin: Computerlinguistik und Texttechnologie. Paderborn/München: Fink, 2010, ISBN 3825232824
  • Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing. Cambridgdgee/MA: MIT Press, 1999, ISBN 0-262-13360-1
  • Ruslan Mitkov (Hrsg.): The Oxford Handbook of Computational Linguistics, Oxford University Press, 2003, ISBN 0-19-823882-7
  • Manfred Pinkal, Ines Rehbein, Sabine Schulte im Walde, Angelika Storrer (ed.): Semantic Approaches in Natural Language Processing. Proceedings of the Conference on Natural Language Processing 2010, Saarbrücken: universaar 2010, ISBN 978-3-86223-004-4.

Siehe auch

Weblinks

Wiktionary Wiktionary: Computerlinguistik – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

  1. a b http://www.ims.uni-stuttgart.de/lehre/msv-bsc/
  2. Peter Kolb: Was ist statistische maschinelle Übersetzung?
  3. Fachschaft Computerlinguistik an der Universität des Saarlandes: Was ist Computerlinguistik?

Wikimedia Foundation.

Synonyme:

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Computerlinguistik — Maschinelle Sprachverarbeitung; NLP (fachsprachlich); Natural Language Processing (fachsprachlich) * * * Com|pu|ter|lin|gu|is|tik 〈[ pju: ] f.; ; unz.; EDV; Sprachw.〉 Teilgebiet der Linguistik, das die EDV zur Auswertung u. Beschreibung… …   Universal-Lexikon

  • Computerlinguistik — Com|pu|ter|lin|gu|is|tik 〈 [ pju: ] f.; Gen.: ; Pl.: unz.; EDV〉 Teilgebiet der Linguistik, das die EDV zur Auswertung u. Beschreibung sprachlicher Phänomene nutzt …   Lexikalische Deutsches Wörterbuch

  • Computerlinguistik — Com|pu|ter|lin|gu|is|tik die; : Bez. für linguistische Forschungen, bei denen man Computer für die Bearbeitung u. Beschreibung sprachlicher Probleme verwendet …   Das große Fremdwörterbuch

  • Computerlinguistik — Com|pu|ter|lin|gu|is|tik …   Die deutsche Rechtschreibung

  • Gesellschaft für Sprachtechnologie und Computerlinguistik — Die Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL) ist ein wissenschaftlicher Fachverband zur Förderung von Sprachtechnologie und Computerlinguistik in Forschung, Lehre und Beruf. Die GSCL veranstaltet regelmäßig Fachtagungen,… …   Deutsch Wikipedia

  • Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL) — Die Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL) ist ein wissenschaftlicher Fachverband zur Förderung von Sprachtechnologie und Computerlinguistik in Forschung, Lehre und Beruf. Die GSCL veranstaltet regelmäßig Fachtagungen,… …   Deutsch Wikipedia

  • Morphologische Analyse (Computerlinguistik) — Unter morphologischer Analyse versteht man in der Computerlinguistik ein Verfahren, welches die morphologischen, syntaktischen und evtl. semantischen Eigenschaften von Wörtern ermittelt. Im Einzelnen können morphologische Analyseverfahren die… …   Deutsch Wikipedia

  • Wortnetz (Computerlinguistik) — Ein Wortnetz ist eine Art von semantischem Netz. In einem Wortnetz werden lexikalische Zeichen und Konzepte durch semantische Relationen miteinander verbunden. Der Unterschied zu semantischen Netzen besteht darin: dass in Wortnetzen nicht die… …   Deutsch Wikipedia

  • Maschinelle Sprachverarbeitung — Computerlinguistik; NLP (fachsprachlich); Natural Language Processing (fachsprachlich) …   Universal-Lexikon

  • Computerlinguisten — In der Computerlinguistik wird untersucht, wie natürliche Sprache mit Hilfe des Computers algorithmisch verarbeitet werden kann. Sie ist Teilbereich der Künstlichen Intelligenz und gleichzeitig Schnittstelle zwischen Sprachwissenschaft und… …   Deutsch Wikipedia