Linguistischer Thesaurus

Linguistischer Thesaurus

Ein Thesaurus (aus dem altgriechischen thesaurós, „Schatz“, „Schatzhaus“, lat. dann thesaurus, daher auch Tresor) bzw. Wortnetz ist in der Dokumentationswissenschaft ein kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander verbunden sind. Die Bezeichnung wird gelegentlich auch für linguistische Thesauri oder wissenschaftliche Wortschatz-Sammlungen verwendet.

Inhaltsverzeichnis

Allgemein

Als Thesaurus bezeichnet man ein Modell, das versucht, ein Themengebiet genau zu beschreiben und zu repräsentieren. Es besteht aus einer systematisch geordneten Sammlung von Begriffen, die in thematischer Beziehung zueinander stehen. Der Thesaurus ist ein kontrolliertes Vokabular, auch Attributwertebereich genannt, für das jeweils zu beschreibende Attribut. Es werden in erster Linie Synonyme, aber auch Ober- und Unterbegriffe verwaltet.

Beispiel: Bildnis (Synonym: Abbild, Bild, Spiegelbild), Tischler (Oberbegriff: Handwerker)

Geschichte

Der Begriff Thesaurus lässt sich neuzeitlich erstmals 1736 im Englischen nachweisen[1]. Im allgemeinen Wortsinn bezeichnete es zunächst einen „Wissensspeicher“ wie beispielsweise ein Wörterbuch oder eine Enzyklopädie. Der vor allem im Englischen Sprachraum einflussreiche, 1852 von Peter Mark Roget veröffentlichte Roget's Thesaurus of English Words and Phrases rückte die Bedeutung des Begriffs in die Richtung eines linguistischen Thesaurus. Im Bereich des Information-Retrieval wurde der Begriff erstmals 1957 von Hans Peter Luhn verwendet als in den 1950er Jahren verschiedene Systeme zur Indexierung entwickelt wurden. Zu den ersten Thesauri, die in der Praxis zur Erschließung eingesetzt wurden, gehören das System von Du Punt (1959) und der Thesaurus of ASTIA Descriptors (1960). Ein einheitliches Format für Thesauri wurde 1967 mit dem Thesaurus of Engineering and Scientific Terms (TEST) vorgelegt. Aus den bereits von Anfang an entwickelten Regeln für den Aufbau von Thesauri entwickelten sich mit der Zeit allgemeine Standards, die die Form des klassischen Thesaurus zur Dokumentation festlegen. Dazu gehören die von Derek Austin und Dale entworfenen UNESCO's Guidelines for the Establishment and Development of Monolingual Thesauri deren Inhalte in den ISO-Standard 2788 (1986) einflossen.

Thesaurus zur Dokumentation

Polyhierarchische Thesaurus-Relationen am Beispiel des Deskriptors Stomach Cancer der Medical Subject Headings 2005 mit allen seinen Oberbegriffen

In der Dokumentationswissenschaft hat sich der Thesaurus als geeignetes Hilfsmittel zur Sacherschließung und zum Auffinden von Dokumenten erwiesen. Dabei dienen Relationen zwischen den einzelnen Begriffen zum Auffinden bei der Indexierung (Vergabe von Schlagworten) und bei der Recherche. Im Gegensatz zu einem linguistischen Thesaurus enthält ein Thesaurus zur Dokumentation ein kontrolliertes Vokabular, d.h. eindeutige Benennungen (Deskriptoren) für jeden Begriff. Unterschiedliche Schreibweisen (Photo/Foto), Synonyme bzw. als gleichbedeutend behandelte Quasi-Synonyme, Abkürzungen, Übersetzungen etc. werden durch Äquivalenzrelationen miteinander in Beziehung gesetzt. Begriffe werden außerdem durch Assoziationsrelationen und hierarchische Relationen vernetzt.

Der Thesaurus dient als Dokumentationssprache zum Indexieren, Speichern und Finden von Dokumenten. Die Relationen ermöglichen es, bei der Indexierung und Recherche passende Benennungen für gesuchte Begriffe zu finden. Bei der Suche können Thesauri durch die automatische Erweiterung der Suchanfrage durch Synonyme und Unterbegriffe hilfreich sein.

Ein Thesaurus kann damit auch allgemein zur Begriffsklärung dienen und hat im besten Fall die Funktion einer Normdatei inne. Im Gegensatz zu einer monohierarchischen Tabelle oder Datenbank kann der Thesaurus eine polyhierarchische Struktur besitzen (d.h. ein Unterbegriff kann mehrere Oberbegriffe haben).

Die Thesaurusnormen DIN 1463-1 bzw. das internationale Äquivalent ISO 2788 sehen folgende Relationsarten und dazugehörige Abkürzungen vor:

Kürzel und Bezeichnung
DIN 1463-1 ISO 2788
BF Benutzt für UF Used for
BS Benutze Synonym USE/SYN Use synonym
OB Oberbegriff BT Broader term
UB Unterbegriff NT Narrower term
VB Verwandter Begriff RT Related term
SB Spitzenbegriff TT Top term

Die häufigsten Relationen in einem Thesaurus sind Äquivalenz-, Assoziations- und hierarchische Relationen.

In der Regel wird ein Element einer Äquivalenzrelation, also eine Benennung, als Vorzugsbenennung festgelegt. Die Nicht-Vorzugsbenennungen erhalten einen Verweis auf die ihnen äquivalente Vorzugsbenennung.

Beispiel:
Fahrzeug verweist auf die Unterbegriffe LKW und PKW.
Auto verweist auf die Vorzugsbenennung PKW und mit einer Assoziationsbeziehung („siehe auch“) auf LKW.

Siehe auch: semantisches Netz

Thesaurus als Sammelwerk

Verschiedene Formen von Thesauri

Früher verstand man unter einem Thesaurus ein wissenschaftliches Sammelwerk mit dem gesamten Wortschatz einer Sprache. Bekannt sind unter anderem der Thesaurus Linguae Graecae und der Thesaurus Linguae Latinae. Bei diesen Werken handelt es sich genaugenommen um Wörterbücher.

Die ersten in der Elektronischen Textverarbeitung (EDV) verwendeten Thesauri waren ebenfalls einfache Wörterbücher, welche eingegebene Vokabeln mit enthaltenen Einträgen abgleichen und dem Anwender Rückmeldungen geben konnten. Die Rückmeldungen ließen sich zunächst nur für die Erkennung von einfachen Rechtschreibfehlern verwenden und konnten mit Suchläufen, später aber in Echtzeit angeboten werden, was dem heutigen Standard entspricht. Ursprünglich entstanden die dazu benötigten Datenbanken aus manuell in Datenformat konvertierten Wort-Sammlungen, die für kommerzielle Programme zunächst fortlaufend durch den Hersteller ergänzt und mit updates an den Kunden ausgeliefert wurden. Mit dem Aufkommen von individuell durch den Benutzer ergänzbaren Worteinträgen entstand die Möglichkeit, große, quasi-kollaborative nutzerbasierte Plattformen zur Sammlung neuer Einträge zu verwenden, wobei die auf einem Server gelagerte Datenbank durch Rücksendung der individuellen Arbeitskopien von Thesauri verschiedener Benutzer kurzzeitig sehr stark wuchsen. Auch dabei war aber eine Handsichtung notwendig, um den Eintrag häufig falsch geschriebener und deshalb irrtümlich häufig eingesendeter falscher Vokabeln zu verhindern. Aufgrund des begrenzten Vokabulars jeder Sprache sind heute jedoch für die meisten Sprachen nahezu komplette Datensätze verfügbar, die die jeweilige Sprache erschöpfend wieder geben. Der Eintrag neuer Wörter entspricht heute nur noch dem natürlichen Wachstum der jeweiligen Sprachen.

Zeitgleich wurden die elektronischen Thesauri zu immer komplexeren Programmen weiter entwickelt, welche auch grammatikalische Regeln und Stilregeln kontrollieren sowie Synonyme anbieten können. An ihren Grenzbereichen geben moderne Thesauri heute auch Übersetzungshilfen und lassen Texte vollständig automatisch durchsichten, wobei der Anwender zuvor zahlreiche Optionen anwählen kann.

Interkulturelle Thesauri

Eine besondere Form der Thesauri bedient Eingabehilfen für Piktogrammschriften wie beispielsweise die Chinesische Schrift mithilfe der westlichen Computer-Tastatur. Diese Schriftzeichen lassen sich aufgrund ihrer Vielzahl oft nicht auf praktisch handhabbaren Tastaturen abbilden, weshalb die Thesauri dem Anwender Zeichen vorschlagen, die dann von ihm angenommen oder abgelehnt werden können. So gibt es für die Eingabe japanischer oder chinesischer Schriftzeichen zahlreiche Methoden, die Silben oder Abkürzungen nach thesauriden Datenbankeinträgen in Schriftzeichen umwandeln. Von diesen Methoden konnte sich jedoch bislang keine standardisiert durchsetzen, weil die asiatischen Schriftsprachen sehr komplex aufgebaut sind und die Bedeutung der Zeichen oftmals vom Kontext abhängig ist. Der Lernaufwand zur Nutzung dieser Thesauri-basierten Programmlösungen ist für Asiaten extrem hoch und native Sprecher benutzen meist nur jeweils eine Softwarelösung, mit der sie akzeptabel hohe Schreibgeschwindigkeiten erreichen können, welche jedoch hinter der der lateinischen Buchstabenschrift weit zurück bleibt. Lateinische Schreiber schreiben wesentlich schneller als asiatische, obgleich die Lesegeschwindigkeit bei Piktogrammschriften für kundige Leser höher ist als bei lateinischen Schriften. Einem einheitlichen Thesaurus für Piktogrammschriften stehen traditionelle, konzeptionelle und syntaktische Probleme entgegen.

Linguistische Thesauri

In einem linguistischen Thesaurus sind statt Begriffen Wörter ähnlicher und verwandter Bedeutung durch Verweise verknüpft. Diese Art von lexikalisch-semantisch organisiertem Nachschlagewerk kann unter anderem als Formulierungshilfe benutzt werden. Es gibt Nachschlagewerke dieser Art in gedruckter Form (z.B. DUDEN Band 8, Sinn- und sachverwandte Wörter) oder in elektronischer Form, hier zumeist als Hintergrundressource von Textverarbeitungsprogrammen.

Beispiele

Siehe auch

Quellen

  1. Jean Aitchison, Stella Dextre Clarke: The Thesaurus: A Historical Viewpoint, with a Look to the Future. In: Cataloging & Classification Quarterly 37, 3/4, 2004, S. 5-21.

Literatur

  • Guidelines for the construction, format, and management of monolingual Controlled Vocabularies (ANSI/NISO Z39.19-2005) [1]
  • The Thesaurus: Review, Renaissance, and Revision. Haworth, 2004 ISBN 0-7890-1978-7 / ISBN 0-7890-1979-5 (entspricht der Ausgabe 3/4, Jahrgang 37, 2004 der Fachzeitschrift Cataloging & Classification Quarterly)
  • Gernot Wersig: Thesaurus-Leitfaden: eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. 2. erg. Aufl., Saur, 1985, ISBN 3-598-21252-6
  • Leonard Will: Publications on thesaurus construction and use. [2]
  • Bettina Brühl: Thesauri und Klassifikationen. Naturwissenschaften – Technik – Wirtschaft; 1. Aufl., Verlag für Berlin-Brandenburg, 2005, 354 S.ISBN 3-935035-63-2

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Thesaurus — Ein Thesaurus (altgriechisch θησαυρός thesaurós, „Schatz, Schatzhaus“, lat. dann thesaurus, daher auch Tresor) bzw. Wortnetz ist in der Dokumentationswissenschaft ein kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander… …   Deutsch Wikipedia

  • Linguistische Thesauri — Ein Thesaurus (aus dem altgriechischen thesaurós, „Schatz“, „Schatzhaus“, lat. dann thesaurus, daher auch Tresor) bzw. Wortnetz ist in der Dokumentationswissenschaft ein kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander… …   Deutsch Wikipedia

  • Thesauri — Ein Thesaurus (aus dem altgriechischen thesaurós, „Schatz“, „Schatzhaus“, lat. dann thesaurus, daher auch Tresor) bzw. Wortnetz ist in der Dokumentationswissenschaft ein kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander… …   Deutsch Wikipedia

  • Wiktionary — de.wiktionary.org (Deutsche Version) wiktionary.org (Sprachen Übersicht) Motto ein Wiki bas …   Deutsch Wikipedia

  • Sprachwissenschaft — Sprachwissenschaft, auch Linguistik (lat. lingua „Sprache“, „Zunge“), ist eine interdisziplinäre Wissenschaft, die in verschiedenen Herangehensweisen die menschliche Sprache untersucht. Inhalt sprachwissenschaftlicher Forschung ist generell die… …   Deutsch Wikipedia

  • Geosemantik — (im Englischen ist der Begriff geospatial semantics üblich) ist ein interdisziplinäres Forschungsfeld und befasst sich mit der Bedeutung von Geoinformation. Die Vision des virtuellen Globus Inhaltsverzeichnis …   Deutsch Wikipedia

  • Allgemeine Linguistik — Die Allgemeine Linguistik (auch: Allgemeine Sprachwissenschaft) ist eine der großen Hauptdisziplinen der Sprachwissenschaft. Sie grenzt sich einerseits von der Angewandten Sprachwissenschaft und andererseits von der Historischen… …   Deutsch Wikipedia

  • Angewandte Linguistik — Die Angewandte Linguistik, auch Angewandte Sprachwissenschaft, ist ein Teilgebiet der Sprachwissenschaft. Sie beschäftigt sich interdisziplinär mit Fremdsprachendidaktik, mit der Sprachbeschreibung in Form von Wörterbüchern (Lexikografie) und… …   Deutsch Wikipedia

  • Angewandte Sprachwissenschaft — Die Angewandte Linguistik, auch als Angewandte Sprachwissenschaft bezeichnet, ist ein Teilgebiet der Allgemeinen Sprachwissenschaft. Sie beschäftigt sich interdisziplinär mit der Sprachlernforschung, der Sprachbeschreibung (Lexikographie) sowie… …   Deutsch Wikipedia

  • Linguistische Suche — ist ein Verfahren, das bei Suchmaschinen zum Einsatz kommt und bedeutet, dass die Suchanfrage durch linguistische Verfahren bearbeitet wird. Hierzu werden aus der ursprünglichen Anfrage weitere Wortvarianten abgeleitet. Inhaltsverzeichnis 1… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”