Stemming

Stemming

Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf Wiki und gesehen auf seh.

Inhaltsverzeichnis

Geschichte

Im Jahr 1968 veröffentlichte Julie Beth Lovins den ersten bekannten Stemming-Algorithmus. [1] Dieser Algorithmus hatte einen großen Einfluss auf die weitere Entwicklung von Stemming-Algorithmen. Ein späterer Stemmer wurde 1980 von Martin Porter veröffentlicht.[2] Dieser Stemmer wurde zum De-facto-Standard für das Stemming englischsprachiger Texte. Porter erhielt im Jahr 2000 den Tony Kent Strix Award für seine Arbeit auf dem Gebiet der Stemming-Algorithmen und des Information Retrievals.

Es wurden viele Implementierungen des Porter-Stemmer-Algorithmus geschrieben und kostenlos verteilt, von denen viele jedoch kleine Fehler enthielten. Dies führte dazu, dass diese Stemmer niemals ihr volles Potenzial abschöpfen konnten. Um diese Fehlerquelle zu beseitigen, veröffentlichte Porter um das Jahr 2000 eine offizielle Implementierung des Algorithmus.[3] In den folgenden Jahren erweiterte er seine Arbeit, indem er mit Snowball ein Framework zum Schreiben von Stemming-Algorithmen schuf. Des Weiteren schuf er einen verbesserten Stemmer für die englische Sprache zusammen mit Stemmern für andere Sprachen.

Stemming-Verfahren

Zum Stemming gibt es verschiedene Algorithmen für verschiedene Sprachen. Die Entwicklung eines Stemmers ist eine experimentelle Wissenschaft, da Algorithmen nicht verifiziert werden können, sondern erst an Textkorpora und in der Praxis getestet werden müssen.

Beispiele:

Eine alternative, sehr viel einfachere und weniger genaue Möglichkeit ist die Suche nach Teil-Zeichenketten, z. B. mit dem Stern-Operator. Dies bezeichnet man auch als Trunkierung.

Anmerkungen

Im Gegensatz zur Suche, beispielsweise mit regulären Ausdrücken, die für Suche in großen Datenbeständen – z. B. Suchmaschinen – zu langsam wäre, wird eine Menge von Texten einmalig indexiert, um später schnell durchsucht werden zu können.

In einigen Sprachen spielt auch die Wortzerlegung und Zusammensetzung (lief wegweglaufen) eine wichtige Rolle.

Siehe auch

Einzelnachweise

  1. Julie Beth Lovins: Development of a stemming algorithm. In: Mechanical Translation and Computational Linguistics. Bd. 11, Nr. 2, Juni 1968, S. 22–31
  2. Martin Porter: An algorithm for suffix stripping. In: Program. Bd. 3, Nr. 14, Juli 1980, S. 130-137
  3. Offizielle Implementierung des Porter-Stemmer-Algorithmus

Wikimedia Foundation.

Игры ⚽ Нужен реферат?
Synonyme:

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Stemming — is the process for reducing inflected (or sometimes derived) words to their stem, base or root form ndash; generally a written word form. The stem need not be identical to the morphological root of the word; it is usually sufficient that related… …   Wikipedia

  • Stemming — es un método para reducir una palabra a su raíz o (en inglés) a un stem o tema. Hay algunos algoritmos de stemming que ayudan en sistemas de recuperación de información. Stemming aumenta el recall que es una medida sobre el número de documentos… …   Wikipedia Español

  • Stemming — es un método para reducir una palabra a su raíz o mejor a un stem o tema. Hay algunos algoritmos de stemming que ayudan en sistemas de recuperación de información. Stemming aumenta el recall que es una medida sobre el número de documentos que se… …   Enciclopedia Universal

  • Stemming — Dt. Bildung von Wortstämmen . Bezeichnet die Reduzierung eines Wortes auf seinen Wortstamm. Stemming wird von fortschrittlichen Suchdiensten genutzt, um die Zahl gefundener Suchergebnisse zu maximieren und den Recall zu verbessern. Stemming… …   SEO Wörterbuch

  • Stemming — Normalformenreduktion; Grundformenreduktion * * * Stemming   [von engl. stem »Stamm«], die Rückführung von Wörtern auf ihre Wortstämme als Strategie zur Verbesserung einer Suche in Dokumenten (Dokumentsuchsystem). Stemming ermöglicht es, einen… …   Universal-Lexikon

  • Stemming — Stem Stem, v. t. [imp. & p. p. {Stemmed}; p. pr. & vb. n. {Stemming}.] [Either from stem, n., or akin to stammer; cf. G. stemmen to press against.] To oppose or cut with, or as with, the stem of a vessel; to resist, or make progress against; to… …   The Collaborative International Dictionary of English

  • stemming — noun a) Movement against a current, especially a tidal current. b) A process for removing the inflexional, and sometimes derivational, affixes from words. See Also: stemming algorithm …   Wiktionary

  • stemming search — kaitomoji paieška statusas T sritis informatika apibrėžtis Paieška pagal įvairias pateikto žodžio gramatines formas. Pavyzdžiui, pateikus žodį „žmogus“ turėtų būti pateikiami radiniai, kuriuose yra bet kuris iš žodžių: „žmogus“, „žmogaus“,… …   Enciklopedinis kompiuterijos žodynas

  • stemming — stem n. central stalk of a plant; petiole; slender part which connects or supports; main part of a word to which affixes are added (Grammar); family line of descent, ancestry v. arise, come from, originate; remove the stem from; stop, check, dam… …   English contemporary dictionary

  • stemming — present part of stem …   Useful english dictionary

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”