Bayesian-Filter

Der bayessche Filter (auch als bayesischer Filter bezeichnet) ist ein statistischer Filter, der auf dem bayesschen Wahrscheinlichkeitsbegriff aufbaut. Sein Name leitet sich vom englischen Mathematiker Thomas Bayes (etwa 1702−1761) ab.

Markow-Filter stellen eine Weiterentwicklung dar, bei der nicht nur einzelne Wörter, sondern ganze Wortketten und Kombinationsmöglichkeiten bewertet werden.

Inhaltsverzeichnis

Anwendung in E-Mails

E-Mails werden mit Hilfe des bayesschen Filters folgendermaßen untersucht: Von charakteristischen Wörtern in einer E-Mail (Ereignis) wird auf die Eigenschaft geschlossen, als SPAM eingeordnet zu werden. Dieses statistische Filtern, zuerst 1998 von Sahami et al.[1] vorgeschlagen und ab 2002 durch einen einflussreichen Artikel von Paul Graham[2] popularisiert, soll vorhersagen, ob eine E-Mail Spam ist oder nicht. Der Filter wird von vielen Antispam-Programmen benutzt und ist beispielsweise in den E-Mail-Clients von Opera und Mozilla Thunderbird implementiert.

Statistische Gegenmaßnahmen basieren auf Wahrscheinlichkeits-Methoden, abgeleitet vom Bayes-Theorem. Bayessche Filter sind oft „lernend“ (auch „selbstlernend“) organisiert und setzen auf Worthäufigkeiten in bereits vom Benutzer erhaltenen und klassifizierten E-Mails. Ein bayesscher Filter wird durch seinen Benutzer trainiert, indem dieser seine E-Mails in erwünschte (Ham) und unerwünschte (Spam) einteilt. Der bayessche Filter stellt nun eine Liste mit Wörtern zusammen, die in unerwünschten E-Mails vorkommen. Hat der Benutzer z.B. E-Mails mit den Begriffen „Sex“ und „Viagra“ als Spam gekennzeichnet, haben alle E-Mails mit diesen Begriffen eine hohe Spamwahrscheinlichkeit. Begriffe aus erwünschten E-Mails wie „Verabredung“ oder „Bericht“ führen dann zu geringer Spamwahrscheinlichkeit. Allerdings reichen einzelne Schlüsselwörter nicht aus, relevant ist die Gesamtsumme der Bewertungen der einzelnen Wörter.

Der Filter schafft bereits nach kurzem Training mit zirka 30 E-Mails erstaunlich hohe Trefferquoten − auch wenn für die produktive Nutzung ein Training mit mindestens mehreren hundert Mails beider Kategorien empfohlen wird. Er wird von vielen Providern zum Abfangen von Spam verwendet.

Das entscheidende Risiko besteht für den Benutzer, dass ihm eine reguläre Mail entgeht, also die falsch-positiven Fälle. Für einen Privatmann, der zusätzlich mit Whitelists arbeitet, kann dies noch hinnehmbar sein, jedoch riskieren Firmen demgegenüber, dass wichtige Anfragen von Neukunden verlorengehen. Diese Gefahr ist jedoch bei richtigem Training des Filters wesentlich geringer als die Gefahr, dass eine Mail bei manueller Filterung oder aus anderen Gründen übersehen, gelöscht oder einfach nur vergessen wird. Wichtig ist nur, dass man vor allem in der Anfangsphase des Trainings nicht nur die unerwünschten Mails markiert, sondern auch die regulären.

Die Versender von Spam sehen aber auch nicht tatenlos zu. Werbebotschaften werden z.B. in Bildern untergebracht, damit sie der Filter nicht findet, und verdächtige Begriffe werden bewusst falsch (z.B. „V|agra“ oder „Va1ium“) oder mit eingestreuten Leerzeichen geschrieben. Allerdings bewertet der Filter auch HTML-Tags wie „img“ und „src“ negativ, so dass Bilder in E-Mails ein recht guter Hinweis auf Spam sind, ebenso wie die falsch geschriebenen Wörter, die vom Filter ja ebenfalls gelernt und natürlich mit einer extrem hohen Spamwahrscheinlichkeit bewertet werden.

In jüngerer Zeit ist häufig eine Methode zu beobachten, bei der zufällige Zitate oder ganze Kapitel aus der Weltliteratur (evtl. in weißer Schrift oder als Meta-Tag unlesbar) eingefügt werden, um die statistischen Maßnahmen auszutricksen. Dies ist aber ebenfalls keine sehr erfolgreiche Strategie, weil zufällig ausgewählte ‚harmlose‘ Begriffe oder Sätze weder eine besonders hohe noch eine besonders niedrige Spamwahrscheinlichkeit haben, so dass sie in der Gesamtbewertung aller in der Mail vorkommenden Begriffe keine Rolle spielen.

Eine Besonderheit in nicht englischsprachigen Ländern entsteht daraus, dass Spam überwiegend in englischer Sprache verfasst ist. Die Trefferwahrscheinlichkeit eines bayesschen Filters dürfte daher in diesen Ländern höher liegen, aber auch die Gefahr, dass eine erwünschte englischsprachige Mail fälschlicherweise als Spam erkannt wird.

Das Filtern auf statistischen Grundlagen ist eine Art Text-Klassifikation. Eine Anzahl von Forschern der angewandten Linguistik, die sich mit maschinellem Lernen befassen, haben sich bereits diesem Problem gewidmet.

Mathematische Grundlage

Der Satz von Bayes lautet

P(A|B) \; = \; \frac {P(B|A) \cdot P(A)} {P(B)}

Dieser kann benutzt werden, um die Wahrscheinlichkeit zu berechnen, dass eine E-Mail Spam ist, wenn ein bestimmtes Wort enthalten ist:

P(\text{Spam}|\text{Wort kommt vor}) \; = \; \frac {P(\text{Wort kommt vor}|\text{Spam}) \cdot P(\text{Spam})} {P(\text{Wort kommt vor})}

Hierbei ist

  • P(\text{Spam}|\text{Wort kommt vor})\, die Wahrscheinlichkeit, dass eine E-Mail Spam ist, wenn ein bestimmtes Wort im Text vorkommt.
  • P(\text{Wort kommt vor}|\text{Spam})\, die Wahrscheinlichkeit, dass ein bestimmtes Wort in einer Spam-E-Mail vorkommt.

Siehe auch

Weitverbreiteter und ausgezeichneter[3][4][5][6] Freie-Software-Spamfilter, der den Bayesschen Filter implementiert und der sowohl auf Benutzer- als auch auf Mailserver-Ebene eingesetzt werden kann

Weblinks

Einzelnachweise

  1. M. Sahami, S. Dumais, D. Heckerman, E. Horvitz: A Bayesian approach to filtering junk e-mail, AAAI'98 Workshop on Learning for Text Categorization, 1998.
  2. P. Graham: A Plan for Spam, August 2002.
  3. The 2003 OSDir.com Editor's Choice Awards in Open Source (osdir.com)
  4. SpamAssassin Takes Top Anti-Spam Honors (earthweb.com)
  5. Datamation.com Announces Product of the Year Winners 2006 (earthweb.com)
  6. Linux New Media Awards 2006 (linuxnewmedia.com)

Wikimedia Foundation.

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Bayesian Filter — Der bayessche Filter (auch als bayesischer Filter bezeichnet) ist ein statistischer Filter, der auf dem bayesschen Wahrscheinlichkeitsbegriff aufbaut. Sein Name leitet sich vom englischen Mathematiker Thomas Bayes (etwa 1702−1761) ab. Markow… …   Deutsch Wikipedia

  • Bayesian spam filtering — (pronounced BAYS ee ən, IPA pronunciation: IPA| [ beɪz.i.ən] , after Rev. Thomas Bayes), a form of e mail filtering, is the process of using a naive Bayes classifier to identify spam e mail.The first known mail filtering program to use a Bayes… …   Wikipedia

  • Bayesian poisoning — is a technique used by spammers to attempt to degrade the effectiveness of spam filters that rely on bayesian spam filtering. Bayesian filtering relies on Bayesian probability to determine whether an incoming mail is spam or is not spam ( ham , i …   Wikipedia

  • Bayesian Filtering Library — (BFL) is an open source C++ library for recursive Bayesian estimation. The library is mainly written by the Belgian scientist Klaas Gadeyne, and runs on Linux, Mac OS X, and Microsoft Windows. Features * Kalman filtering * Particle filters *… …   Wikipedia

  • Bayesian network — A Bayesian network, Bayes network, belief network or directed acyclic graphical model is a probabilistic graphical model that represents a set of random variables and their conditional dependencies via a directed acyclic graph (DAG). For example …   Wikipedia

  • Recursive Bayesian estimation — is a general probabilistic approach for estimating an unknown probability density function recursively over time using incoming measurements and a mathematical process model. Model The true state x is assumed to be an unobserved Markov process,… …   Wikipedia

  • Kalman filter — Roles of the variables in the Kalman filter. (Larger image here) In statistics, the Kalman filter is a mathematical method named after Rudolf E. Kálmán. Its purpose is to use measurements observed over time, containing noise (random variations)… …   Wikipedia

  • Particle filter — Particle filters, also known as sequential Monte Carlo methods (SMC), are sophisticated model estimation techniques based on simulation. They are usually used to estimate Bayesian models and are the sequential ( on line ) analogue of Markov chain …   Wikipedia

  • Ensemble Kalman filter — The ensemble Kalman filter (EnKF) is a recursive filter suitable for problems with a large number of variables, such as discretizations of partial differential equations in geophysical models. The EnKF originated as a version of the Kalman filter …   Wikipedia

  • Bayes'scher Filter — Der bayessche Filter (auch als bayesischer Filter bezeichnet) ist ein statistischer Filter, der auf dem bayesschen Wahrscheinlichkeitsbegriff aufbaut. Sein Name leitet sich vom englischen Mathematiker Thomas Bayes (etwa 1702−1761) ab. Markow… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”