Spam-Filter

Spam-Filter

Ein Spamfilter (Werbefilter) ist ein Computerprogramm oder Modul eines Programms zum Filtern von elektronischer unerwünschter Werbung (Spam).

Klassischer Einsatzbereich ist das Filtern unerwünschter E-Mails als Modul eines E-Mail-Programms oder auch eines Mail-Servers. Neuere Anwendungen von Bedeutung sind das Filtern von Seiten im Webbrowser auf Werbebanner, für Blogs (Blogspam) oder für Wikis (Linkspam).

Inhaltsverzeichnis

Ansatz der Kontrolle

Methoden der Kontrolle

Blacklist-Methode

Diese Methode überprüft den Inhalt der E-Mail nach bestimmten Ausdrücken bzw. Stichworten oder den Absender auf Einträge aus einer schwarzen Liste (Blacklist). Ist der Ausdruck in der E-Mail enthalten, wird die E-Mail aussortiert. Diese Blacklists müssen im Allgemeinen manuell erstellt werden und sind entsprechend aufwendig zu verwalten. Viele Spamfilter enthalten jedoch bereits voreingestellte Blacklists. Außerdem ist die Trefferquote nicht sehr hoch, da hin und wieder Spam als gute E-Mail und gute E-Mail als Spam einsortiert werden können. Auch lassen sich solche Filter leicht umgehen: steht z. B. Viagra in der Blacklist, wird der Filter Vla*gr-a nicht erkennen. Lässt der Filter die Eingabe von regulären Ausdrücken zu, kann man jedoch entsprechend ausgefeilte Filtermuster verwenden, die alle denkbaren Schreibweisen berücksichtigen, z. B. v.{0,1}[!iíì1\|l].{0,1}[aáàãå@].{0,1}g.{0,1}r.{0,1}[aáàãå@].

Eines der bekanntesten Programme unter Linux und anderen Unix-Derivaten ist SpamAssassin, das jede Mail nach verschiedenen Kriterien (offensichtlich ungültige Absender, bekannte Spam-Textpassagen, HTML-Inhalt, in die Zukunft datierte Absendedaten usw.) bepunktet und ab einer bestimmten Punktzahl als Spam klassifiziert. Ebenfalls mit einer Blacklist arbeiten SpamPal und SPAVI, das außer der jeweiligen E-Mail selbst auch die in der E-Mail verlinkten Seiten auf verdächtige Begriffe untersucht. Razor und Pyzor wiederum erzeugen zu jeder Mail einen Hash-Wert und überprüfen in zentralen Datenbanken, ob andere Personen, die diese Mail ebenfalls erhalten haben, sie als Spam klassifiziert haben oder nicht.

Bayes-Filter-Methode

Alternativ kann der Spam mit einem selbstlernenden bayesschem Filter auf Grund der bayesschen Wahrscheinlichkeit gefiltert werden. Der Benutzer muss etwa die ersten 1.000 E-Mails manuell als Spam oder Nicht-Spam klassifizieren. Danach erkennt das System fast selbstständig mit einer Trefferquote von meistens über 95% die Spam-E-Mail. Vom System fehlerhaft einsortierte E-Mails muss der Anwender manuell nachsortieren. Dadurch wird die Trefferquote stetig erhöht. Diese Methode ist der Blacklist-Methode meistens deutlich überlegen.

Diesen Mechanismus machen sich Bogofilter und Mozilla Thunderbird sowie der vor allem im deutschen Sprachraum beliebte Spamihilator in den aktuellen Versionen zunutze. Dabei muss das Programm vom Benutzer trainiert werden, bevor es zuverlässig Spam erkennt.

Eine dem Bayes-Filter artverwandte Methode ist der Markow-Filter. Er nutzt dazu eine Markow-Kette und ist effektiver als ein Bayes-Filter, wie William Yerazunis mit seinem Spamfilter CRM114 zeigen konnte.

Datenbank-basierte Lösungen

Im Usenet wurde schon in den 90er Jahren diskutiert, Spam aufgrund der in der Mail beworbenen URLs (und ggf. Telefonnummern) zu erkennen. Zwar können die Spammer die Nachrichten beliebig modifizieren und personalisieren, aber da es letztlich (bei UCE) immer darum geht, den Benutzer zu einer Kontaktaufnahme zu verleiten, und der mögliche Adressraum nicht unbegrenzt variabel ist, ermöglicht dieser Ansatz eine theoretisch sehr gute Erkennung. Besonders interessant ist dabei, dass keine Heuristiken verwendet werden, die immer das Risiko von Fehlerkennungen mit sich bringen. Aufgrund der technischen Anforderungen, Reaktionsgeschwindigkeiten usw. hielt man dieses jedoch lange für nicht praktikabel. Der Spamfilter SpamStopsHere basiert (als zentral gehostete Lösung) im Kern jedoch auf genau dieser Idee und zeigt, dass dieses durchaus auch in der Praxis funktionieren kann.

Probleme

Das Einsortieren von E-Mails ist immer mit einer gewissen Fehlerrate verbunden. Zum einen werden Spam-Mails nicht erkannt und gelangen so als „falsch negativ“ in den Posteingang. Werden erwünschte Mails als Spam eingestuft, spricht man von „falsch positiver“ Erkennung. Wird der Filter hinreichend lange trainiert, so lassen sich (etwa unter Einsatz einer weißen Liste) „positive“ Fehler fast vollständig ausschließen und „negative“ auf 10 % bis unter 1 % drücken. Allerdings ist das mit gewissen Aufwand verbunden. Außerdem müssen Filter ständig durch verbesserte Methoden an die neuen Methoden der Spammer angepasst werden.

Siehe auch

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Spam-Filter — Soll lästige Werbemails verhindern. Ähnlich wie bei Virensoftware werden die einlangenden E Mails nach bestimmten Kriterien durchsucht. Spam Mails besitzen oft typische Phrasen ( Werden Sie schnell reich ... ). Diese Kriterien werden durch… …   Online-Wörterbuch Deutsch-Lexikon

  • Cleanfeed (Usenet spam filter) — Cleanfeed is a spam filter for use with Usenet news groups. As well as blocking spam, it is also able to block binary image posts in non binary news groups and HTML posts. It acts by looking for repeated patterns and duplicate messages, and is… …   Wikipedia

  • Spam Lit — (also known as Lit Spam and Literary Spam) is defined as snippets of nonsensical verse and prose embedded in spam e mail messages. Some of the snippets are made up, others are passages from public domain works (such as Edgar Allan Poe and The… …   Wikipedia

  • Spam-Versender — Dieser Artikel befasst sich mit dem massenhaften unerwünschtem Versand von Nachrichten. Zum gleichnamigen Dosenfleisch der Firma Hormel Foods Inc. siehe Frühstücksfleisch. Ferner ist SPAM der Name der Satire Rubrik bei Spiegel Online. Als Spam… …   Deutsch Wikipedia

  • Spam (Blog) — Dieser Artikel befasst sich mit dem massenhaften unerwünschtem Versand von Nachrichten. Zum gleichnamigen Dosenfleisch der Firma Hormel Foods Inc. siehe Frühstücksfleisch. Ferner ist SPAM der Name der Satire Rubrik bei Spiegel Online. Als Spam… …   Deutsch Wikipedia

  • Spam Harvester — Dieser Artikel befasst sich mit dem massenhaften unerwünschtem Versand von Nachrichten. Zum gleichnamigen Dosenfleisch der Firma Hormel Foods Inc. siehe Frühstücksfleisch. Ferner ist SPAM der Name der Satire Rubrik bei Spiegel Online. Als Spam… …   Deutsch Wikipedia

  • Spam — Eine typische Spam Mail, scheinbar für ein Potenzmittel (2011) Als Spam [spæm] oder Junk (englisch für ‚Abfall‘ oder ‚Plunder‘) werden unerwünschte, in der Regel auf elektronischem Weg übertragene Nachrichten bezeichnet, die dem Empfänger… …   Deutsch Wikipedia

  • Spam Reader — Infobox Software name = Spam Reader caption = developer = [http://www.spam reader.com LuxContinent] latest release version = 2.5 latest release date = November 03, 2006 latest preview version = latest preview date = operating system = Microsoft… …   Wikipedia

  • Spam in blogs — For blogs that are built only for spamming, see Spam blog. Spam blacklist redirects here. For Wikipedia s internal spam blocking mechanism, see Wikipedia:Spam blacklist. Spam in blogs (also called simply blog spam or comment spam) is a form of… …   Wikipedia

  • Spam — Спам (англ. spam) массовая неперсонифицированная рассылка коммерческой, политической и иной рекламы или иного вида сообщений лицам, не выражавшим желания их получать. Легальность массовой рассылки некоторых видов сообщений, для которых не… …   Википедия

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”