Data-Mining


Data-Mining

Unter Data-Mining (der englische Begriff bedeutet etwa „aus einem Datenberg etwas Wertvolles extrahieren“, eine adäquate deutsche Übersetzung existiert nicht.[1] Der Duden empfiehlt die Schreibweise „Data-Mining“[2]) versteht man die systematische Anwendung von Methoden, die meist statistisch-mathematisch begründet sind, auf einen Datenbestand mit dem Ziel, neue Muster zu erkennen. Hierbei geht es auch um die Verarbeitung sehr großer Datenbestände (die nicht mehr manuell verarbeitet werden könnten), wofür effiziente Methoden benötigt werden, deren Zeitkomplexität sie für solche Datenmengen geeignet macht. Die Methoden finden aber auch für kleinere Datenmengen Anwendung. In der Praxis, vor allem im deutschen Sprachgebrauch, etablierte sich der angelsächsische Begriff „Data-Mining“ für den gesamten Prozess der so genannten „Knowledge Discovery in Databases“ (Wissensentdeckung in Datenbanken; KDD), der auch Schritte wie die Vorverarbeitung beinhaltet, während Data-Mining eigentlich nur den Analyseschritt des Prozesses bezeichnet.[3]

Die reine Erfassung, Speicherung und Verarbeitung von großen Datenmengen wird gelegentlich fälschlicherweise auch mit dem Buzzword Data-Mining bezeichnet. Hier gibt es aber akkuratere Begriffe wie beispielsweise Data Warehousing. Korrekt verwendet bezeichnet es die Extraktion von Wissen, das „gültig (im statistischen Sinne), bisher unbekannt und potentiell nützlich“[4] ist „zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und verborgener Zusammenhänge“.[2] Fayyad definiert es als „ein Schritt des KDD-Prozesses, der darin besteht Datenanalyse- und Entdeckungsalgorithmen anzuwenden, die unter akzeptablen Effizienzbegrenzungen eine spezielle Auflistung von Mustern (oder Modellen) der Daten liefern“.[3]

Inhaltsverzeichnis

Abgrenzung zu anderen Fachbereichen

Viele der im Data-Mining eingesetzten Verfahren stammen eigentlich aus der Statistik, insbesondere der multivariaten Statistik und werden oft nur in ihrer Komplexität für die Anwendung im Data-Mining angepasst, oft dabei zu ungunsten der Genauigkeit approximiert. Der Verlust an Genauigkeit geht oft mit einem Verlust an statistischer Gültigkeit einher, so dass die Verfahren aus einer rein statistischen Sicht mitunter sogar "falsch" sein können. Für die Anwendung im Data-Mining ist oft jedoch der experimentell verifizierte Nutzen und die akzeptable Laufzeit entscheidender als eine statistisch bewiesene Korrektheit.

Ebenfalls eng verwandt ist das Thema maschinelles Lernen, jedoch ist bei Data-Mining der Fokus auf dem Finden neuer Muster, während im maschinellen Lernen primär bekannte Muster vom Computer automatisch in neuen Daten wiedererkannt werden sollen. Eine einfache Trennung ist hier jedoch nicht immer möglich: werden beispielsweise Assoziationsregeln aus den Daten extrahiert so ist das ein Prozess der den typischen Data-Mining-Aufgaben entspricht, die extrahierten Regeln erfüllen aber auch die Ziele des maschinellen Lernen. Umgekehrt ist der Teilbereich des unüberwachten Lernens aus dem maschinellen Lernen sehr eng mit Data-Mining verwandt. Verfahren aus dem maschinellen Lernen finden oft im Data-Mining Anwendung und umgekehrt.

Die Forschung im Bereich der Datenbanksysteme, insbesondere von Indexstrukturen spielt für das Data-Mining eine große Rolle wenn es darum geht, die Komplexität zu reduzieren. Typische Aufgaben wie Nächste-Nachbarn-Suche können mit Hilfe eines geeigneten Datenbankindex wesentlich beschleunigt werden, und die Laufzeit eines Data-Mining-Algorithmus dadurch verbessert werden.

Das Information Retrieval (IR) ist ein weiteres Fachgebiet, das von Erkenntnissen des Data-Mining profitiert. Hier geht es vereinfacht gesprochen um die computergestützte Suche nach komplexen Inhalten, aber auch um die Präsentation für den Nutzer. Data-Mining-Verfahren wie die Clusteranalyse finden hier Anwendung um die Suchergebnisse und ihre Präsentation für den Nutzer zu verbessern, beispielsweise indem man ähnliche Suchergebnisse gruppiert. Textmining und Webmining sind zwei Spezialisierungen des Data-Mining die eng mit dem Information Retrieval verbunden sind.

Die Datenerhebung, also das Erfassen von Informationen in einer systematischen Art und Weise, ist eine wichtige Voraussetzung, um mit Hilfe von Data-Mining gültige Ergebnisse bekommen zu können. Wurden die Daten statistisch unsauber erhoben, so kann ein systematischer Fehler in den Daten vorliegen, der anschließend im Data-Mining-Schritt gefunden wird. Das Ergebnis ist dann unter Umständen keine Konsequenz der beobachteten Objekte, sondern verursacht durch die Art in welcher die Daten erfasst wurden.

Deutscher Begriff

Es gibt verschiedene Versuche, einen deutschen Begriff für Data-Mining zu finden. Der Duden[2] verwendet keinen davon, sondern die eingedeutschte Schreibweise „Data-Mining“ statt „data mining“ im Englischen. Vorschläge zur Eindeutschung sind beispielsweise „Datenmustererkennung[5] (es geht jedoch nicht um die Wiedererkennung bestehender Muster, sondern um das finden neuer) und „Datenschürfung“ (ein Versuch das Wort wörtlich zu übersetzen, der jedoch die Bedeutung komplett ignoriert). Der Fremdwörter-Duden verwendet als wörtliche Übersetzung „Datenförderung“, kennzeichnet dies aber als nicht passende Übersetzung.[6] Auch der gezielte Aufruf nach Vorschlägen durch die Zeitschrift für Künstliche Intelligenz brachte keine überzeugenden Vorschläge.[1] Keiner dieser Begriffe konnte nennenswerte Verbreitung erreichen, oft da bestimmte Aspekte des Themas wie die Wissensentdeckung verloren gehen, und falsche Assoziationen wie zur Mustererkennung im Sinne von Bilderkennung entstehen.

Möchte man einen deutschen Begriff verwenden, so bietet sich „Wissensentdeckung in Datenbanken“ an (für das englische „Knowledge Discovery in Databases“), das den gesamten Data-Mining-Prozess umfasst.

Data-Mining-Prozess

Data-Mining ist der eigentliche Analyseschritt des Knowledge Discovery in Databases Prozesses. Die Schritte des iterativen Prozesses sind grob umrissen:[4]

  • Fokussieren: die Datenerhebung und Selektion, aber auch das Bestimmen bereits vorhandenen Wissens
  • Vorverarbeitung: die Datenbereinigung, bei der Quellen integriert und Inkonsistenzen beseitigt werden, beispielsweise durch Entfernen oder Ergänzen von unvollständigen Datensätzen.
  • Transformation in das passende Format für den Analyseschritt, beispielsweise durch Selektion von Attributen oder Diskretisierung der Werte
  • Data-Mining, der eigentliche Analyseschritt
  • Evaluation der gefundenen Muster durch den Experten und Kontrolle der erreichten Ziele

In weiteren Iterationen kann nun bereits gefundenes Wissen verwendet („in den Prozess integriert“) werden um in einem erneuten Durchlauf zusätzliche oder genauere Ergebnisse zu erhalten.

Aufgabenstellungen des Data-Mining

Typische Aufgabenstellungen des Data-Mining sind:[3][4]

  • Ausreißererkennung: Identifikation von ungewöhnlichen Datensätzen: Ausreißern, Fehlern, Änderungen
  • Clusteranalyse: Gruppierung von Objekten aufgrund von Ähnlichkeiten
  • Klassifikation: bisher nicht Klassen zugeordnete Elemente werden den bestehenden Klassen zugeordnet.
  • Assoziationsanalyse: Identifikation von Zusammenhängen und Abhängigkeiten in den Daten in Form von Regeln wie „Aus A und B folgt normalerweise C“.
  • Regressionsanalyse: Identifikation von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen
  • Zusammenfassung: Reduktion des Datensatzes in eine kompaktere Beschreibung ohne wesentlichen Informationsverlust

Diese Aufgabenstellungen können noch grob gegliedert werden in Beobachtungsprobleme (Ausreißererkennung, Clusteranalyse) und Prognoseprobleme (Klassifikation, Regressionsanalyse).

Ausreißererkennung

Hauptartikel: Ausreißer

In dieser Aufgabe werden Datenobjekte gesucht, die inkonsistent zu dem Rest der Daten sind, beispielsweise indem sie ungewöhnliche Attributswerte haben oder von einem generellen Trend abweichen. Das Verfahren Local Outlier Factor sucht beispielsweise Objekte, die eine von ihren Nachbarn deutlich abweichende Dichte aufweisen, man spricht hier von „dichtebasierter Ausreißerkennung“.

Identifizierte Ausreißer werden oft anschließend manuell verifiziert und aus dem Datensatz ausgeblendet, da sie die Ergebnisse anderer Verfahren verschlechtern können. In manchen Anwendungsfällen wie der Betrugserkennung sind aber bereits die Ausreißer die interessanten Objekte.

Clusteranalyse

Hauptartikel: Clusteranalyse

Bei der Clusteranalyse geht es darum, Gruppen von Objekten zu identifizieren die sich auf eine gewisse Art ähnlicher sind als andere Gruppen. Oft handelt es sich dabei um Häufungen im Datenraum, woher der Begriff Cluster kommt. Bei einer dichteverbundenen Clusteranalyse wie beispielsweise DBSCAN oder OPTICS können die Cluster aber beliebige Formen annehmen. Andere Verfahren wie der EM-Algorithmus oder k-Means-Algorithmus bevorzugen sphärische Cluster.

Objekte die keinem Cluster zugeordnet wurden können als Ausreißer im Sinne der zuvor genannten Ausreißererkennung interpretiert werden.

Klassifikation

Hauptartikel: Klassifikationsverfahren

Bei der Klassifikation geht es ähnlich der Clusteranalyse darum, Objekte Gruppen (hier als Klassen bezeichnet) zuzuordnen. Im Gegensatz zur Clusteranalyse sind hier aber in der Regel die Klassen vordefiniert (Beispielsweise: Fahrräder, Autos) und es werden Verfahren aus dem maschinellen Lernen eingesetzt um bisher nicht zugeordnete Objekte diesen Klassen zuzuordnen.

Assoziationsanalyse

Hauptartikel: Assoziationsanalyse

In der Assoziationsanalyse werden häufige Zusammenhänge in den Datensätzen gesucht und meist als Schlussregeln formuliert. Ein beliebtes (wenn auch anscheinend fiktives) Beispiel, das unter anderem in der Fernsehserie Numbers – Die Logik des Verbrechens erwähnt wurde, ist folgendes: bei der Warenkorbanalyse wurde festgestellt dass die Produktkategorien "Windeln" und "Bier" überdurchschnittlich oft zusammen gekauft werden, meist dargestellt in Form einer Schlussregel "Kunde kauft Windeln \Rightarrow Kunde kauft Bier". Die Interpretation dieses Ergebnisses war, dass Männer wenn sie von ihren Ehefrauen Windeln kaufen geschickt werden, sich gerne noch ein Bier mitnehmen. Durch Platzierung des Bierregals auf dem Weg von den Windeln zur Kasse konnte angeblich[7] der Bierverkauf weiter gesteigert werden.

Regressionsanalyse

Hauptartikel: Regressionsanalyse

Bei der Regressionsanalyse wird der statistische Zusammenhang zwischen unterschiedlichen Attributen modelliert. Dies erlaubt unter anderem die Prognose von fehlenden Attributswerten, aber auch die Analyse der Abweichung analog zur Ausreißererkennung. Verwendet man Erkenntnisse aus der Clusteranalyse und berechnet separate Modelle für jeden Cluster so können typischerweise bessere Prognosen erstellt werden. Wird ein starker Zusammenhang festgestellt, so kann dieses Wissen auch gut für die Zusammenfassung genutzt werden.

Zusammenfassung

Da Data-Mining oft auf große und komplexe Datenmengen angewendet wird, ist eine wichtige Aufgabe auch die Reduktion dieser Daten auf eine für den Nutzer handhabbare Menge wichtig. Insbesondere die Ausreißererkennung identifiziert hierzu einzelne Objekte die wichtig sein können; die Clusteranalyse identifiziert Gruppen von Objekten bei denen es oft reicht, sie nur anhand einer Stichprobe zu untersuchen, was die Anzahl der zu untersuchenden Datenobjekte deutlich reduziert. Die Regressionsanalyse erlaubt es, redundante Informationen zu entfernen und reduziert so die Komplexität der Daten. Klassifikation, Assoziationsanalyse und Regressionsanalyse (zum Teil auch die Clusteranalyse) liefern zudem abstraktere Modelle der Daten.

Mit Hilfe dieser Ansätze wird sowohl die Analyse der Daten als auch beispielsweise deren Visualisierung (durch Stichproben und geringere Komplexität) vereinfacht.

Spezialisierungen

Während die meisten Data-Mining-Verfahren versuchen mit möglichst allgemeinen Daten umgehen zu können, gibt es auch Spezialisierungen für speziellere Datentypen.

Textmining

Hauptartikel: Textmining

Im Textmining geht es um die Analyse von großen textuellen Datenbeständen. Dies kann beispielsweise der Plagiats-Erkennung dienen oder um den Textbestand zu klassifizieren.

Webmining

Hauptartikel: Web-Mining

Beim Webmining geht es um die Analyse von verteilten Daten, wie es Internetseiten darstellen. Für die Erkennung von Clustern und Ausreißern werden hier aber nicht nur die Seiten selbst, sondern insbesondere auch die Beziehungen (Hyperlinks) der Seiten zueinander betrachtet. Durch die sich ständig ändernden Inhalte und die nicht garantierte Verfügbarkeit der Daten ergeben sich zusätzliche Herausforderungen. Dieser Themenbereich ist auch eng mit dem Information Retrieval verbunden.

Zeitreihenanalyse

Hauptartikel: Zeitreihenanalyse

In der Zeitreihenanalyse spielen die temporalen Aspekte und Beziehungen eine große Rolle. Hier können mittels spezieller Distanzfunktionen wie der Dynamic-Time-Warping-Distanz bestehende Data-Mining-Verfahren verwendet werden, es werden aber auch spezialisierte Verfahren entwickelt. Eine wichtige Herausforderung besteht dahin, Reihen mit einem ähnlichen Verlauf zu erkennen, auch wenn dieser etwas zeitlich versetzt ist, aber dennoch ähnliche Charakteristika aufweist.

Probleme des Data-Mining

Daten-Defekte

Viele der Probleme bei Data-Mining stammen aus einer ungenügenden Vorverarbeitung der Daten oder aus systematischen Fehlern und Verzerrung bei deren Erfassung. Diese Probleme sind oft statistischer Natur und müssen bereits bei der Erfassung gelöst werden: aus nicht repräsentativen Daten können keine repräsentativen Ergebnisse gewonnen werden. Hier sind ähnliche Aspekte zu beachten wie bei der Erstellung einer repräsentativen Stichprobe.

Parametrisierung

Die im Data-Mining verwendeten Algorithmen haben oft mehrere Parameter die geeignet zu wählen sind. Mit allen Parametern liefern sie gültige Ergebnisse, und die Parameter so zu wählen dass die Ergebnisse auch nützlich sind ist eine Aufgabe des Benutzers. Wählt man beim Clusteranalyse-Algorithmus DBSCAN beispielsweise die Parameter minPts und ε klein, so findet der Algorithmus eine fein aufgelöste Struktur, neigt aber auch dazu Cluster in kleine Stücke zu zerteilen. Wählt man die Parameter größer, so findet er nur noch die Hauptcluster, die jedoch schon bekannt sein können, und dadurch auch nicht hilfreich. Weiterentwickelte Methoden haben oft weniger Parameter oder diese Parameter sind leichter zu wählen. Beispielsweise ist OPTICS eine Weiterentwicklung von DBSCAN, die den Parameter ε weitgehend eliminiert.

Evaluation

Die Bewertung von Data-Mining-Ergebnissen stellt den Benutzer vor das Problem, dass er einerseits neue Erkenntnisse gewinnen möchte, andererseits er dann Verfahren nur schwer automatisiert bewerten kann. Bei Prognoseproblemen wie der Klassifikation, Regressionsanalyse und Assoziationsanalyse lässt sich hier die Prognose auf neuen Daten zur Bewertung verwenden. Bei Beschreibungsproblemen wie der Ausreißererkennung und der Clusteranalyse ist dies schwieriger. Cluster werden meist intern oder extern bewertet, also anhand ihrer mathematischen Kompaktheit oder ihrer Übereinstimmung mit bekannten Klassen.[8] Die Ergebnisse von Ausreißererkennungsverfahren werden mit bekannten Ausreißern verglichen. Bei beiden stellt sich jedoch die Frage, ob diese Bewertung wirklich zur Aufgabenstellung der "neuen Erkenntnisse" passt, und nicht letztlich die "Reproduktion alter Erkenntnisse" bewertet.

Interpretation

Als statistische Verfahren analysieren die Algorithmen die Daten ohne Hintergrundwissen über deren Bedeutung. Daher können die Verfahren meist nur einfache Modelle wie Gruppen oder Mittelwerte liefern. Oftmals sind die Ergebnisse als solche nicht mehr nachvollziehbar. Diese maschinell gewonnenen Ergebnisse müssen aber anschließend noch von dem Benutzer interpretiert werden, bevor man sie wirklich als Wissen bezeichnen kann.

Anwendungsgebiete

Neben den Anwendungen in den verwandten Bereichen der Informatik findet Data-Mining auch zunehmend Einsatz in der Industrie:

Moralische Aspekte

Data-Mining als wissenschaftliche Disziplin ist zunächst wertneutral. Die Verfahren erlauben die Analyse von Daten aus nahezu beliebigen Quellen, beispielsweise Messwerte von Bauteilen oder die Analyse von historischen Knochenfunden.

Die Anwendung von Data-Mining-Verfahren auf personenbezogene Daten wirft jedoch moralische Fragen auf, ob beispielsweise ein Computerprogramm Menschen in "Klassen" einteilen sollte. Zudem eignen sich viele der Verfahren zur Überwachung und für eine fortgeschrittene Rasterfahndung. So stellt beispielsweise der SCHUFA-Score eine durch Statistik, vielleicht auch Data-Mining, gewonnene Einteilung der Menschen in die Klassen "kreditwürdig" und "nicht kreditwürdig" dar und wird entsprechend kritisiert.

Im Kern betreffen die Datenschutz-Fragen aber bereits die Erfassung der Daten sowie die Verwendung der Ergebnisse, und sind bei der Datenverarbeitung allgemein zu stellen, unabhängig von den verwendeten Analysetechniken. Insbesondere die Differenzierung zwischen "Statistik" und "Data-Mining" spielt hier keine Rolle mehr.

Softwarepakete für Data-Mining

Literatur

Folgende Literatur liefert einen Überblick über das Gebiet Data-Mining aus Sicht der Informatik.
Aufgaben- und anwendungsspezifische Literatur findet sich in den jeweiligen Artikeln.

Einzelnachweise

  1. a b [Von der Zeitschrift "Künstliche Intelligenz" ...] „wurde ein Wettbewerb durchgeführt, einen adäquaten deutschen Begriff zu finden. Und so leid es mir tut, es wurde kein adäquater deutscher Begriff gefunden.“
    Hans-Peter Kriegel: Datenbanktechniken zur Unterstützung des Wissenserwerbs. In: Heinz Mandl, Gabi Reinmann-Rothmeier (Hrsg.): Wissensmanagement: Informationszuwachs - Wissensschwund? Die strategische Bedeutung des Wissensmanagements. Oldenbourg, München, Wien 2000, ISBN 978-3486253863, S. 47-71.
  2. a b c Duden online: Duden: Data-Mining: Bedeutung, Rechtschreibung, Grammatik, Herkunft. Bibliographisches Institut GmbH, abgerufen am 9. August 2011 (deutsch).
  3. a b c Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth: From Data Mining to Knowledge Discovery in Databases. In: AI Magazine. 17, Nr. 3, 1996, S. 37-54 (http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf).
  4. a b c Martin Ester, Jörg Sander: Knowledge Discovery in Databases. Techniken und Anwendungen. Springer, Berlin 2000, ISBN 3540673288.
  5. Bissantz, N.; Hagedorn, J.: Data Mining (Datenmustererkennung), in: Wirtschaftsinformatik 35 (1993) 5, S. 481-487
  6. Duden - Das Fremdwörterbuch: „engl. eigtl. »Datenförderung«“
  7. Diese Geschichte ist vermutlich eine moderne Sage. Das Bier wird je nach Variante neben den Windeln, auf dem Weg zur Kasse oder am anderen Ende des Supermarktes (damit der Kunde an möglichst vielen weiteren Produkten vorbei gehen muss) platziert.
    KDNuggets Beitrag der eine mögliche Quelle des Mythos erwähnt
  8. I. Färber, S. Günnemann, H.-P. Kriegel, P. Kröger, E. Müller, E. Schubert, T. Seidl, A. Zimek: On Using Class-Labels in Evaluation of Clusterings. In: MultiClust: 1st International Workshop on Discovering, Summarizing and Using Multiple Clusterings Held in Conjunction with KDD 2010, Washington, DC. 2010 (http://www.dbs.informatik.uni-muenchen.de/~zimek/publications/MultiClustAtKDD2010/Faerberetal.pdf).

Wikimedia Foundation.