Maschinelles Lernen


Maschinelles Lernen

Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann nach Beendigung der Lernphase verallgemeinern. Das heißt, es lernt nicht einfach die Beispiele auswendig, sondern es „erkennt“ Gesetzmäßigkeiten in den Lerndaten. So kann das System auch unbekannte Daten beurteilen.

Aus dem weiten Spektrum möglicher Anwendungen seien hier genannt automatisierte Diagnoseverfahren, Erkennung von Kreditkartenbetrug, Aktienmarktanalysen, Klassifikation von DNA-Sequenzen, Sprach- und Schrifterkennung und autonome Systeme.

Das Thema ist eng verwandt mit „Knowledge Discovery in Databases“ und „Data-Mining“, bei dem es jedoch vorwiegend um das Finden von neuen Mustern und Gesetzmäßigkeiten geht. Viele Algorithmen können für beide Ziele verwendet werden, und insbesondere kann „Knowledge Discovery in Databases“ verwendet werden, um Lerndaten für „maschinelles Lernen“ zu produzieren oder vorzuverarbeiten, und Algorithmen aus dem maschinellen Lernen finden beim Data-Mining anwendung.

Inhaltsverzeichnis

Symbolische und subsymbolische Systeme

Beim maschinellen Lernen spielt Art und Mächtigkeit der Wissensrepräsentation eine wichtige Rolle. Man unterscheidet zwischen symbolischen Systemen, in denen das Wissen – sowohl die Beispiele als auch die induzierten Regeln – explizit repräsentiert ist, und subsymbolischen Systemen wie neuronale Netze, denen zwar ein berechenbares Verhalten „antrainiert“ wird, die jedoch keinen Einblick in die erlernten Lösungswege erlauben; hier ist Wissen implizit repräsentiert.

Bei den symbolischen Ansätzen werden aussagenlogische und prädikatenlogische Systeme unterschieden. Vertreter der ersteren sind ID3 und sein Nachfolger C4.5. Letztere werden im Bereich der induktiven logischen Programmierung entwickelt.

Algorithmische Ansätze

Die praktische Umsetzung geschieht meist mittels Algorithmen. Verschiedene Algorithmen aus dem Bereich des maschinellen Lernens lassen sich grob nach diesem Schema einteilen:

  • Überwachtes Lernen (engl. supervised learning): der Algorithmus lernt eine Funktion aus gegebenen Paaren von Ein- und Ausgaben. Dabei stellt während des Lernens ein „Lehrer“ den korrekten Funktionswert zu einer Eingabe bereit. Ein Teilgebiet des überwachten Lernens ist die automatische Klassifizierung. Anwendungsbeispiel: Handschrifterkennung.
  • Unüberwachtes Lernen (engl. unsupervised learning): der Algorithmus erzeugt für eine gegebene Menge von Eingaben ein Modell, das die Eingaben beschreibt und Vorhersagen ermöglicht. Dabei gibt es Clustering-Verfahren, die die Daten in mehrere Kategorien einteilen, die sich durch charakteristische Muster voneinander unterscheiden. Ein wichtiger Algorithmus in diesem Zusammenhang ist der EM-Algorithmus, der iterativ die Parameter eines Modells so festlegt, dass es die gesehenen Daten optimal erklärt. Er legt dabei das Vorhandensein nicht beobachtbarer Kategorien zugrunde und schätzt abwechselnd die Zugehörigkeit der Daten zu einer der Kategorien und die Parameter, die die Kategorien ausmachen. Eine Anwendung des EM-Algorithmus findet sich beispielsweise in den Hidden Markov Models (HMMs). Andere Methoden des unüberwachten Lernens, z. B. Hauptkomponentenanalyse verzichten auf die Kategorisierung. Sie zielen darauf ab, die beobachteten Daten in eine einfachere Repräsentation zu übersetzen, die sie trotz drastisch reduzierter Information möglichst genau wiedergibt.
  • Bestärkendes Lernen (engl. reinforcement learning): der Algorithmus lernt durch Belohnung und Bestrafung eine Taktik, wie in potenziell auftretenden Situationen zu handeln ist, um den Nutzen des Agenten (d. h. des Systemes, zu dem die Lernkomponente gehört) zu maximieren.

Software

  • GNU R ist eine auf vielen Plattformen verfügbare, freie Statistik-Software mit Erweiterungen zum maschinellen Lernen (z. B. rpart, randomForest) und Data-Mining.
  • KNIME - Open Source Data Mining, Workflow und Data Pipelining Software
  • RapidMiner (früher YALE) ist ein einfach zu bedienendes und frei erhältliches Tool für maschinelles Lernen und Data-Mining.
  • Shogun ist eine Open-Source-Toolbox für Kernel-Methoden.
  • Shark ist eine freie C++ Bibliothek, die eine Vielzahl von maschinellen Lernverfahren implementiert.

Literatur

  • Christopher M. Bishop: Pattern Recognition and Machine Learning. Information Science and Statistics. Springer, Berlin 2008, ISBN 978-0-3873-1073-2.
  • David J. C. MacKay: Information Theory, Inference and Learning Algorithms. Cambridge University Press, Cambridge 2003, ISBN 978-0-5216-4298-9 (Online).
  • Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of Statistical Learning. Data Mining, Inference, and Prediction. 2. Auflage. Springer-Verlag, 2008, ISBN 978-0-3878-4857-0.
  • Thomas Mitchell: Machine Learning. Mcgraw-Hill, London 1997, ISBN 978-0-0711-5467-3.
  • D. Michie, D. J. Spiegelhalter: Machine Learning, Neural and Statistical Classification. In: Ellis Horwood Series in Artificial Intelligence. E. Horwood Verlag, New York 1994, ISBN 978-0-1310-6360-0.
  • A.P. Dempster, N.M. Laird, D.B. Rubin: Maximum Likelihood from Incomplete Data via the EM Algorithm Journal of the Royal Statistical Society, Vol. 39, No. 1, 1977

Weblinks


Wikimedia Foundation.

Schlagen Sie auch in anderen Wörterbüchern nach:

  • maschinelles Lernen — Anwendung und Erforschung von Verfahren, durch die Computersysteme befähigt werden, selbstständig Wissen aufzunehmen und zu erweitern, um ein gegebenes Problem besser lösen zu können als vorher. Formen: Mechanisches Lernen, Lernen durch… …   Lexikon der Economics

  • Kernel(Maschinelles Lernen) — Im Bereich des Maschinellen Lernens wurden in den letzten Jahren eine Klasse von Algorithmen entwickelt, die sich eines Kernels (dt. Kern) bedienen, um ihre Berechnungen implizit in einem hochdimensionalen Raum auszuführen. Bekannte Algorithmen,… …   Deutsch Wikipedia

  • Kernel (Maschinelles Lernen) — Im Bereich des Maschinellen Lernens wurden in den letzten Jahren eine Klasse von Algorithmen entwickelt, die sich eines Kernels (dt. Kern) bedienen, um ihre Berechnungen implizit in einem hochdimensionalen Raum auszuführen. Bekannte Algorithmen,… …   Deutsch Wikipedia

  • Lernen von Maschinen — Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann nach Beendigung der Lernphase verallgemeinern. Das heißt, es lernt nicht einfach die Beispiele …   Deutsch Wikipedia

  • Maschinelles Schließen — Das fallbasierte Schließen (engl. case based reasoning, franz. raisonnement par cas, span. Razonamiento basado en casos) ist ein maschinelles Lernverfahren zur Problemlösung durch Analogieschluss. Das zentrale Element in einem CBR System ist eine …   Deutsch Wikipedia

  • Lernen — Kinder lernen den Umgang mit Computern Unter Lernen versteht man den absichtlichen (intentionales Lernen) und den beiläufigen (inzidentelles und implizites Lernen), individuellen oder kollektiven Erwerb von geistigen, körperlichen, sozialen… …   Deutsch Wikipedia

  • Statistisches Lernen — Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann nach Beendigung der Lernphase verallgemeinern. Das heißt, es lernt nicht einfach die Beispiele …   Deutsch Wikipedia

  • Unüberwachtes Lernen — (engl. unsupervised learning) bezeichnet maschinelles Lernen ohne im Voraus bekannte Zielwerte. Das Netz orientiert sich an der Ähnlichkeit zu den Inputwerten und adaptiert die Gewichte entsprechend. Es können verschiedene Dinge gelernt werden.… …   Deutsch Wikipedia

  • Bestärkendes Lernen — bzw. Verstärkendes Lernen (engl. Reinforcement Learning) ist der Überbegriff für eine Reihe von Methoden des Maschinellen Lernens, bei denen ein Agent den Nutzen von Aktionsabfolgen in einer Welt bestimmt. Zu diesem Zweck benutzt Bestärkendes… …   Deutsch Wikipedia

  • Ueberwachtes Lernen — Überwachtes Lernen ist ein Teilgebiet des maschinellen Lernens. Mit Lernen ist dabei die Fähigkeit gemeint, Gesetzmäßigkeiten nachzubilden. Die Ergebnisse sind durch Naturgesetze oder Expertenwissen bekannt und werden benutzt, um das System… …   Deutsch Wikipedia