Bayestheorem
Illustration des Bayestheorems mit Hilfe zweier dreidimensionaler Baumdiagramme.

Das nach dem englischen Mathematiker Thomas Bayes benannte Bayestheorem, auch Satz von Bayes genannt, ist ein Ergebnis der Wahrscheinlichkeitstheorie, das die Berechnung bedingter Wahrscheinlichkeiten beschreibt.

Inhaltsverzeichnis

Formel

Für zwei Ereignisse A und B mit P(B) > 0 lautet die bedingte Wahrscheinlichkeit

P(A|B) \; = \; \frac {P(B|A) \cdot P(A)} {P(B)}.

Hierbei ist

P(A) die A-priori-Wahrscheinlichkeit für ein Ereignis A und
P(B | A) die Wahrscheinlichkeit für ein Ereignis B unter der Bedingung, dass A eingetreten ist und
P(B) die A-priori-Wahrscheinlichkeit für ein Ereignis B

Der Satz folgt unmittelbar aus der Definition der bedingten Wahrscheinlichkeit:

P\left(A\mid B\right) \; = \; \frac{P(A \cap B)}{P(B)} \; = \; \frac{\frac{P(A\cap B)}{P(A)} \cdot P(A)}{P(B)} \; = \; \frac{P\left(B\mid A\right)\cdot P(A)}{P\left(B\right)}

Bei endlich vielen Ereignissen ergibt sich das Bayessche Theorem folgendermaßen: Wenn A_{i},\; i = 1, \ldots, N eine Zerlegung der Ergebnismenge in disjunkte Ereignisse ist, gilt für die A-posteriori-Wahrscheinlichkeit P(Ai | B)

 P(A_i | B) \; = \; \frac{P\left(B\mid A_i\right)\cdot P(A_i)}{\sum_{j=1} ^{N} P\left(B\mid A_j\right) \cdot P(A_j)} = \; \frac{P(B\mid A_i) \cdot P(A_i)}{P(B)}. \;

Den zuletzt gemachten Umformungsschritt bezeichnet man auch als Marginalisierung. Man nennt diese Formel auch Bayesformel.

Die Beziehung

P(B)\; = \; \sum_{j=1}^N P\left(A_j\cap B\right) \; = \; {\sum_{j=1}^{N} P\left(B\mid A_j\right)\cdot P\left(A_j\right)}

wird als Gesetz der totalen Wahrscheinlichkeit bezeichnet.

Interpretation

Das Bayestheorem erlaubt in gewissem Sinn das Umkehren von Schlussfolgerungen:

Die Berechnung von P(EreignisA | EreignisB) ist häufig einfach, aber oft ist eigentlich P(EreignisB | EreignisA) gesucht, also ein Vertauschen der Argumente. Für das Verständnis können der Entscheidungsbaum und die A-priori-Wahrscheinlichkeit helfen. Das Verfahren ist auch als Rückwärtsinduktion bekannt.

Anwendungsgebiete

  • Statistik: Alle Fragen des Lernens aus Erfahrung, bei denen eine A-priori-Wahrscheinlichkeitseinschätzung aufgrund von Erfahrungen verändert und in eine A-posteriori-Verteilung überführt wird (vgl. Bayessche Statistik).
  • Informatik: Bayesscher Filter - Von charakteristischen Wörtern in einer E-Mail (Ereignis A) wird auf die Eigenschaft Spam (Ereignis B) zu sein, geschlossen.
  • Künstliche Intelligenz: Hier wird das Bayestheorem verwendet, um auch in Domänen mit "unsicherem" Wissen Schlussfolgerungen ziehen zu können. Diese sind dann nicht deduktiv und somit auch nicht immer korrekt, sondern eher abduktiver Natur, haben sich aber zur Hypothesenbildung und zum Lernen in solchen Systemen als durchaus nützlich erwiesen.
  • Qualitätsmanagement: Beurteilung der Aussagekraft von Testreihen.
  • Entscheidungstheorie/Informationsökonomik: Bestimmung des erwarteten Wertes von zusätzlichen Informationen.
  • Grundmodell der Verkehrsverteilung.
  • Bioinformatik: Bestimmung funktioneller Ähnlichkeit von Sequenzen.
  • Kommunikationstheorie: Lösung von Detektions- und Dekodierproblemen.

Rechenbeispiel 1

Es sind zwei Urnen „A“ und „B“ gegeben, in denen sich rote und weiße Kugeln befinden. In „A“ sind sieben rote und drei weiße Kugeln, in „B“ eine rote und neun weiße. Es wird nun eine beliebige Kugel aus einer willkürlich gewählten Urne gezogen. Anders ausgedrückt: Ob aus Urne A oder B gezogen wird, sei a priori gleich wahrscheinlich. Es sei das Ergebnis der Ziehung: Die Kugel ist rot. Gesucht ist die Wahrscheinlichkeit dafür, dass diese rote Kugel aus Urne „A“ stammt.

Urnenversuch


Es sei A das Ereignis: Die Kugel stammt aus Urne „A“. Es sei R das Ereignis „Die Kugel ist rot“. Dann gilt:

P(A) = P(B) = {1 \over 2} (Beide Urnen a priori gleich wahrscheinlich)

P(R \vert A) = {7 \over 10} (in Urne A sind 10 Kugeln, davon 7 rote)

P(R \vert B) = {1 \over 10} (in Urne B sind 10 Kugeln, davon 1 rote)

P(R) = P(A) \cdot P(R \vert A) + P(B) \cdot P(R \vert B) = {1 \over 2} \cdot {7 \over 10} + {1 \over 2} \cdot {1 \over 10} = {2 \over 5} (totale Wahrscheinlichkeit)

Damit ist P(A \vert R) = \frac {P(R \vert A) \cdot P(A)} {P(R)} = {{{7 \over 10} \cdot {1 \over 2}} \over {2 \over 5}} = { 7 \over 8 }.

Die bedingte Wahrscheinlichkeit, dass die gezogene rote Kugel aus der Urne „A“ gezogen wurde (A vorausgesetzt R), beträgt also 7/8.

Rechenbeispiel 2

In einem medizinischen Beispiel trete der Sachverhalt A, dass ein Mensch eine bestimmte Krankheit in sich trage, mit der Wahrscheinlichkeit P(A) = 0,0002 auf (Prävalenz). Jetzt soll in einem Screening-Test ermittelt werden, welche Personen diese Krankheit haben. B bezeichne die Tatsache, dass der Test bei einer Person positiv ausgefallen ist, d. h. der Test lässt vermuten, dass die Person die Krankheit hat. Der Hersteller des Tests versichert, dass der Test eine Krankheit zu 99 % erkennt (Sensitivität = P(B | A) = 0,99) und nur in 1 % der Fälle falsch anschlägt, obwohl gar keine Krankheit vorliegt (1 − Spezifität = P(B | Ac) = 0,01; wobei Ac das Komplement von A bezeichnet).

Die Frage ist: Wie wahrscheinlich ist das Vorliegen der Krankheit, wenn der Test positiv ist? (Positiver prädiktiver Wert)

Wir wissen bereits, mit welcher Wahrscheinlichkeit der Test positiv ist, wenn die Krankheit vorliegt (nämlich mit 99%-iger Wahrscheinlichkeit), jetzt soll das Ganze von der anderen Seite her gesehen werden.

Die Aufgabe kann

  • durch Einsetzen in die Formel oder
  • durch einen Entscheidungsbaum (nur bei diskreten Wahrscheinlichkeiten)

gelöst werden.

Lösung mit dem Bayestheorem

Da P(B) unbekannt ist, muss man P(B) auf die bekannten Größen zurückführen. Dies geschieht mittels folgender Gleichungskette:

P(B) = P(B) \cdot 1

= P(B) \cdot\left(P(A^c\mid B) + P(A\mid B)\right)
= P(A^c|B) \cdot P(B) + P(A|B) \cdot P(B)
= P(B|A^c) \cdot P(A^c) + P(B|A) \cdot P(A) (Bayestheorem)

Nach dieser Umformung kann nun das Bayestheorem auf die gegebenen Daten angewendet werden

P(A|B) = \frac{P(B|A)P(A)}{P(B|A^c)P(A^c) + P(B|A)P(A)}=\frac{0{,}99 \cdot 0{,}0002}{0{,}01 \cdot 0{,}9998 + 0{,}99 \cdot 0{,}0002}\approx 0{,}019

Es liegt also nur zu 1,9 % eine Krankheit vor d. h. der Patient hat eine Chance von 98 % gesund zu sein, obwohl der Test ihn als krank einschätzte! Das ist schwer zu glauben, liegt aber daran, dass die Wahrscheinlichkeit tatsächlich erkrankt zu sein (0,02 %) um das fünfzigfache geringer ist als die Wahrscheinlichkeit eines falschen Testergebnisses (1 %). Diese Problematik und ihre Konsequenzen werden von Gerd Gigerenzer im Buch Das Einmaleins der Skepsis ausführlich beschrieben.

Lösung mittels Baumdiagramm

Probleme mit wenigen Klassen und einfachen Verteilungen lassen sich übersichtlich im Baumdiagramm für die Aufteilung der Häufigkeiten darstellen. Geht man von den Häufigkeiten auf relative Häufigkeiten bzw. auf (bedingte) Wahrscheinlichkeiten über, wird aus dem Baumdiagramm ein Ereignisbaum, ein Sonderfall des Entscheidungsbaums.

Ereignisbaum zum Beispiel. (Zahl der Testfälle gerundet)

Ergebnis: 2+100=102 haben ein positives Ergebnis, obwohl 100 (=falsch positiv) von ihnen gesund sind. Diese Angaben erfolgen hier in der absoluten Häufigkeit.

Das Bayestheorem im Rahmen der Entscheidungstheorie

Die subjektivistische Schule der Statistik verwendet das Theorem von Bayes im Rahmen der induktive Statistik zur Schätzung von Parametern und zum Testen von Hypothesen.

Definition

Folgende Situation sei gegeben: θ ist ein unbekannter Umweltzustand (z.B. ein Parameter einer Wahrscheinlichkeitsverteilung), der auf der Basis von Beobachtungen x einer Zufallsgröße X geschätzt werden soll. Weiterhin ist Vorwissen in Form einer Wahrscheinlichkeitsverteilung über den unbekannten Parameter θ gegeben. Diese wird auch A-priori-Verteilung genannt. Die A-priori-verteilung enthält somit die gesamte Information über den Umweltzustand θ, die vor der Beobachtung der Stichprobe gegeben ist.

Die bedingte Verteilung von X unter der Bedingung dass θ den Wert θ0 annähme, wird im folgenden mit f(x | θ0) bezeichnet. Diese Wahrscheinlichkeitsverteilung kann nach Beobachtung der Stichprobe bestimmt werden und wird auch als Likelihood für den Parameterwert θ0 interpretiert.

Mit Hilfe des Bayestheorems kann nun die A-posteriori-Verteilung des Umweltzustands θ bestimmt werden. Falls die Menge aller möglichen Umweltzustände endlich ist, lässt sich die A-posteriori-Verteilung im Wert θ0 als die Wahrscheinlichkeit interpretieren, mit der man nach Beobachtung der Stichprobe und unter Einbeziehung des Vorwissens den Umweltzustand θ0 erwartet.

Die A-posteriori-Wahrscheinlichkeit wird im folgenden mit P(θ = θ0 | x) bezeichnet und kann mit Hilfe des Bayestheorems berechnet werden. Im Spezialfall einer diskreten A-priori-Verteilung erhält man:[1]

 P(\theta=\theta_0 | x) = \frac{f(x | \theta_0) \, P(\theta=\theta_0)}{\displaystyle\sum_{\theta' \in \Theta} f(x | \theta') \, P(\theta=\theta') } \!

Als Schätzwert verwendet ein Anhänger der subjektivistische Schule der Statistik in der Regel den Erwartungswert der A-Posteriori-Verteilung, in manchen Fällen auch den Modalwert.

Kritik

Wenn man die A-posteriori-Verteilung des Parameters als eine gegenüber der A-priori-Verteilung bessere Schätzung der tatsächlichen Verteilung des Parameters ansieht, dann ist das lediglich ein plausibler Schluss. Die A-posteriori-Verteilung ist nur eine verbesserte Schätzung unter der Bedingung des Messergebnisses; sie besagt, mit welchen Wahrscheinlichkeiten die verschiedenen Parameterwerte zu dem beobachteten Messergebnis beigetragen haben können. Der Umkehrschluss von der Beobachtung auf die tatsächliche Verteilung des Parameters kann demnach auch falsch sein. Denn im Grunde werden „aus einer Beobachtung zu starke Schlussfolgerungen gezogen”,[2] ein altbekanntes Problem der Induktion, auf das bereits David Hume und Karl Raimund Popper hingewiesen haben.

Eine umfassende Behandlung der mit der Parameterschätzung einhergehenden Probleme bietet die Test- und Schätztheorie (Rüger, 1999).

Siehe auch

Einzelnachweise

  1. Bernhard Rüger (1988), S. 152 ff.
  2. Denkfallen und Paradoxa: Bayes-Schätzung. hs-fulda.de. Abgerufen am 21. Juni 2011.

Weblinks

Wikibooks Wikibooks: einige Beispiele – Lern- und Lehrmaterialien

Literaturhinweise

  • Sharon Bertsch McGrayne: The Theory That Would Not Die. Yale University Press, 2011. ISBN 0300169698.
  • Bernhard Rüger: Induktive Statistik. Einführung für Wirtschafts- und Sozialwissenschaftler. R. Oldenbourg Verlag, München Wien 1988. ISBN 3-486-20535-8
  • Bernhard Rüger: Test- und Schätztheorie. Band I: Grundlagen. Oldenbourg, München 1999

Wikimedia Foundation.

Synonyme:

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Bayestheorem — Satz von Bayes …   Universal-Lexikon

  • Satz von Bayes — Bayestheorem …   Universal-Lexikon

  • Bayes'sches Theorem — Das Bayestheorem (auch Satz von Bayes) ist ein Ergebnis der Wahrscheinlichkeitstheorie, benannt nach dem Mathematiker Thomas Bayes. Es gibt an, wie man mit bedingten Wahrscheinlichkeiten rechnet. Inhaltsverzeichnis 1 Formel 2 Interpretation 3… …   Deutsch Wikipedia

  • Bayes-Formel — Das Bayestheorem (auch Satz von Bayes) ist ein Ergebnis der Wahrscheinlichkeitstheorie, benannt nach dem Mathematiker Thomas Bayes. Es gibt an, wie man mit bedingten Wahrscheinlichkeiten rechnet. Inhaltsverzeichnis 1 Formel 2 Interpretation 3… …   Deutsch Wikipedia

  • Bayes-Theorem — Das Bayestheorem (auch Satz von Bayes) ist ein Ergebnis der Wahrscheinlichkeitstheorie, benannt nach dem Mathematiker Thomas Bayes. Es gibt an, wie man mit bedingten Wahrscheinlichkeiten rechnet. Inhaltsverzeichnis 1 Formel 2 Interpretation 3… …   Deutsch Wikipedia

  • Bayes Theorem — Das Bayestheorem (auch Satz von Bayes) ist ein Ergebnis der Wahrscheinlichkeitstheorie, benannt nach dem Mathematiker Thomas Bayes. Es gibt an, wie man mit bedingten Wahrscheinlichkeiten rechnet. Inhaltsverzeichnis 1 Formel 2 Interpretation 3… …   Deutsch Wikipedia

  • Bayesformel — Das Bayestheorem (auch Satz von Bayes) ist ein Ergebnis der Wahrscheinlichkeitstheorie, benannt nach dem Mathematiker Thomas Bayes. Es gibt an, wie man mit bedingten Wahrscheinlichkeiten rechnet. Inhaltsverzeichnis 1 Formel 2 Interpretation 3… …   Deutsch Wikipedia

  • Bayessche Theorem — Das Bayestheorem (auch Satz von Bayes) ist ein Ergebnis der Wahrscheinlichkeitstheorie, benannt nach dem Mathematiker Thomas Bayes. Es gibt an, wie man mit bedingten Wahrscheinlichkeiten rechnet. Inhaltsverzeichnis 1 Formel 2 Interpretation 3… …   Deutsch Wikipedia

  • Bayesscher Satz — Das Bayestheorem (auch Satz von Bayes) ist ein Ergebnis der Wahrscheinlichkeitstheorie, benannt nach dem Mathematiker Thomas Bayes. Es gibt an, wie man mit bedingten Wahrscheinlichkeiten rechnet. Inhaltsverzeichnis 1 Formel 2 Interpretation 3… …   Deutsch Wikipedia

  • Bayessches Theorem — Das Bayestheorem (auch Satz von Bayes) ist ein Ergebnis der Wahrscheinlichkeitstheorie, benannt nach dem Mathematiker Thomas Bayes. Es gibt an, wie man mit bedingten Wahrscheinlichkeiten rechnet. Inhaltsverzeichnis 1 Formel 2 Interpretation 3… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”