Logit-Modell


Logit-Modell

Unter logistischer Regression oder Logit-Modell versteht man ein Verfahren zur (meist multivariaten) Analyse diskreter (z. B. binärer) abhängiger Variablen. Hierbei hat man Daten (Y_i,x_i), i=1,\ldots,n gegeben, wobei Yi einen binären Response bezeichnet, das heißt, Yi nimmt nur die Werte 0 oder 1 an. Des Weiteren bezeichnet xi einen bekannten und festen Kovariablenvektor und n die Anzahl der Beobachtungen.

Daniel McFadden und James Heckman haben im Jahre 2000 für ihren Beitrag zur Entwicklung des Logit-Modells den Nobelpreis für Wirtschaftswissenschaften verliehen bekommen.

Die Einflüsse auf solche Variablen können nicht mit dem Verfahren der linearen Regressionsanalyse untersucht werden, da wesentliche Anwendungsvoraussetzungen insbesondere in inferenzstatistischer Hinsicht (Normalverteilung der Residuen, Varianzhomogenität) nicht gegeben sind. Ferner kann ein lineares Regressionsmodell bei einer solchen Variablen zu unzulässigen Vorhersagen führen: Wenn man die beiden Ausprägungen der abhängigen Variablen mit 0 und 1 kodiert, so kann man zwar die Vorhersage eines linearen Regressionsmodells als Vorhersage der Wahrscheinlichkeit auffassen, dass die abhängige Variable den Wert 1 annimmt – formal: P(Yi = 1) –, doch kann es dazu kommen, dass Werte außerhalb dieses Bereichs vorhergesagt werden. Die logistische Regression löst dieses Problem durch eine geeignete Transformation der abhängigen Variablen P(Yi = 1).

Das logistische Regressionsmodell lautet

\mathrm{P}(Y_i=1|X_i=x_i)=\frac{\exp(x_i^T \beta)}{1+\exp(x_i^T \beta)},

hierbei gilt \beta=(\beta_1,\ldots,\beta_n).

Es geht aus von der Idee der Odds, d. h. dem Verhältnis von P(Yi = 1) zur Gegenwahrscheinlichkeit 1 − P(Yi = 1) bzw. P(Yi = 0) (bei Kodierung der Alternativkategorie mit 0)

\mathrm{Odds}(Y_{1/0})=\frac{\mathrm{P}(Y_i=1)}{1-\mathrm{P}(Y_i=1)}=\frac{\mathrm{P}(Y_i=1)}{\mathrm{P}(Y_i=0)}

Die Odds können zwar Werte größer 1 annehmen, doch ist ihr Wertebereich nach unten beschränkt (er nähert sich asymptotisch 0 an). Ein unbeschränkter Wertebereich wird durch die Transformation der Odds in die sog. Logits

\mathrm{Logit}(Y_{1/0})=\ln(\mathrm{Odds}(Y_{1/0}))=\ln\frac{\mathrm{P}(Y_i=1)}{1-\mathrm{P}(Y_i=1)}

erzielt; diese können Werte zwischen minus und plus unendlich annehmen.

In der logistischen Regression wird dann die Regressionsgleichung

\mathrm{Logit}(Y_{1/0}|X_i=x_i)=\beta_0+\beta_1 X_1+\dots+\beta_n X_n

geschätzt; es werden also Regressionsgewichte bestimmt, nach denen die geschätzten Logits für eine gegebene Matrix von unabhängigen Variablen X berechnet werden können. Die folgende Graphik zeigt, wie Logits (X-Achse) mit den Ausgangswahrscheinlichkeiten P(Yi = 1) (Y-Achse) zusammenhängen:

Bild:Logitkurve.jpg

Die Regressionkoeffizienten der logistischen Regression sind nicht einfach zu interpretieren. Daher bildet man häufig die sog. Effektkoeffizienten durch Bildung des Antilogarithmus; die Regressionsgleichung bezieht sich dadurch auf die Odds:

\mathrm{Odds}(Y_{1/0}|X_i=x_i)=\exp(\beta_0+\beta_1 X_1+\dots+\beta_n X_n)

Die Koeffizienten expn) werden oft auch als Effektkoeffizienten bezeichnet. Hier bezeichnen Koeffizienten kleiner 1 einen negativen Einfluss auf die Odds, ein positiver Einfluss ist gegeben, wenn expn) > 1.

Durch eine weitere Transformation lassen sich die Einflüsse der logistischen Regression auch als Einflüsse auf die Wahrscheinlichkeiten P(Yi = 1) ausdrücken:

\mathrm{P}(Y=1|X_i=x_i)=\frac{\exp(\beta_0+\beta_1 X_1+\dots+\beta_n X_n)}{1+\exp(\beta_0+\beta_1 X_1+
      \dots+\beta_n X_n)}

Die Regressionsparameter werden auf der Grundlage des Maximum Likelihood-Verfahrens geschätzt. Inferenzstatistische Verfahren stehen sowohl für die einzelnen Regressionskoeffizienten als auch für das Gesamtmodell zur Verfügung (siehe Wald-Test und Likelihood-Quotienten-Test); in Analogie zum linearen Regressionsmodell wurden auch Verfahren der Regressionsdiagnostik entwickelt, anhand derer einzelne Fälle mit übergroßem Einfluss auf das Ergebnis der Modellschätzung identifiziert werden können. Schließlich gibt es auch einige Vorschläge zur Berechnung einer Größe, die in Analogie zum R2 der linearen Regression eine Abschätzung der "erklärten Varianz" erlaubt; man spricht hier von sog. Pseudo-R². Auch das AIC und das BIC werden in diesem Kontext gelegentlich herangezogen.

Als (im wesentlichen gleichwertige) Alternative kann das Probitmodell herangezogen werden, bei dem eine Normalverteilung zugrunde gelegt wird.

Eine Übertragung der logistischen Regression (und des Probit-Modells) auf abhängige Variable mit mehr als zwei (nominal- oder ordinalskalierten) Merkmalen ist möglich (siehe Multinomiales Logit und Ordinales Logit.)

Literatur

  • Volker Oppitz: Gabler Lexikon Wirtschaftlichkeitsberechnung, Gabler-Verlag 1995, 629 S., ISBN 3409199519
  • Hans-Jürgen Andreß, J.-A. Hagenaars, Steffen Kühnel: Analyse von Tabellen und kategorialen Daten Springer Berlin 1997, ISBN 3540625151
  • Dieter Urban: Logit Analyse, Lucius & Lucius Stuttgart 1998, ISBN 3828243061
  • David Hosmer, Stanley Lemeshow: Applied logistic regression, Wiley New York 2. Auflage 2000, ISBN 0471356328
  • Alan Agresti: Categorical Data Analysis, Wiley New York 2. Auflage 2002, ISBN 0471360937
  • Volker Oppitz/Volker Nollau: Taschenbuch Wirtschaftlichkeitsrechnung, Carl Hanser Verlag 2003, 400 S., ISBN 3446224637

Weblinks


Wikimedia Foundation.

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Logit-Modell — ökonometrisches nicht lineares Modell (⇡ ökonometrisches Modell) zur Erklärung von qualitativen, meist binären (0, 1) Entscheidungsvariablen, bei dem für die Wahrscheinlichkeitsverteilung der zu erklärenden Variablen eine logistische Funktion… …   Lexikon der Economics

  • Logit-Modell — logistische Regression …   Universal-Lexikon

  • Fishbein-Modell — Das Fishbein Modell ist ein Modell aus dem Marketing, das die Einstellung eines Konsumenten gegenüber einem Produkt beschreibt. Grundlage Dabei wird von einem Strukturmodell ausgegangen, dem so genannten SOR Modell (Stimulus Organism Response… …   Deutsch Wikipedia

  • Log-lineares Modell — Log lineare Modelle gehören zu den multivariaten Verfahren. Mit Log linearen Modellen werden nominalskalierte Daten analysiert. Durch eine logarithmische Transformation kann man bei der Analyse mehrdimensionaler Häufigkeitstabellen das Problem… …   Deutsch Wikipedia

  • logistische Regression — Logit Modell …   Universal-Lexikon

  • Pseudo-Bestimmtheitsmaß — Im Falle einer linearen Regression beschreibt das Bestimmtheitsmaß den erklärten Anteil der Variabilität (Varianz) einer abhängigen Variablen Y durch ein statistisches Modell. Bei einem nominalen oder ordinalen Skalenniveau von Y existiert jedoch …   Deutsch Wikipedia

  • Logitmodell — Logistische Funktion Unter logistischer Regression oder Logit Modell versteht man ein Verfahren zur (meist multivariaten) Analyse diskreter (z. B. binärer) abhängiger Variablen. Hierbei hat man Daten gegeben, wobei Yi einen binären …   Deutsch Wikipedia

  • Kreditwürdigkeitsprüfung — Die Kreditwürdigkeitsprüfung ist bei Kreditinstituten die erstmalige und laufende Überwachung der Zahlungsfähigkeit und Zahlungswilligkeit ( Bonität ) eines Schuldners. Dieser Vorgang ist bei Kreditvergaben von Banken allgemein verbindlich in… …   Deutsch Wikipedia

  • Logistische Regression — Logistische Funktion Unter logistischer Regression oder Logit Modell versteht man Regressionsanalysen zur (meist multivariaten) Modellierung der Verteilung diskreter abhängiger Variablen. Wenn logistische Regressionen nicht näher als multinomiale …   Deutsch Wikipedia

  • Nutzenmaximierungsmodelle — im Rahmen der Verkehrsplanung disaggregierte ⇡ Verkehrsmodelle, die auf der Nutzenmaximierungs bzw. Kostenminimierungsstrategie individuellen Wahlverhaltens beruhen, z.B. Logit Modell, Probit Modell, Nested Logit Modell, Dogit Modell (⇡… …   Lexikon der Economics