Interrater-Reliabilität


Interrater-Reliabilität

Interrater-Reliabilität bzw. Urteilerübereinstimmung bezeichnet in der empirischen (Sozial-)Forschung (u. a. Psychologie, Soziologie, Epidemiologie, ...) das Ausmaß der Übereinstimmungen (= Konkordanzen) der Einschätzungsergebnisse bei unterschiedlichen Beobachtern („Ratern“). Hierdurch kann angegeben werden, inwieweit die Ergebnisse vom Beobachter unabhängig sind, weshalb es sich genau genommen um ein Maß der Objektivität handelt. Die Reliabilität ist ein Maß für die Güte der Methode die zur Messung einer bestimmten Variablen eingesetzt werden. Dabei kann zwischen Interrater- und Intrarater-Reliabilität unterschieden werden.

Inhaltsverzeichnis

Interrater-Reliabilität

An einem bestimmten Objekt wird durch zwei unterschiedliche Messinstrumente dieselbe Messung vorgenommen. Die Ergebnisse sollten gleich sein. Bsp: Ein Fragebogen wird von zwei unterschiedlichen Personen für ein und dasselbe Objekt verwendet. Die dabei u.U. auftretenden Abweichungen werden über die Interrater-Reliabilität prozentual ermittelt und gemessen.

Intrarater-Reliabilität

An einem bestimmten Objekt wird durch ein Messinstrument zweimal dieselbe Messung vorgenommen. Die Ergebnisse sollten gleich sein. Bsp: Ein Proband wird von einem Interviewer zweimal und zu unterschiedlichen Zeitpunkten befragt.

Kappa-Statistiken

Es gibt eine Reihe statistischer Verfahren, die zur Bestimmung der Inter-Rater-Reliabilität eingesetzt werden können. Handelt es sich um zwei (oder mehr) unterschiedliche Beobachter, die gleichzeitig mehrere Beobachtungsobjekte (=Fälle, Probanden) kategorial einschätzen, so lässt sich die Interrater-Reliabilität mittels Cohens Kappa (für zwei Rater) bzw. Fleiss' Kappa (für mehr als zwei Rater) abschätzen. Die Kappa-Statistiken prüfen das Ausmaß an Konkordanz durch Einbezug und Vergleich zu dem durch „zufälliges Einschätzen“ typischerweise erreichbaren Ausmaß an Übereinstimmung. Dabei wird davon ausgegangen, dass die einzelnen Einschätzungen eines Raters vollkommen unabhängig voneinander getroffen werden. Kappa kann Werte zwischen +1.0 (bei hoher Konkordanz) und < = 0 (bei niedriger Konkordanz) annehmen. Sie sind insbesondere für Variablen auf Nominalskalenniveau geeignet.

Die Nutzung von Kappa-Statistiken wird auch kritisiert, da die Werte dieser Statistik durch ihre mathematische Unzulänglichkeit zumeist keine Aussage erlauben,[1] stattdessen wird Krippendorffs Alpha empfohlen.

Inter-Rater-Korrelation

Für höhere Skalenniveaus nutzen andere Verfahren den Pearsonscher Maßkorrelationskoeffizienten bzw. Rangkorrelationskoeffizienten nach Spearman und Kendall zur Bestimmung der Inter-Rater-Korrelation zwischen zwei Ratern, wobei jeweils miteinander gepaarte Urteilswerte in Beziehung miteinander gesetzt werden. Der Inter-Rater-Korrelationskoeffizient beschreibt dabei allerdings lediglich einen (irgendwie) gearteten Zusammenhang der beiden Messungen, ohne dass Abweichungen zwischen den Urteilern eine Rolle spielen. So spielen z.B. gleichbleibende Milde- oder Strenge-Tendenzen keine Rolle.

Beispiel: Rater 1 schätzt 4 Objekte auf einer Skala wie folgt ein: 1,2,1,3; Rater 2 urteilt auf derselben Skala für gleichen Objekte: 2,3,2,4. Die Inter-Rater-Korrelation beträgt r=1 und ist vollkommen, obwohl die Urteiler nicht übereinstimmen.

Eine Alternative für ordinalskalierte Daten ist hier Kendalls Konkordanzkoeffizient W, bei dem es um die Berechnung des Ausmaßes der Übereinstimmung bei zwei oder mehr Beurteilern geht.

Intra-Klassen-Korrelation

Für intervallskalierte Daten beschreibt der Intra-Class-Korrelationskoeffizient (ICC, Shrout & Fleiss 1979, McGraw & Wong 1996, auch: Intraklassenkorrelation, Intra-klassenkorrelation), dass die beiden Messwerte den gleichen Wert haben sollen. Er setzt intervallskalierte Daten voraus und wird in der Regel berechnet, wenn mehr als zwei Beobachter vorhanden sind oder/und zwei oder mehr Beobachtungszeitpunkte einbezogen werden sollen.

Literatur

  • Cohen, J. (1960). A coefficient for agreement for nominal scales. Education and Psychological Measurement, 20, 37-46.
  • Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378-382.
  • McGraw, K. O., & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1, 30-46.
  • Shrout, P. & Fleiss, J. L. (1979). Intraclass correlation: Uses in assessing rater reliability. Psychological Bulletin, 86, 420-428.
  • Wirtz, M. & Caspar, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität. München: Hogrefe

Weblinks

Einzelnachweise

  1. Krippendorff, K. Reliability in Content Analysis: Some Common Misconceptions and Recommendations. Human Communication Research 30,3: 411-433, 2004.

Wikimedia Foundation.

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Reliabilität — Die Reliabilität (dt.: Zuverlässigkeit) ist ein Maß für die formale Genauigkeit bzw. Verlässlichkeit wissenschaftlicher Messungen. Sie ist derjenige Anteil an der Varianz, der durch tatsächliche Unterschiede und nicht durch Messfehler oder die… …   Deutsch Wikipedia

  • Intercoder-Reliabilität — Intercoder Reliabilität, seltener auch Interrater Reliabilität, kennzeichnet die Übereinstimmung von Codierungen durch voneinander unabhängige Coder in der empirischen Sozialforschung. Das am weitesten verbreitete Maß für Intercoder Reliabilität… …   Deutsch Wikipedia

  • Interne Konsistenz — Die Reliabilität (dt.: Zuverlässigkeit) ist ein Maß für die formale Genauigkeit bzw. Verlässlichkeit wissenschaftlicher Untersuchungen. Hochreliable wissenschaftliche Ergebnisse sind nahezu frei von Zufallsfehlern, d.h. bei Wiederholung eines… …   Deutsch Wikipedia

  • Fleiss' Kappa — Cohens Kappa ist ein statistisches Maß für die Interrater Reliabilität von Einschätzungen von (in der Regel) zwei Beurteilern (Ratern), das Jacob Cohen 1960 vorschlug. Die Gleichung für Cohens Kappa lautet wobei p0 der gemessene… …   Deutsch Wikipedia

  • Fleiss' kappa — Cohens Kappa ist ein statistisches Maß für die Interrater Reliabilität von Einschätzungen von (in der Regel) zwei Beurteilern (Ratern), das Jacob Cohen 1960 vorschlug. Die Gleichung für Cohens Kappa lautet wobei p0 der gemessene… …   Deutsch Wikipedia

  • Intra-Klassen-Korrelation — Die Intra Klassen Korrelation (auch Intraclass Korrelation) ist ein parametrisches statistisches Verfahren zur Quantifizierung der Übereinstimmung (Interrater Reliabilität) zwischen mehreren Beurteilern (Ratern) in Bezug auf mehrere… …   Deutsch Wikipedia

  • Valid — Mit Validität (von lat. validus: kräftig, wirksam; engl. „validity“, Gültigkeit) wird in erster Linie das argumentative Gewicht einer (vornehmlich wissenschaftlichen) Feststellung, Aussage, Untersuchung, Theorie oder Prämisse bezeichnet. Wird… …   Deutsch Wikipedia

  • Valide — Mit Validität (von lat. validus: kräftig, wirksam; engl. „validity“, Gültigkeit) wird in erster Linie das argumentative Gewicht einer (vornehmlich wissenschaftlichen) Feststellung, Aussage, Untersuchung, Theorie oder Prämisse bezeichnet. Wird… …   Deutsch Wikipedia

  • Gemütskrankheit — Der Begriff Psychische Störungen wurde anstelle des Begriffs „Psychische Erkrankung“ eingeführt, um eine Stigmatisierung zu vermeiden. Störung ist nach der Definition der WHO hier gleichzusetzen mit Krankheit. Man versteht unter Psychischer… …   Deutsch Wikipedia

  • Kendall's Tau — Ein Rangkorrelationskoeffizient ist ein parameterfreies Maß für Korrelationen, das heißt, er misst, wie gut eine beliebige monotone Funktion den Zusammenhang zwischen zwei Variablen beschreiben kann, ohne irgendwelche Annahmen über die… …   Deutsch Wikipedia