Der t-, Welch- und U-Test im psychotherapiewissenschaftlichen Forschungskontext

Empfehlungen für Anwendung und Interpretation

  • SFU Institut für Statistik

Abstract

In diesem ersten Beitrag der Serie Statistik in der Psychotherapiewissenschaft wird die Anwendung des t-, Welch- sowie U-Tests bei unverbundenen Stichproben im Sinne eines Best-Practice Ansatzes vorgestellt. Neben Empfehlungen für eine (1) optimale Verfahrenswahl, (2) dem Einsatz von Effektstärken, (3) der Bestimmung der Ergebnisrelevanz  sowie (4) der Vorstellung von Reportkonventionen für die Ergebnisdarstellung, wird vor allem (5) auf das Problemfeld der Zuverlässigkeit statistischer Entscheidungen im psychotherapiewissenschaftlichen Forschungskontext und (6) Möglichkeiten zur aktiven Einflussnahme durch die ForscherInnen, eingegangen.

Literaturhinweise

American Psychological Association. (2020). Publication Manual of the American Psychological Association (7th. Ed.). APA: Washington, DC.

Berth, H. & Brähler, E. (2003). Bonner Fragebogen für Therapie und Beratung - Testinformation. Diagnostica, 94 (4). 191-194.

Bortz, J. (2006). Statistik: Für Human-und Sozialwissenschaftler. Springer Medizin Verlag: Heidelberg.

Bortz, J., & Lienert, G. A. (2008). Kurzgefasste Statistik für die klinische Forschung: Leitfaden für die verteilungsfreie Analyse kleiner Stichproben. Springer-Verlag.

Chow, S.C., Shao, J., Wang, H., Lokhnygina, Y. (2018). Sample Size Calculations in Clinical Research. New York: Chapman and Hall/CRC.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences, 2nd ed. Hillsdale, NJ: Erlbaum.

Fritz, O. F., Morris, P. E. & Richer, J. J. (2012). Effect Size Estimates: Current Use, Calculations, and Interpretation. Journal of Experimental Psychology, 141 (1), 2–18.

Hagemann, W. & Geuenich, K. (2009). Burnout-Screening-Skalen (BOSS). Göttingen: Hogrefe.

Jones, S. R., Carley, S. & Harrison, M. (2003). An introduction to power and sample size estimation. Emergency Medicine Journal, 20, 453-458.

Kleist, P. (2010). Wann ist ein Studienergebnis klinisch relevant?. Swiss Medical Forum, 10 (32), 525-527.

Krzywinski, M. & Altman, N. (2013). Power and sample size. Nature Methods, 10, 1139-1140.

Kühner, C., Bürger, C., Keller, F. & Hautzinger, M. (2007). Reliabilität und Validität des revidierten Beck-Depressionsinventars (BDI-II). Befunde aus deutschsprachigen Stichproben. Der Nervenarzt, 78, 651-656.

Mann, H. B., & Whitney, D. R. (1947). On a test of whether one of two random variables is stochastically larger than the other. The annals of mathematical statistics, 50-60.

Rasch, D., Kubinger, K. D., & Moder, K. (2011). The two-sample t test: pre-testing its assumptions does not pay off. Statistical papers, 52 (1), 219-231.

Ramsey, P. H. (1980). Exact type 1 error rates for robustness of student's t test with unequal variances. Journal of Educational Statistics, 5 (4), 337-349.

Sawilowsky, S. S., & Blair, R. C. (1992). A more realistic look at the robustness and type II error properties of the t test to departures from population normality. Psychological bulletin, 111 (2), 352.

Welch, B. L. (1947). The generalization of student's' problem when several different population variances are involved. Biometrika, 34 (1/2), 28-35.

Veröffentlicht
2020-06-30
Rubrik
Statistik