significantietoets en p-waarde

Net als bij het betrouwbaarheidsinterval speelt ook hier de correcte interpretatie een belangrijke rol. In de eerste plaats moeten we een onderscheid maken tussen ‘statistisch significant’ en ‘praktisch of wetenschappelijk significant’. Het vinden van statistische significantie wil nog niet zeggen dat er per definitie ook echt iets aan de hand is.
Dan de interpretatie van de p-waarde (statistisch significant houdt in dat de p-waarde kleiner is dan een van tevoren gekozen significantieniveau alpha). Wat je niet kunt zeggen is: significant houdt in dat de nulhypothese onwaar is. Waarheid en onwaarheid zijn ‘beyond the scope of statistics’. Je kunt zelfs niet zeggen: de kans dat de nulhypothese onwaar is is ….%. De reden is dat bij de frequentistische statistiek de onbekende parameter als een constante grootheid wordt opgevat – vergelijk de waarde van de nulhypothese – en niet als een kansvariabele. En je kunt nu eenmaal alleen kansuitspraken doen over een kansvariabele. Een veel voorkomende incorrecte interpretatie luidt (als de p-waarde bijv. 0.03 is): de kans dat het gevonden steekproefresultaat het gevolg is van toeval is 3%. Dit wordt de “Odds-Against-Chance Fallacy” genoemd. Het gaat hierom: bij de significantietoets nemen we aan dat de nulhypothese waar is. Dit houdt in dat de kans dat een steekproefuitkomst het gevolg is van ‘sampling error’ gelijk aan 1 is!

Wat kun je dan wel zeggen naar aanleiding van een gevonden p-waarde van bijv. 0.02? Dat is het volgende:
wanneer we uitgaan van de juistheid van de nulhypothese, en wanneer we de procedure van het nemen van een (aselecte) steekproef (van dezelfde omvang, uit dezelfde populatie) en het bepalen van de betreffende steekproefgrootheid – zoals bijv. het steekproefgemiddelde – vele malen zouden herhalen, dan zullen we in 2% van de gevallen een uitkomst vinden die minstens zo extreem is (extreem in de zin van: verwijderd van de waarde van de nulhypothese) als de door ons gevonden steekproefuitkomst.
De Engelse formulering is misschien duidelijker: Assuming the null hypothesis is true, how likely is it to find a sample result like the one we actually found, or an even more extreme one? Well, based on a p-value of 0.02, it is relatively unlikely.
Maar bedenk wel: het is en blijft mogelijk om zo’n steekproefuitkomst te vinden terwijl de nullhypothese in werkelijkheid waar is, alleen is het niet erg waarschijnlijk!

Het is je misschien opgevallen dat zowel bij de betekenis van betrouwbaarheidsinterval als van significantie en p-waarde, er gebruik gemaakt wordt van de zinsnede ‘wanneer we …. vele malen zouden herhalen ….’. En inderdaad, de conventionele, frequentistische statistiek is gebaseerd op het concept van de ‘long-run frequency’, vandaar ook de benaming ‘frequentistisch’.

Tenslotte enkele citaten uit de 6e editie van de Publication Manual of the American Psychological Association (APA) uit 2010 inzake de relativering van het belang van de significantietoets:

“APA stresses that NHST (Null Hypothesis Significance Testing) is but a starting point and that additional reporting elements such as effect sizes, confidence intervals, and extensive description are needed to convey the most complete meaning of the results”(p.33)

“The inclusion of confidence intervals (for estimates of parameters, for functions of parameters such as differences in means, and for effect sizes) can be an extremely effective way of reporting results. Because confidence intervals combine information on location and precision and can often bedirectly used to infer significance levels, they are, in general, the best reporting stategy. The use of confidence intervals is therefore stronly recommended.”(p.34)

“For the reader to appreciate the magnitude or importance of a study’s findings, it is almost always necessary to include some measure of effect size in the Results section. Whenever possible, provide a confidence interval for each effect size reported to indicate the precision of estimation of the effect size.”(p. 34)

Vervolgens publiceerde de APA in 2013 het boek van prof. Rex B. Kline: Beyond Significance Testing (2nd ed.) waarin de significantietoets (NHST) nog uitgebreider wordt bekritiseerd en waarin o.a. Bayesiaanse schattingsmethoden besproken worden.

In NRC Handelsblad van 18 & 19 juni 2016 verscheen onderstaand artikel van Ellen de Bruin onder de titel “De val van het P-getal” waarin de kritiek op het begrip p-waarde duidelijk wordt samengevat.
NRC 18 juni 2016 p-waarde
(met dank aan de redactie van NRC Handelsblad voor toestemming om het artikel hier te plaatsen)

Testing Hypothesis p-values

https://www.youtube.com/watch?v=-FtlH4svqx4

Voor informatie over de historische en filosofische achtergronden van de begrippen significantietoets en p-waarde, zie mijn (interne) publicatie uit 2010:

StendenWorkingPaper Rob Flohr

In april 2016 publiceerde de European Journal of Epidemiology een verhelderend artikel over veel voorkomende misvattingen omtrent enkele kernbegrippen van de conventionele (frequentistische) statistiek (zie onderstaande link).

http://link.springer.com/article/10.1007/s10654-016-0149-3