actueel

20-7-2019
Professor Ronald Meester (VU, Amsterdam) publiceerde in het laatste nummer van Nieuw Archief voor Wiskunde (vijfde serie, deel 20, nummer 2, juni 2019, pag. 103-109) een artikel onder de titel ‘Waarom p-waardes niet gebruikt mogen worden als statistisch bewijs’.
In de discussie over de betekenis en en het belang van het evidence-based beginsel wordt over het algemeen veel aandacht besteed aan het onderzoeksmethodologische aspect (‘gouden standaard’, RCT-opzet enz.) maar veel minder aan het statistische aspect dat echter wel een grote rol speelt bij het bepalen van de mate van ‘wetenschappelijk bewijs’ op basis van empirisch onderzoek waarbij gebruik gemaakt is van steekproefsgewijs verkregen data.
In dat verband gebruikt Ronald Meester de term ‘collectief onbegrip’:
“Ik denk dat de reproductiecrisis waar de wetenschap volgens velen middenin zit, het rechtstreekse gevolg is van collectief onbegrip van wat statistisch bewijs eigenlijk is” (p. 103).
Een ander citaat:
“Als een onderzoeker de geschetste procedure (de procedure van de significantietoets, de gangbare statistische methode, Rob Flohr) volgt, dan weet hij of zij dat in hooguit een fractie alpha van de keren dat H (nulhypothese, Rob Flohr) waar was, deze ondanks dat toch wordt verworpen. Dat is een frequentistische (zie elders op deze website, Rob Flohr) uitspraak, die iets zegt over de kwaliteit van de procedure als geheel. Wat echter cruciaal is, is dat als het experiment eenmaal uitgevoerd is en de data verkregen, er niet zomaar een uitspraak gedaan kan worden over de kans dat je in dat geval de juiste beslissing hebt genomen. Een p-waarde is gericht op de procedure, terwijl statistisch bewijs zich juist op de specifiek verkregen data moet richten van een enkel experiment. Op die manier bezien richt een p-waarde zich gewoon op een andere vraag dan de vraag naar statistisch bewijs.”(pag. 107)
Ronald Meester pleit ervoor om met andere ogen naar statistisch bewijs te gaan kijken en zou graag willen zien dat de p-waarde uit het curriculum van o.a. de universiteiten gehaald zou worden.
Zie ook:
p-waardes zijn niet geschikt als kwantificering van statistisch bewijs
en
brochure-wintersymposium2019-A4

10-11-2018
Het advies ‘Zonder context geen bewijs. Over de illusie van evidence-based medicine in de zorg’ (juni 2017, zie ook hieronder) van de Raad voor Volksgezondheid (RVS) heeft veel losgemaakt, reden voor de Koninklijke Nederlandse Academie voor Wetenschappen (KNAW) om op 5 juni 2018 een symposium in Amsterdam te organiseren onder de titel ‘De toekomst van evidence-based medicine‘.
Het verslag van het symposium is te vinden op:
https://www.raadrvs.nl/actueel/nieuws/2018/10/12/verslag-symposium-%E2%80%98de-toekomst-van-evidence-based-medicine%E2%80%99-ebm
Het is een interessante discussie geworden rond vragen als: hoe verhoudt bewezen zorg zich tot goede zorg? en hoe verhouden cijfers en statistiek zich tot de lokale context van deze specifieke arts en deze specifieke patiënt? Hoe zit het met de dichotomie tussen kwantitatief en kwalitatief onderzoek? enz.

6-11-2018
Momenteel is er in de medische wereld een discussie gaande over de manier waarop het bevolkingsonderzoek naar baarmoederhalskanker kan worden uitgevoerd. Behalve het bekende uitstrijkje (cytologisch onderzoek) is er nu ook het testen op het humaan papilloma virus (HPV).
In onderstaande bijlage heb ik – evenals ik vorig jaar voor het bevolkingsonderzoek naar darmkanker heb gedaan –   Bayesiaanse kansrekening toegepast om de kans op ‘false positives’ (een positieve – in de zin van ongunstig – testuitslag terwijl er geen baarmoederhalskanker is) te bepalen.
De verschillende bronnen van informatie die ik via het internet gebruikt heb staan daaronder vermeld zodat de lezer deze slechts hoeft aan te klikken.
BIJLAGE:
kansberekeningen BVO baarmoederhalskanker 3e versie 5 nov 2018
Ter aanvulling nog de informatie voor huisartsen en verpleegkundigen:
https://www.nhg.org/actueel/dossiers/dossier-bevolkingsonderzoek-baarmoederhalskanker

Internetbronnen (in de volgorde waarin ze in bovenstaande bijlage genoemd worden):

https://www.rivm.nl/Onderwerpen/B/Bevolkingsonderzoek_baarmoederhalskanker/Veelgestelde_vragen

http://www.thehpvtest.com/

http://www.hpvtest.nl/about-hpv/high-and-low-risk-hpv-types/

https://www.medischcontact.nl/nieuws/laatste-nieuws/artikel/het-nieuwe-hpv-bevolkingsonderzoek-voldoet-niet.htm

https://www.henw.org/artikelen/uitgestreken

Esther Rosenberg & Hugo Logtenberg ‘De geheime belangen van een briljant medicus’, in NRC 13 juni 2015:

https://www.nrc.nl/nieuws/2015/06/13/de-geheime-belangen-van-een-briljant-medicus-1507139-a1331443#/handelsblad/2015/06/13/#120

Esther Rosenberg & Hugo Logtenberg ‘Hoogleraar VUmc berispt na misbruik DNA-materiaal’, in NRC 30 september 2018:

https://www.nrc.nl/nieuws/2018/09/30/hoogleraar-vumc-berispt-na-misbruik-dna-materiaal-a2040558

https://www.volksgezondheidenzorg.info/onderwerp/baarmoederhalskanker/cijfers-context/huidige-situatie

11-6-2018
Het zomernummer van Skepter  ( jrg. 31, nr. 2) is gewijd aan risico’s en risicocommunicatie. Meerdere artikelen betreffen de kwaliteit van de communicatie tussen arts en patiënt als het gaat om het bespreken van de voor- en nadelen van een geneesmiddel of behandeling.

Ter illustratie twee citaten uit het artikel van Olga Damman (senior onderzoeker bij het  VUmc) en Dirk Ubbink (hoogleraar evidence based medicine and shared decision making bij het AMC): ‘Als de dokter het ook niet weet’ , SKEPTER 2018, nr. 2, p. 41-44:

“Artsen worden geacht hun klinisch oordeel vooral te baseren op de stand van de wetenschap en te werken volgens de regels van de evidence-based medicine. Dat betekent bepaald niet dat de wetenschap altijd het laatste woord heeft. Expertise en intuïtie van de arts, maar ook de waarden en voorkeuren van de patiënt spelen een rol bij de keuze voor een behandeling.” (pag. 41)

“Artsen horen dus altijd hun klinische expertise te gebruiken om na te gaan of de resultaten uit trials ook op een individuele patiënt van toepassing zijn. Ook dat is evidence-based werken.” (pag. 42)

Losse nummers kunnen besteld worden via de website www.skepsis.nl

21-4-2018
Opnieuw een alarmerend bericht over de gebreken van wetenschappelijk onderzoek naar de werking van geneesmiddelen waarbij statistiek vaak een dubieuze rol speelt, “In de statistiek kun je van elke mug een olifant maken”.
Karel Berkhout: ‘Nieuwe medicijnen, valse beloften’, NRC 21 en 22 april 2018, wetenschapsbijlage.

https://www.nrc.nl/nieuws/2018/04/20/veel-nieuwe-geneesmiddelen-werken-niet-hoe-komt-dat-a1600206#/handelsblad/2018/04/21/#406


24-1-2018

Om een indruk te krijgen van de kwaliteit van de CancerSEEK-test, zie 22-1-2018, en wel in termen van de voorwaardelijke kans P(aanwezigheid van een van de acht soorten kankers | een positief testresultaat) maak ik gebruik van de cijfers uit het artikel van 11 oktober 2008 De kans op kanker voor Nederlanders van L.A.L.M. Kiemeney e.a. in het ‘Ned. Tijdschrift voor Geneeskunde’ 152: 2233-2241.
(Voor de duidelijkheid: met ‘positief’ in de medisch-technische zin wordt bedoeld dat er een aanwijzing is dat er iets aan de hand – kanker – kan zijn.
Verder hebben de cijfers in het artikel betrekking op alle soorten kanker terwijl de CancerSEEK-test slechts op acht soorten kanker betrekking heeft. Er is dus een (kleine?) overschatting van de kanscijfers).

ntvg de kans op kanker 2008

Laten we beginnen met een vrouw van 45 jaar die wil weten hoe groot de kans is dat zij binnen 5 jaar kanker krijgt. Volgens tabel 1 op pag. 2235 van het artikel is die kans gelijk aan 2,1% (0.021).
Toepassing van de regel van Bayes levert op:
P(kanker | positief) =
P(kanker) x P(positief | kanker) / {P(kanker) x P(positief | kanker) + P(geen kanker) x P(positief | geen kanker)}
= (0.021 x 0.70) / {(0.021 x 0.70) + (0.979 x 0.01)} = ± 0.60, dus ongeveer 60 procent.

Voor een man van 45 jaar die wil weten hoe groot de kans is dat hij binnen 5 jaar kanker krijgt (zie tabel 2 op pag. 2235) is die kans kleiner:
(0.011 x 0.70) / {(0.011 x 0.70) + (0.989 x 0.01) = ± 0.44, dus ongeveer 44 procent.

Conclusie: de initiële kans op kanker speelt een belangrijke rol bij het bepalen van de kwaliteit van de bloedtest en we moeten niet alleen kijken naar de voorwaardelijke kans P(positief | kanker)!

Ook hier weer – vergelijk mijn analyses van etnisch profileren elders op deze site – een pleidooi om de verschillende soorten voorwaardelijke kansen goed uit elkaar te houden.

22-1-2018
In een artikel in de NRC van vrijdag 19 januari 2018 pag. 2 (Wim Köhler: Nieuwe bloedtest kan acht soorten kanker opsporen) – zie onderstaande link voor het artikel – worden verschillende (voorwaardelijke) kansen genoemd. De vraag is: wat zeggen die kansen? En wat voor conclusie kun je formuleren op basis van de informatie in dit artikel?
Dat is niet zo eenvoudig te beantwoorden en ik vraag me af hoeveel lezers hiermee uit de voeten kunnen.
Laten we de betreffende kansen stuk voor stuk nader bekijken.

1) De experimentele CancerSEEK-test wist 70 procent van die acht kankers op te sporen
Het gaat hier om de voorwaardelijke kans P(positief testresultaat | aanwezigheid van een van de acht kankers) = 0.70.
(Ik ga ervan uit dat het opsporen van een van de acht kankers aan de orde is en niet een of meer van de acht kankers)

2) één op de honderd mensen werd onterecht aangewezen als kankerpatiënt
P(positief testresultaat| geen van de acht kankers is aanwezig) = 0.01

3) Bij de borstkankerscreening krijgt bijna twee procent van de onderzochte vrouwen een vals alarm
en
Bij de test op darmkanker (naar bloed in de ontlasting) is dat percentage ongeveer drie procent
P(positief resultaat| geen borstkanker) = (bijna)0.02
resp.
P(positief resultaat | geen darmkanker) = (ongeveer)0.03

4) De bloedtest op darmkanker mist een kwart tot een derde van de bestaande darmkanker
P(negatief resultaat| darmkanker aanwezig) = 0.25-0.33 (zijnde ongeveer het complement van de kans onder 1: 1 – 0.70 = 0.30)

en verder:

5) Screening wordt gedaan om het lijden en de sterfte aan kanker in de bevolking te verminderen, niet om individuen absolute zekerheid te geven of ze al of niet kanker hebben

Het gaat inderdaad niet om (absolute) zekerheid maar het gaat wel om het duidelijk en correct informeren over de betreffende onzekerheid. En die wordt uitgedrukt – zoals op verschillende plaatsen op deze website wordt uitgelegd, zie bijv. hieronder, Actueel 30-3-2017 n.a.v. het darmkankerbevolkingsonderzoek – door de voorwaardelijke kans

P(aanwezigheid van een van de acht soorten kanker | positief testresultaat).

En om die kans te berekenen – m.b.v. de regel van Bayes – hebben we gegevens over de totale populatie nodig: wat is de ‘overall’ kans op een van de acht soorten kanker in de populatie? Die kans ontbreekt in het artikel.

6) …dat de test bij kankerpatiënten goed kanker aanwijst

Volgens mij wordt hier weer de voorwaardelijke kans P(positief testresultaat | kanker aanwezig) bedoeld die volgens het artikel dus 70 procent bedraagt. Maar wat noemen we ‘goed’ en op grond waarvan? Bovendien ontbreekt de belangrijkste kans, namelijk die ik onder punt 5) heb genoemd.

Kortom, het artikel laat nog veel onduidelijk.

https://www.nrc.nl/nieuws/2018/01/19/nieuwe-bloedtest-kan-acht-soorten-kanker-opsporen-a1589008#/de-beta/handelsblad/2018/01/19/#102

(Correcties, aanvullingen en ander commentaar op bovenstaande tekst van mij zijn zeer welkom, graag via
rflohr@xs4all.nl)

18-1-2018
De uitspraak van Eveline Crone (zie 9-1-2018) roept wel de vraag op hoe we moeten laveren tussen al te robuuste waarheidsclaims enerzijds en een vorm van postmodernistisch relativisme (‘het komt uiteindelijk neer op interpretaties, en interpretaties kunnen nu eenmaal verschillen’) anderzijds.

De beroemde natuurkundige Richard Feynman formuleert het naar mijn mening op een fraaie wijze:

“How do we know that there are atoms? By one of the tricks mentioned earlier: we make the hypothesis that there are atoms, and one after the other results come out the way we predict, as they ought to if things are made of atoms.”
(alle cursiveringen zijn van Feynman, R.F.).

Bron:
Richard P. Feynman (2010). The Feynman Lectures on Physics, Vol. 1, 1-8. California Institute of Technology.
(New Milennium Edition)

Resteert wel de vraag hoe het zit met wetenschappen waarbij de empirische toetsing van hypothesen veel moeilijker of  misschien zelfs onmogelijk is.

(toevoeging op 22-1-2018: overigens laten de verschillende theorieën over zwaartekracht zien dat zeer goede voorspellingen op basis van de formulering van Feynman niet per definitie ‘waarheid’ impliceren. Zo kwam Newton op basis van zijn theorie dat zwaartekracht een kracht is die wordt uitgeoefend door een lichaam met massa tot uitstekende voorspellingen (al kon hij niet alles verklaren) terwijl Einstein zwaartekracht herleidde tot de kromming in de vierdimensionale ruimtetijd. En momenteel zijn er natuurkundigen die op zoek zijn naar een andere fundering van zwaartekracht)

9-1-2018
Een mooie en heldere uitspraak van Spinozaprijswinnar Eveline Crone over het gebruik van reductionisme bij (natuur)wetenschappelijk onderzoek:

“Zolang je maar in het achterhoofd houdt dat het inderdaad gaat om een deel van een ingewikkelder geheel. En dat je niet de waarheid observeert, maar dat je een set van gegevens interpreteert.”

(NRC 6 en 7 januari 2018, Wetenschapsbijlage, p.5: Margriet van der Heijden. Vergeet niet dat je niet de waarheid bekijkt)

En bij dat interpreteren van gegevens, zo voeg ik eraan toe, komt vaak statistiek om de hoek kijken. En bij het gebruik van (met name inductieve) statistiek is het van belang om niet alleen over voldoende kennis van statistische methoden en technieken te beschikken, maar vooral om een goed begrip te hebben van de manier van redeneren die daaraan ten grondslag ligt,  van het modelmatige karakter ervan en van de mogelijkheden en beperkingen van statistisch redeneren.

Beide artikelen van Margriet van der Heijden (NRC 6 en 7 januari 2018, p. 4-5, Wetenschap moet in relaties denken en Vergeet niet dat je niet de waarheid bekijkt) zijn te lezen via onderstaande link

https://www.nrc.nl/nieuws/2018/01/05/de-wetenschap-schiet-nu-tekort-met-zijn-reductionisme-a1587290#/de-beta/handelsblad/2018/01/06/52853#404

9-10-2017
Ik zie de volgende overeenkomst qua strekking van het artikel van Margreet Vermeulen op 7 oktober j.l. in de Volkskrant (‘Volgens voorschrift’) en dat van Martijn van Calmthout (‘Geen toeval meer’) in de Volkskrant van 30 september. Het gaat in beide artikelen naar mijn mening om de boodschap: protocollen en richtlijnen kunnen nuttig zijn maar verabsoluteer ze niet en verzuim in elk geval niet om je kennis en ervaring en gezond verstand te gebruiken.
Anders geformuleerd: laat het menselijk oordeelsvermogen niet verdwijnen door protocollen en richtlijnen. Natuurlijk kunnen mensen vergissingen begaan en een verkeerde inschatting maken maar het is een illusie om te menen dat protocollen en richtlijnen dat volledig kunnen voorkomen. Ze kunnen wel behulpzaam zijn maar dan moeten ze met verstand en wijsheid worden gebruikt.

8-10-2017
Opnieuw aandacht voor het recent verschenen adviesrapport van de Raad voor Volksgezondheid en Samenleving (RVS, zie ook hieronder) ‘Zonder context geen bewijs. Over de illusie van evidence-based practice in de zorg’.
In de Volkskrant van gisteren (Sir Edmund, p.10-15) staat een artikel van Margreet Vermeulen getiteld: ‘Volgens voorschrift’. Een arts heeft aan de ene kant te maken met protocollen waarin is vastgelegd hoe te handelen, het zijn medische richtlijnen gebaseerd op evidence-based medicine maar aan de andere kant met  patiënten die specifieke kenmerken en omstandigheden en ook persoonlijke wensen, visies en waarden kunnen hebben.
Verschillende artsen komen aan het woord en geven voorbeelden van situaties in hun spreekkamer die een dilemma met zich meebrengen.
Kern van het artikel: we zijn doorgeschoten in het omgaan met protocollen, er is sprake van een verabsolutering van de uitkomsten van wetenschappelijk onderzoek en er is vaak sprake van ‘kookboekgeneeskunde’.

Helaas blijft de rol van inductieve statistiek ook in dit artikel onbesproken. Wanneer er meer kennis zou zijn over wat statistiek wel en wat niet inhoudt zou deze verabsolutering m.i. veel minder aan de orde zijn. Maar helaas is het toepassen van inductieve statistiek ook steeds meer op het uitvoeren van protocollen gaan lijken.

2-10-2017
Het is een goede zaak dat er steeds meer aandacht komt voor de manier waarop feitelijk in (kwantitatief-inductief)  onderzoek wordt omgegaan met statistiek en wat daarin zou moeten veranderen.
Het op 30 september in de NRC verschenen artikel van Martijn van Calmthout: ‘Geen toeval meer’ is hiervan een voorbeeld. Het gaat in de kern om de vraag hoe we met statistiek om moeten gaan: blindelings volgen van een “decreet” of “concrete leidraad” als p<0.05 dan wel p<0.005, in combinatie met een term als ‘statistisch significant’, dan wel veel meer stil staan bij wat een gevonden uitkomst zou kunnen betekenen en daarover in alle openheid communiceren met andere onderzoekers: “Waar het om gaat is dat auteurs hun verstand gebruiken en in hun verslaggeving precies vertellen wat ze doen en waarom, in plaats van alles achter dat ene getalletje (bedoeld is hier de p-waarde, RF) te verstoppen. Openheid is cruciaal.”
Blijft naar mijn mening het feit dat onderzoekers, universiteiten, redacties van wetenschappelijke tijdschriften en de media elkaar gevangen houden in een systeem van publicatiedwang, ‘jacht op significanties’, verkeerde financieringssystemen en de drang naar (zogenaamd) opzienbarende ontdekkingen en doorbraken. Een systeem dat zowel perverse prikkels als de dominantie van protocollen boven gezond verstand tot gevolg heeft.  Het doet mij denken aan de opmerking in ‘Zonder context geen bewijs’ van de Raad voor Volksgezondheid en samenleving (zie hieronder, o.a. 22 juni 2017) over de omgeving waarin zorgprofessionals opereren en waarin overheidsorganen, zorgverzekeraars en het tuchtrecht een soortgelijke rol spelen (pag. 10 van het adviesrapport van de RVS).

28-8-2017
De relatie tussen verhoogd cholesterol en hart- en vaatziekten is lang niet zo duidelijk als artsen ons soms willen doen geloven, zie onderstaande link.
Ofwel: hoe betrekkelijk de betekenis van het predicaat evidence-based kan zijn en ook hoe belangrijk het is om je te verdiepen in de details van het onderliggende empirisch onderzoek.
https://www.de-lemniscaat.nl/cholesterol-ter-discussie/

26-8-2017
Bij een bespreking van het begrip evidence, in de context van evidence-based, kan men naar mijn mening niet om het begrip statistical evidence heen omdat veel (medisch) onderzoek kwantitatief en inductief van aard is.
Dit heb ik naar voren gebracht in een reactie op de achtergrondstudie ‘Betekenissen van bewijs’ (G. de Jong, 2016) en het uiteindelijke adviesrapport ‘Zonder context geen bewijs’ (RVS, juni 2017) van de Raad voor Volksgezondheid en Samenleving (RVS), zie ook hieronder bij 22 juni 2017.
In de bijlage wordt een en ander nader toegelicht.
Statistical evidence

23-7-2017
Een interessante beschouwing over de ‘cholesterolhypothese’ van Leo Ottes (2017). Het Bewijs, pag. 20-23. Achtergrondstudie bij het advies “Zonder context geen bewijs. Over de illusie van evidence-based practice in de zorg.” van de Raad voor Volksgezondheid en Samenleving (zie ook hieronder bij 22-6-2017).
Te verkrijgen via
https://www.raadrvs.nl/publicaties/item/zonder-context-geen-bewijs/achtergrondstudies

En een verhelderend citaat uit een artikel van Richard Starmans in STAtOR, een uitgave van de Vereniging voor Statistiek en Operationele Research met betrekking tot statistische modellen (zie ook hieronder bij 27-6-2017).
Richard Starmans. Statistiek en wetenschapsfilosofie. Over het nut van de ornithologie voor de grasparkiet. STAtOR, juli 2017: 10
“Het gaat er veeleer om diverse modellen te ontwikkelen (model fitting), die vervolgens worden geëvalueerd (model checking) en aan een opeenvolging van strenge tests worden onderworpen, waarna het sterkste model overblijft. Omdat volgens Gelman (vrijwel) alle modellen toch ‘fout’ zijn, dat wil zeggen, niet de kansverdeling bevatten door welke de beschikbare data zijn gegenereerd, is er veeleer sprake van een trial-and-erroraanpak, die historisch gesproken uiteraard met Popper kan worden verbonden (….)”
(ter toelichting: Andrew Gelman is een Bayesiaans statisticus die zich afvraagt waar de (Bayesiaanse) statistiek zich vooral op moet richten)

11-7-2017
Op de site van ZonMw is informatie te vinden over de nadelen van de traditionele statistische significantietoets waarop nog steeds veel (medisch) onderzoek is gebaseerd.

https://www.zonmw.nl/search/?q=The%20myth%20of%20null-hypothesis

10-7-2017
De discussie naar aanleiding van het rapport van de RVS (zie hieronder, 22 juni 2017) begint op gang te komen. Ik ben benieuwd welke fundamentele vragen zullen komen bovendrijven. Ik denk in elk geval aan de vraag: wat verstaan we eigenlijk onder ‘wetenschap’ en ‘wetenschappelijk’? Op verschillende plaatsen in het advies van de RVS wordt kwalitatief onderzoek genoemd (in combinatie met kwantitatief onderzoek, ook wel de mixed methods benadering genoemd). Dat is al een aanwijzing.
Om te beginnen het artikel van Lotty Hooft en Emma Bruns: ‘Zweer de wetenschap niet af, Edith’, gepubliceerd in de NRC van 3 juli 2017, zie
NRC 3 juli 2017 reactie op RVS 1
(met dank aan de auteurs)

5-7-2017
In het kader van het recente  verschijnen van het rapport Zonder context geen bewijs. Over de illusie van evidence-based practice in de zorg van de Raad voor Volksgezondheid en Samenleving (zie hieronder bij 22 juni) is het interview met Dick Bijl, arts-epidemioloog, zeer verhelderend. Het artikel gaat onder meer over het begrip evidence-based.

Zie:
Karel Berkhout. ‘Minder medicijnen is vaak beter’, in NRC van 27-6-2017.
(met dank aan NRC Media)
NRC 27-6-2016 Minder medicijnen is vaak beter interview Dick Bijl

27-6-2017
Ter aanvulling op mijn bijdrage van 22 juni nog het volgende:
Evidence-based practice (EBP) stoelt in belangrijke mate op de toepassing van statistiek. Zo kan voor een RCT (randomized controlled trial) een t-toets voor onafhankelijke steekproeven (independent-samples t test) gebruikt worden of een variantie-analyse (ANOVA) in het geval van het vergelijken van een effect in meer dan twee groepen, een verschiltoets voor proporties of eventueel een non-parametrische toets.

Bovendien gaat het bij veel toepassingen van statistische methoden en technieken (helaas, wat mij betreft) nog steeds om de traditionele, frequentistische statistiek die gebaseerd is op een nulhypothese en het begrip statistische significantie. Deze vorm van inductieve statistiek ligt steeds meer onder vuur (zie ook elders op deze site) en het alternatief (Bayesiaanse evaluatie van hypothesen) wint dan ook steeds meer terrein.

Maar in de kern gaat het om het volgende: statistiek is een vorm van modelmatig denken over de werkelijkheid en een model kan de werkelijkheid meer of minder goed benaderen maar valt daar nooit mee samen, een model van de werkelijkheid is iets anders dan de werkelijkheid. Het opvatten van uitkomsten van (kwantitatief) empirisch onderzoek als vaststaande waarheden, m.a.w. het verabsoluteren van de uitkomsten van statistische toepassingen, heeft rampzalige gevolgen zoals bijvoorbeeld een doorgeschoten standaardisering, resulterend in dwingende protocollen en richtlijnen. Het is mooi dat de Raad voor Volksgezondheid en Samenleving in haar vorige week verschenen rapport aandacht vraagt voor context en voor verschillen in situaties en patiënten.

Het hanteren van EBP veronderstelt een vermogen (en een leerproces en een leerhouding) om op een correcte manier met modelmatig denken om te gaan en aan dat vermogen annex leerproces/-houding moet naar mijn mening nog veel aandacht besteed worden.

De opmerking in het voorwoord van het betreffende rapport van de Raad voor Volksgezondheid en Samenleving dat we te maken hebben met een “…..onterechte simplificatie van wat goede zorg is” lijkt mij dan ook zeer terecht.

22 juni 2017
Eergisteren verscheen het 92 pagina’s tellende rapport van de Raad voor de Volksgezondheid en Samenleving Zonder context geen bewijs. Over de illusie van evidence-based practice in de zorg, te verkrijgen via:

https://www.raadrvs.nl/publicaties/item/zonder-context-geen-bewijs

of zie de bijlage:

Zonder_context_geen_bewijs

Het stelt de wijze ter discussie waarop doorgaans in de (medische) praktijk van alledag wordt omgaan met het evidence-based beginsel, i.c. met evidence-based practice (EBP) in de zorg (en de bijbehorende protocollen, richtlijnen, kwaliteitsindicatoren, toezichtkaders e.d.).
Naar mijn mening is dit een zeer waardevolle en bijzonder welkome publicatie in een tijd waarin vaak op allerlei gebied en ten aanzien van diverse complexe concepten met betrekkelijk weinig reflectie en bedachtzaamheid wordt omgegaan, of het nu gaat om het evidence-based principe, statistische significantie (en statistiek in het algemeen), kansen en kansrekening, marktwerking e.d.

Ik hoop van harte dat de discussie, die dit rapport ongetwijfeld zal oproepen, niet zal worden versmald tot wel of geen EBP in de zorg of nog erger: wel of geen wetenschap in de zorg. Er is niets mis met EBP op zich, net zo min als er iets mis is met wetenschap, statistiek of kansrekening (of marktwerking). Er is echter wel veel mis met de manier waarop we in de beroepspraktijk met deze concepten en methoden omgaan.

Ik denk ook dat het van belang is dat we zorgvuldig omgaan met de taal die we gebruiken. Zo vind ik het jammer dat in de titel van het rapport het woord ‘bewijs’ gebruikt wordt. Woorden als ‘bewijs’, ‘wetenschappelijk bewezen’, ‘waar’, e.d. kunnen de suggestie wekken  dat er sprake is van definitieve (ultieme) waarheden terwijl het naar mijn mening in de kern gaat om een leerproces waarin we steeds beter met de onzekerheid, die inherent is aan wetenschappelijk onderzoek en statistiek/kansrekening, en aan de toepassing van wetenschappelijke bevindingen in de praktijk van alledag, kunnen omgaan.

Met behulp van statistiek en kwantitatief empirisch onderzoek kun je in meer of mindere mate strong evidence voor een hypothese vinden maar ‘evidence’ heeft toch een andere connotatie dan ‘bewijs’. Ik ben van mening dat we het gebruik van het begrip ‘bewijs’ zouden moeten beperken tot redeneringen in de context van deductieve logica (zoals   in het geval van wiskunde) en niet bij redeneringen die betrekking hebben op inductieve logica, zoals het geval is bij statistiek in relatie tot kwantitatief empirisch onderzoek. Door het begrip ‘bewijs’ te gemakkelijk te gebruiken kunnen al gauw misverstanden ontstaan ten aanzien van de status en reikwijdte van bepaalde uitspraken.

Ik hoop dat de discussie zich zal richten op de volgende twee vragen:
1) wat houdt het begrip evidence-based nu precies in? (zie ook elders op deze site)
2) wat vraagt het van een beroepsbeoefenaar, op welk terrein dan ook, om in de dagelijkse praktijk van menselijk handelen op een zinvolle en correcte manier met wetenschappelijke bevindingen (evidence-based resultaten van wetenschappelijk onderzoek) om te gaan? Welk leerproces dient daaraan ten grondslag te liggen?

In dat opzicht is dit een mooie aanvulling op een recent verschenen artikel in de Volkskrant van 10 juni j.l. (Sir Edmund, p. 10-13, Maarten Keulemans en Els Zweerink: ‘Pas op, cijfers! Lees eerst deze instructies’) waarin volkomen terecht werd ingegaan op de doorgaans gebrekkige omgang met cijfers en statistiek/kansrekening. Helaas werd in het artikel nauwelijks aandacht besteed aan de zogeheten inductieve (verklarende, inferentiële) statistiek terwijl iedereen wel te maken heeft met de toepassing van het evidence-based principe op velerlei gebied. Iets specifieker: het ging in dit artikel hoofdzakelijk om kansrekening en schatten (betrouwbaarheidintervallen) terwijl een groot deel van wetenschappelijk onderzoek op basis van empirisch verkregen data betrekking heeft op het evalueren van hypothesen op grond van die data (toetsen m.b.v. statistische significantie of Bayesiaanse evaluatie van meerdere hypothesen, zie elders op de site).

Hoe moet je als (statistisch weinig onderlegde) burger omgaan met beroepsbeoefenaren die een behandeling/medicatie/ingreep/maatregel of wat dan ook voorschrijven of adviseren omdat het wetenschappelijk zou zijn ‘bewezen’ dat het werkt?

Zie ook:
Sander Voormolen (NRC Media, 20-6-2017):
Artsen moeten minder strikt volgens richtlijnen werken NRC 20-6-2017
en
Sander Voormolen (NRC Media, 20-6-2017):
NRC 20-6-2017 Arts moet minder varen op richtlijnen 
(met dank aan NRC Media)

17 mei 2017
In de NRC van dinsdag 16 mei 2017 staat een artikel van de hand van Jannetje Koelewijn (Binnenland pag.11) onder de titel ‘Arts, volg de wens van het zieke kind’ waarin een kinderneurochirurg in het Erasmus MC  wat specifieker ingaat op de overlevingskans van kinderen die een medulloblastoom hebben, de tumor die de twaalfjarige David had (zie hieronder bij 15 en 16 mei 2017).

(NRC Media, Jannetje Koelewijn, 16-5-2017)
NRC_Handelsblad_David 2e NRC 17-5-2017
(met dank aan NRC Media)

Ook deze informatie, in combinatie met het artikel van Eppo König in de NRC van 13 & 14 mei 2017, laat zien dat we niet te snel moeten uitgaan van het definitieve karakter van  gepresenteerde (overlevings)kansen.

15 en 16 mei 2017
Zoals ik al eerder naar voren heb gebracht (ACTUEEL 30-3-2017, zie hieronder) vormen kansrekening en statistiek op het gebied van ziekte en gezondheid (Health Statistics)  vaak een bron van verwarring, onduidelijkheid en incorrecte interpretaties. In het artikel van Gerd Gigerenzer e.a. uit 2008 (te verkrijgen via de link hieronder) wordt hier uitvoerig op ingegaan.

http://library.mpib-berlin.mpg.de/ft/gg/GG_Helping_2008.pdf

In de week van 8 mei 2017 werd in de media uitgebreid aandacht besteed aan de uitspraak van de kortgedingrechter in Alkmaar dat de twaalfjarige David zelf mag beslissen of hij wel of niet een chemokuur wil ondergaan (Eppo König: ‘David denkt dat hij zonder chemo ook wel overleeft’, in: NRC 13 & 14 mei 2017, In het nieuws pag. 4-5). In dat artikel wordt gesproken over een overlevingskans van 50% zonder chemokuur (details ontbreken , zo is bijvoorbeeld niet duidelijk om wat voor soort overlevingskans het precies gaat, denk bijv. aan de termijn; bij kanker is de vijfjaarsoverlevingskans een veelgebruikte kans). Met een chemokuur van een paar weken, die mogelijk een aantal keren  moet worden herhaald, zou hij 25 tot 30 procent meer kans hebben.

Hoe moeten we deze kansen interpreteren?

Als single-event probabilities? (Een “single-event probability statement .. is defined as a statement in which a probability refers to a singular person or event rather than to a class.” Gigerenzer e.a. 2008: 87).
Het klassieke voorbeeld van zo’n single-event probability is de kans op kop bij het opgooien van een munt of het gooien van een zes met een dobbelsteen). In de beschreven situatie zou de single-event betrekking hebben op het overleven van David.

Het gebruik van een dergelijke kans kan echter de suggestie wekken dat de betreffende kans (hier de overlevingskansen van 50% resp. 75 tot 80%) volledig is toegesneden op een individueel persoon (hier de twaalfjarige David). De berekening van een kans gebeurt echter doorgaans op basis van onderzoek van een (meer of minder grote) groep of groepen , de zogenoemde reference class. Maar dan is de vraag: hoe ziet de betreffende reference class eruit? Hoe homogeen of heterogeen was die qua samenstelling? Bijvoorbeeld: speelt leeftijd een rol bij het ziekte- en genezingsproces van een patiënt met een hersentumor?
Bovendien blijkt het vanuit psychologisch oogpunt zo te zijn dat wanneer een persoon een kans volledig op zichzelf betrekt, zonder een reference class in gedachten, dit van invloed kan zijn op de wijze waarop de betreffende informatie bij die persoon binnenkomt (zie ook hieronder).

Gigerenzer e.a. (2008) stellen in hun artikel dat hier sprake is van een confusing representation of Health Statistics (p. 89) vanwege de onduidelijkheid omtrent de onderliggende referentiegroep en propageren een formulering in termen van een frequentie (“A frequency statement states the risk in relation to a specified reference class”, p. 89).

Ze geven het volgende voorbeeld (p. 87 – 89):
“The ambiguity of the reference class […] can be avoided by making a frequency statement […] when in clinical practice a physician tells a patient: “If you take Prozac, you have a 30 to 50% chance of developing a sexual problem, such as impotence or loss of interest,”this single-event statement invites misunderstanding. […] After learning of this problem, one psychiatrist changed the way he communicated the risk to his patients from single-event statements to frequency statements: “Out of every 10 patients who take Prozac, 3 to 5 experience a sexual problem.” Psychologically that made a difference: Patients who were informed in terms of frequencies were less anxious about taking Prozac. […] The psychiatrist had been thinking of all his patients who take Prozac, whereas his patients thougt of themselves alone. Several studies have shown systematic differences in the interpretation of single-event and frequency statements.”

Vanuit een geheel ander perspectief, namelijk de antroposofische visie op de mens,  kunnen we ook naar kansrekening en statistiek kijken. Al in 1919, in twee voordrachten in Dornach op 1 en 2 november, wees Rudolf Steiner erop dat het blindstaren op statistiek (en getallen in het algemeen) er toe kan leiden dat we in een soort van “begoocheling” terecht kunnen komen en dat we de werkelijkheid die aan die getallen ten grondslag ligt uit het oog kunnen verliezen.
Steiner wist toen niet dat het vak statistiek zich zo sterk zou ontwikkelen want pas rond die tijd, gedurende de jaren ’20 en ’30 van de vorige eeuw, legde Ronald Fisher de basis voor de inductieve (inferentiële, verklarende) statistiek waardoor het toepassen van statistiek en kansrekening ook binnen de mens-, sociale en medische wetenschap een enorm hoge vlucht zou nemen (uit het voorbeeld van toepassing van statistiek dat Steiner in zijn voordracht van 1 november 1919 beschrijft, maak ik op dat hij statistiek identificeerde met beschrijvende statistiek) .
De toepassing van statistische concepten en technieken (zoals ‘statistisch significant’, een theoretisch begrip dat overigens momenteel sterk bekritiseerd wordt, zie elders op deze site) en het denken en communiceren in termen van kansen is uiteindelijk een prominente rol gaan vervullen in ons denken over en het maken van keuzes ten aanzien van o.m. ziekte en gezondheid.

Mijn conclusie is opnieuw: het is van groot belang om uiterst voorzichtig en vooral bedachtzaam om te gaan met kansen en statistiek, zeker als het gaat om ziekte en gezondheid (en uiteindelijk leven en dood). Het antwoord op de vraag: ‘wat zegt een kans precies? welke informatie ligt daarin besloten?’ is lastig om te formuleren.
Statistiek en kansrekening zijn niet meer weg te denken uit onze samenleving maar we dienen er wel met de nodige kennis, reflectie en wijsheid mee om te gaan, hoe lastig dat ook moge zijn.

 30-3-2017
Het is erg lastig, zo niet onmogelijk, om een medische test te ontwerpen die zowel de aanwezigheid (sensitiviteit van een test) als de afwezigheid (specificiteit van een test) van een bepaalde ziekte perfect registreert.
Dit betekent dat er altijd een bepaalde mate van onzekerheid blijft bestaan over wat een specifieke testuitslag (positief in de zin van ongunstig of negatief in de zin van gunstig) inhoudt, een onzekerheid die we met behulp van het kansbegrip tot uitdrukking kunnen brengen (al is dit verre van eenvoudig).
In de bijlage wordt hierop, in het kader van het bevolkingsonderzoek darmkanker, nader ingegaan.

Inmiddels heeft de programmaleider bevolkingsonderzoek darmkanker laten weten dat mijn bevindingen zullen worden meegenomen bij de evaluatie van de voorlichtingsmaterialen voor 2019 en wellicht aanleiding kunnen geven tot aanpassing van de voorlichtingsmaterialen en/of de website van het RIVM (Rijksinstituut voor Volksgezondheid en Milieu).

RIVM Darmkanker bevolkingsonderzoek (1) maart 2017

De gegevens van het RIVM waarop de berekeningen zijn gebaseerd zijn te vinden via:

http://www.rivm.nl/Onderwerpen/B/Bevolkingsonderzoek_darmkanker/Wat_is_darmkanker

http://www.rivm.nl/Onderwerpen/B/Bevolkingsonderzoek_darmkanker/Wel_of_niet_meedoen/De_ontlastingstest_iFOBT

20-10-2016
The first European Statistics Day!

http://ec.europa.eu/eurostat/web/ess/european-statistics-day

16-10-2016
Een interview met prof. Jan-Willem Romeijn over wetenschap, statistiek en filosofie.

http://sadh.nl/2015/12/28/sadh-live-deel-3-over-wetenschap-met-jan-willem-romeijn/

11-10-2016

Opnieuw een mooi voorbeeld van de wijze waarop zowel theoretische aannames als observaties (data) een rol spelen bij het formuleren van onderzoeksconclusies  op basis van empirisch onderzoek.
De mens zal niet ouder worden dan 115 jaar (1)
bron: NRCHandelsblad
auteur: Hester van Santen
datum: 7 oktober 2016
(met dank aan NRC Media)

31-8-2016

Het onderzoek van de TU Delft (zie Actueel van 28-8-2016) laat weer eens zien wat een statistisch model inhoudt: een verzameling aannames omtrent het proces dat aan de data ten grondslag ligt, dat verondersteld wordt de data te genereren. Omdat het situaties betreft waarin toeval een rol speelt zijn er altijd kansverdelingen bij betrokken.
In het onlangs gepubliceerde boek ‘Inleiding in de Statistiek’ (Fetsje Bijma, Marianne Jonker en Aad van der Vaart, Epsilon Uitgaven, Utrecht 2013) luidt de eerste zin:
“Statistiek is de kunst van het modelleren (wiskundig beschrijven) van situaties waarin toeval een rol speelt, en van het trekken van conclusies op basis van data die zijn waargenomen in dergelijke situaties.” (pag. 1)
Met andere woorden, van de data alleen kan niets geleerd worden, er moet vooraf een statistisch model worden gekozen om een conclusie te kunnen formuleren. Zoals Jan-Willem Romeijn, thans hoogleraar wetenschapsfilosofie in Groningen, in zijn proefschrift uit 2005 (Bayesian Inductive Logic. Inductive predictions from statistical hypotheses) stelt: we moeten empirische wetenschap zien als een coproductie: zowel observatie als theorie hebben een eigen en onafhankelijke inbreng op wetenschappelijke inzichten (Romeijn 2005:244).
De tijd lijkt rijp om in het statistiekonderwijs de stap te zetten van een procedurele, min of meer rule-driven en mechanische aanpak van het vak naar het ontwerpen en evalueren van statistische modellen in specifieke onderzoekssituaties.

28-8-2016
In een nieuwsbericht van de Nationaal Coördinator Groningen (NCG) van 18-08-2016 is te lezen dat er kritische kanttekeningen worden gesteld bij de conclusie van een onderzoek dat in 2015 door Arcadis (in opdracht van de NAM) is uitgevoerd. Dat onderzoek betrof schademeldingen afkomstig van buiten de contour van het schadeafhandelingsgebied Groningen. Daartoe heeft Arcadis in elf gebieden rondom deze contourlijn in totaal 70 gebouwen onderzocht. De conclusie luidde dat de kans op schade door aardbevingen aan alle gebouwen in de onderzoeksgebieden aan de rand van het Groninger gasveld verwaarloosbaar klein is. Onderzoekers van de TU Delft hebben, in opdracht van de NCG, een validatieonderzoek uitgevoerd en concluderen dat de steekproef die Arcadis nam te klein is om aardbevingen als oorzaak voor schade aan gebouwen in het buitengebied stelselmatig uit te sluiten.
Zie ook onderstaande website
https://www.nationaalcoordinatorgroningen.nl/actueel/nieuws/2016/augustus/18/validatie-onderzoek-contouren
en de volgende link voor een artikel van Jurre van den Berg in de Volkskrant van 20 augustus 2016:
http://www.volkskrant.nl/binnenland/tu-delft-kraakt-onderzoek-van-nam-over-schade-na-bevingen~a4361118/
(met dank aan de Volkskrant voor het beschikbaar stellen van de link)

Welke statistiek ligt ten grondslag aan deze kritiek?

De onderzoekers van de TU Delft gebruikten een binomiale kansverdeling (zie onder kansen en kansverdelingen op deze website en de website onderaan voor meer informatie over deze kansverdeling) om op basis van het werkelijke aandeel oorzakelijke schades (= schades veroorzaakt door aardbevingen) in de totale populatie schademeldingen (1000) de kans te bepalen dat er in de steekproef van 70 geen oorzakelijke schades worden waargenomen. Omdat het werkelijke aandeel onbekend is hebben de onderzoekers het aandeel gevarieerd van 1% tot 50% (1%, 2%, 4%, 5%, 10%, 20% en 50%, zie ook tabel 2 op pag. 27 van het onderzoeksrapport van de TU Delft dat te vinden is op bovenstaande website).
Verder gaan ze ervan uit dat, om met voldoende betrouwbaarheid een uitspraak te kunnen doen, je vooraf een kleine kans moet bepalen om een oorzakelijke schade in de steekproef over het hoofd te zien.
Ze gebruiken het vaasmodel om een en ander toe te lichten: je kunt de situatie vergelijken met een vaas met 1000 ballen (de populatie van schademeldingen) waaruit je 70 ballen trekt (de steekproef). Afhankelijk van het aandeel oorzakelijke schades kun je een aantal witte (geen oorzakelijke schade) en rode (oorzakelijke schade) ballen onderscheiden. Bijv.: stel het aandeel oorzakelijke schades is 5%, dan zitten er in de vaas 950 witte en 50 rode ballen. Als je één keer aselect 70 ballen uit de vaas haalt, hoe groot is dan de kans dat je 0 rode ballen aantreft?
(zie het rapport van de TU Delft, pag. 26).
De tabel 2 op pag. 27 geeft antwoord op deze vraag en tabel 3 laat zien hoe groot de steekproef minimaal moet zijn – gegeven een bepaald aandeel oorzakelijke schades – om met een kans van ten hoogste 5% geen oorzakelijke schade in de steekproef aan te treffen.

Voor de berekeningen kun je gebruik maken van software, bijv. R, zie  https://www.r-project.org/

dbinom(0, 70, 0.01) geeft 0.4948387
dbinom(0, 70, 0.02) geeft 0.2431226
dbinom(0, 70, 0.04) geeft 0.05740984
dbinom(0, 70, 0.05) geeft 0.02758369
dbinom(0, 70, 0.1) geeft 0.0006265787
dbinom(0, 70, 0.2) geeft 1.645505e-07
dbinom(0, 70, 0.5) geeft 8.470329e-22

en voor het bepalen van de vereiste steekproefomvang http://www.quantitativeskills.com/sisa/rojo/distribs.htm

de kansen vinden we weer m.b.v. R:

dbinom(0, 300, 0.01) geeft 0.04904089
dbinom(0, 149, 0.02) geeft 0.04928165
dbinom(0, 73, 0.04) geeft 0.05079255
dbinom(0, 59, 0.05) geeft 0.04849453
dbinom(0, 29, 0.1) geeft 0.04710129
dbinom(0, 14, 0.2) geeft 0.04398047
dbinom(0, 5, 0.5) geeft 0.03125

Op basis van het gehanteerde statistisch model, de keuze voor een kleine kans (0.05, vergelijk het veelgebruikte significantieniveau) om oorzakelijke schades in de steekproef over het hoofd te zien en de uitkomsten van de berekeningen komen de onderzoekers van de TU Delft tot de conclusie dat bij een steekproefomvang van 70 “niet met voldoende betrouwbaarheid uitspraken gedaan kunnen worden over de afwezigheid van een oorzakelijke relatie in de totale populatie.” (rapport TU Delft pag. 27)

Voor informatie over de theorie van de binomiale kansverdeling, zie:
http://www.itl.nist.gov/div898/handbook/eda/section3/eda366i.htm

22-6-2016
Kritiek op de conventionele (frequentistische) statistiek dateert niet van vandaag of gisteren maar wordt wel steeds vaker voor een groter publiek uit de doeken gedaan, zie de bijlage.
Het artikel (“De val van het P-getal”) verscheen in NRC Handelsblad van 18& 19 juni 2016 en is geschreven door Ellen de Bruin.
NRC 18 juni 2016 p-waarde
(met dank aan de redactie van NRC Handelsblad voor toestemming om het hier te plaatsen)

Zie voor meer informatie de website van de American Statistical Association
www.amstat.org
onder ‘ASA’s Statement on P-Values and Statistical Significance

22-6-2016
Gisteren bij de  RTL Late Night Show: over een onderzoek (Erasmus Medisch Centrum) naar het positieve effect van muziek bij de behandeling van patiënten.
Er werd gesproken over het moment waarop naar verwachting – middels evidence-based practice – kan worden ‘bewezen’ dat de uitspraak over het vermeende positieve effect ‘waar’ is.
Een paar kanttekeningen:
1) met empirisch onderzoek kun je hooguit aantonen dat de data een bepaalde hypothese ondersteunen (of niet). Maar termen als ‘bewijzen’ en ‘(on)waar’ zijn in dit verband niet op hun plaats, ook al is het onderzoek evidence based.
2) op de conventionele methode waarmee wordt onderzocht of de data een bepaalde hypothese ondersteunen, is veel kritiek losgekomen (zie ook hierboven).
Conclusie: de uitkomsten van onderzoek worden over het algemeen veel te stellig geformuleerd en voorzichtigheid is geboden!
(Let wel, ik doe geen uitspraak over de inhoud van het onderzoek, het zou wel eens heel waardevol kunnen zijn)