kansverdelingen

Na een bespreking van het kansbegrip volgt het onderwerp kansverdeling: een weergave van de mogelijke uitkomsten van een experiment of onderzoek en de daarbij behorende kansen. Zoals eerder gesteld rust het gebouw van de statistiek op twee pijlers: de data en een of meer specifieke kansverdelingen. In de praktijk van statistisch onderzoek komt het erop neer dat je probeert een kansverdeling te vinden die zo goed mogelijk bij de data past. Bij het statistisch modelleren van de werkelijkheid gaat het om de volgende elementen:
– een proces (of systeem) in de werkelijkheid waarin we geïnteresseerd zijn (bijv. de fysieke eigenschappen van een munt)
– de data (bijv. na 20 keer gooien vinden we 5 keer kop en 15 keer munt)
– een of meer specifieke kansverdelingen met bijbehorende karakteristieke waarden (parameters) waarbij we veronderstellen (het modelmatige aspect) dat de kansverdeling de data genereert (in dit eenvoudige voorbeeld: de binomiale kansverdeling met als parameter de ware proportie ‘kop’ van de munt).

Zie ook het volgende citaat uit mijn boek uit 2012 (Rob Flohr. De Bayesiaanse benadering. Basisprincipes en -technieken van de Bayesiaanse statistiek. Den Haag: Academic Service):

Discrete en continue kansvariabelen, kansdichtheid
Een kansvariabele of stochastische variabele (of kortweg stochast; andere veelgebruikte
termen zijn toevalsvariabele en random variable) heeft betrekking op de mogelijke
uitkomsten van een kansexperiment. Een discrete
kansvariabele kan slechts een beperkt aantal waarden aannemen. We noemen als
voorbeelden: het aantal defecte producten, het geslacht van werknemers, het aantal
passerende auto‟s, het aantal klanten. Een continue kansverdeling daarentegen, kan in
principe oneindig veel waarden aannemen. Denk bijvoorbeeld aan kansexperimenten die
betrekking hebben op gemeten tijd zoals de tijd tussen twee inkomende telefoontjes bij de
ANWB, of die betrekking hebben op gemeten gewicht, afstand, lengte, temperatuur en
dergelijke. Nemen we als voorbeeld de tijd die geregistreerd wordt tussen twee
inkomende telefoontjes. Stel dat we twee gemeten tijden vaststellen, bijvoorbeeld 1,26 en
2,33 minuten, dan zouden er in principe oneindig veel waarden tussen die twee getallen
gemeten kunnen worden. Het hangt er maar vanaf hoe nauwkeurig je wilt meten, maar in
principe is bijvoorbeeld 1,283374665….minuten als meetwaarde mogelijk. Het gevolg is
dat we niet meer kunnen spreken over de kans op één bepaalde waarde van de
kansvariabele (zoals dat wel kan bij een discrete kansvariabele) maar slechts over de kans
dat de kansvariabele een waarde aanneemt in een bepaald interval zoals de kans dat de tijd
tussen twee inkomende telefoontjes valt in het interval 1,00 – 1,99 minuten. Deze kans
wordt dan gerepresenteerd door de oppervlakte van het gebied onder de grafiek van de
betreffende kansfunctie in dat interval. (In het algemeen gesproken beschrijft een
kansfunctie de kansen op de mogelijke uitkomsten van het betreffende kansexperiment).

Om het specifieke karakter van een continue kansvariabele aan te duiden, spreken we in
dat geval van een kansdichtheidsfunctie en van kansdichtheid. Je kunt het je zo
voorstellen dat, bijvoorbeeld in het geval van de gemeten tijden tussen twee inkomende
telefoontjes, je eerst een histogram maakt met op de horizontale as de tijdsintervallen en
op de verticale as de relatieve frequenties van de waarnemingen per interval. De
oppervlakte van elke staaf geeft de proportie weer van de waarnemingen die in het
betreffende interval liggen. Wanneer we nu de intervallen steeds kleiner maken en naar
nul laten tenderen, gaat het histogram over in een vloeiende curve, de
kansdichtheidsfunctie, waarbij de oppervlakte van elke staaf overgaat in de oppervlakte
onder de curve voor het betreffende interval. De hoogte van de curve voor elk punt geeft
dan geen kans weer (die is nul) maar de kansdichtheid. In de Angelsaksische literatuur
heet de kansdichtheidsfunctie probability density function (pdf), terwijl de kansfunctie
voor een discrete kansvariabele probability mass function (pmf) genoemd wordt.
Om het wiskundig gezien wat formeler uit te drukken: de kansdichtheid is een limiet.

Om kansen uit te rekenen moeten we dus de oppervlakte van een bepaald gebied onder de
kansdichtheidsfunctie vinden dat correspondeert met een interval op de horizontale as. De
wiskundige bewerking die daarvoor nodig is, heet integreren.

De betreffende wiskundige uitdrukkingen kun je in de bijlage hieronder vinden.
Formules

Voor berekeningen met verschillende kansverdelingen:
http://www.quantitativeskills.com/sisa/rojo/distribs.htm

Voor informatie over de verschillende soorten kansverdelingen:

http://www.quantitativeskills.com/sisa/rojo/distribs.htm

http://www.itl.nist.gov/div898/handbook/eda/section3/eda366.htm

https://docs.oracle.com/cd/E12825_01/epm.111/cb_user/frameset.htm?apas02s02.html

Introductory Statistics – Ch. 5 Probability Distributions

https://www.youtube.com/watch?v=yng9pQQmJUE

Probability Density Functions

https://www.khanacademy.org/math/probability/random-variables-topic/random-variables-prob-dist/v/probability-density-functions