Une chance sur deux

Tout à sa joie d’avoir des bébés ratons, l’éleveur amateur entreprend gaillardement d’émettre des pronostics chiffrés sur le résultat de la portée, s’appuyant en cela sur une connaissance de la génétique qu’il maîtrise, bien sûr, sur le bout des doigts.

Et puis, les petits naissent, et bien sûr… ils ne sont jamais comme prévus. Ces mathématiciens sont vraiment tous des voleurs (et ces éleveurs, des incompétents crasses qui la ramènent avec leurs prévisions pourries).

Ce premier article introductif est consacré à quelques notions simples de probabilités et de statistiques appliquées aux rattus. Ou, pour parler simple : comment passe-t-on de « une chance sur deux » à « 50% de la portée » ? Est-ce que c’est bien vrai ça ? Faut-il brûler tous les mathématiciens ?

Une chance sur deux

Commençons par un exemple simple : mâle ou femelle ? Sans vouloir trop m’avancer, il me semble que tout le monde s’accordera sur le fait qu’un raton a, a priori, une chance sur deux d’être un mâle, une chance sur deux d’être une femelle. (C’est vrai à un tout petit quelque chose près, n’ergotons pas, sinon on n’arrivera jamais à rien !). De là, on déduit en toute quiétude la prévision en apparence logique, mais en réalité tout-à-fait audacieuse, qu’une portée sera constituée de 50% de mâles et 50% de femelles. C’est même tellement évident qu’on ne l’écrit même plus !

Maintenant, prenons deux ratons. Nous avons d’ores et déjà prévu qu’il y aurait un mâle et une femelle. Pourtant, quatre cas sont possibles :

  • que le premier soit une fille et le second un garçon ;
  • que le premier soit un garçon, et le deuxième une fille ;
  • que les deux soient des filles ;
  • que les deux soient des garçons.

Autrement dit, il y a exactement autant de chances d’avoir un mâle et une femelle, que d’avoir deux ratons du même sexe. Notre prévision « 50-50 » ne veut rien dire du tout, elle favorise artificiellement une possibilité parmi deux (sexes différents vs. sexes identiques), alors que les deux ont exactement la même chance de se produire.

Mais il y a pire ! Je saute sur le cas de trois ratons : un nombre impair n’est pas divisible par 2, on ne risque pas d’avoir 50%, mais ce serait de la mauvaise foi, pas vrai ? Prenons plutôt quatre ratons. Notre prévision nous dit : deux femelles, deux mâles. (2 = 4 x 50%). Pour y voir plus clair, nous allons faire un petit tableau, et compter sur nos doigts.

 Raton n°1Raton n°2Raton n°3Raton n°4
Cas 1MMMM
Cas 2MMMF
Cas 3MMFM
Cas 4MMFF
Cas 5MFMM
Cas 6MFMF
Cas 7MFFM
Cas 8MFFF
Cas 9FMMM
Cas 10FMMF
Cas 11FMFM
Cas 12FMFF
Cas 13FFMM
Cas 14FFMF
Cas 15FFFM
Cas 16FFFF

Je vous préviens tout de suite, niveau tableau on s’arrête à quatre !

Que voit-on sur ce tableau ? Chaque ligne correspond à un cas possible de répartition des sexes. Chaque colonne correspond à un raton, qui a une chance sur 2 d’être un mâle ou une femelle, individuellement. Il y a 16 cas possibles de sexage (je vous laisse vérifier que je n’en ai oublié aucun, mais ne perdez pas trop de temps dessus, je suis assez sûre de moi), mais on peut les regrouper suivant le nombre total de mâles et de femelles :

  • Quatre mâles : un cas sur 16 (cas n°1)
  • Trois mâles et une femelle : 4 cas sur 16 (cas n°2, 3, 5 et 9)
  • Deux mâles et deux femelles : 6 cas sur 16 (cas n°4, 6, 7, 10, 11 et 13)
  • Un mâle et trois femelles : 4 cas sur 16 (cas n°8, 12, 14 et 15)
  • Quatre femelles : 1 cas sur 16 (cas n°16)

Autrement dit, il y a 6/16 = 37,5% de chances d’avoir une répartition égale des sexes, et … 10/16 = 62,5% de chances d’avoir une répartition inégale des sexes. Il y a beaucoup plus de chances d’avoir une répartition inégale qu’une répartition moitié-moitié ! En particulier, il y a une chance sur 2 d’avoir une répartition 25-75 (une femelle et trois mâles, ou trois femelles et un mâle), ce qui est bien supérieur aux chances d’avoir une répartition 50-50. Devrait-on écrire dans les prévisions : « 25% femelles, 75% mâles, ou alors l’inverse » ? C’est moche !

Décrire et quantifier les probabilités

Pour aller plus loin, et éviter d’écrire des tableaux avec des milliers de lignes (en plus, on n’aura pas assez de doigts pour compter), il faut introduire un peu de vocabulaire et quelques notions mathématiques simples (promis).

Chaque raton est la réalisation (c’est-à-dire, un « tirage », un exemple) d’une variable aléatoire, que l’on va noter S, qui gouverne la probabilité qu’il soit un mâle ou une femelle. Si n est le numéro du raton, on va noter :

  • Sn son sexe (nième valeur de S)
  • P(Sn=M) la probabilité qu’il soit un mâle, et qu’on va noter p
  • P(Sn=F) la probabilité qu’il soit une femelle.

Si on appelle p la première probabilité P(Sn=M), la seconde vaut forcément (1-p), car leur somme doit faire 1 (un raton est forcément un mâle ou une femelle). Connaissant p (qui, dans notre cas, vaut p=1/2 : 1 chance sur 2 d’être un mâle), la loi de probabilité du sexe du raton est parfaitement connue, et on l’appelle loi de Bernoulli de paramètre p.

Supposons maintenant que nous avons, disons, une douzaine de ratons. Nous avons donc 12 valeurs S1, S2, S3… jusqu’à S12, qui suivent toutes une loi de Bernoulli de paramètre 1/2. Ce qui nous intéresse, c’est le total, disons, de mâles. Pour compter plus facilement, on va dire que M=1 et F=0 (n’y voyez aucun sexisme, l’inverse serait strictement identique), de sorte que le nombre de mâles M = S1 + S2 + … + S12. M est une nouvelle variable aléatoire. C’est sa loi de probabilité qui nous intéresse : nous voulons prévoir combien nous aurons de mâles. Je vais vous épargner le calcul, mais il se trouve que c’est aussi une loi que l’on connaît bien, la somme de variables de Bernoulli, tellement bien qu’on lui a donné un nom : la loi binomiale. Et on sait la calculer pour n’importe quel paramètre p, et n’importe quel nombre de ratons.

Comme en images c’est mieux, voici la loi du binome de paramètre 1/2, pour 12 ratons. Sur l’axe horizontal, le nombre de mâles, et sur l’axe vertical, la probabilité qu’il y ait ce nombre de mâles dans une portée de 12 ratons.

binomiale12

La probabilité maximale est bien atteinte à 6 mâles sur 12 rats, mais de part et d’autre, elle ne décroît pas très vite. Il est presque aussi probable d’en avoir 5 ou 7 qu’en avoir 6. Et nous le vérifions chaque jour dans les pages « naissances » de notre forum ratounesque favori.

Encore plus de ratons !

Mais alors, quel est ce tour de passe-passe qui permet de passer de « une chance sur deux » à « 50% », sans être complètement dans le faux, même d’un point de vue théorique, et avec quelles limites ? Essayons d’expliquer ça d’un peu plus près (ou : pourquoi les mathématiciens n’ont pas complètement tort, mais pourquoi il ne faut pas leur faire dire ce qu’ils ne disent pas).

Reprenons notre loi binomiale et, cette fois, au lieu de prendre 12 ratons, utilisons-là pour calculer la probabilité d’avoir un certain nombre de mâles parmi 100 rats (en continuant à considérer que chacun d’entre eux a toujours, individuellement, une chance sur deux d’être un mâle). Sur 100 ratons, la prédiction « moitié moitié » semble « plus vraie » !

binomiale100

En effet, les probabilités semblent se concentrer davantage autour du maximum (qui est bien à 50 sur 100), décroissant bien plus vite à gauche et à droite du pic. En gros, on a la sensation de ne pas trop se tromper en pronostiquant une répartition entre 40 et 60. Et c’est encore pire avec 1000 rats :

binomiale1000

Cette fois, les probabilités d’avoir moins de 450 mâles, ou plus de 550, semblent quasiment nulles. Le pic à 50% est fait… comme un rat ! Et on pourrait continuer comme ça longtemps (jusqu’à ce que mon programme de goret commence à produire des erreurs numériques à cause des groooosses puissances de 2 que je n’ai pas simplifiées).

Simulations

Mais il y a encore pire.

Car outre la théorie (rigoureuse, les courbes ci-dessus sont produites avec des formules de calcul exactes et démontrées), il va encore s’introduire une couche de brouillard. C’est que nous n’observons, nous, qu’un tout petit bout du phénomène. Nous pouvons essayer de reproduire ces courbes théoriques par l’observation, en recensant nos rats et en les comptant. Mais chacun d’entre eux étant une réalisation particulière du processus aléatoire, nous n’observons pas le processus complet. Seulement des exemples.

Nous pouvons reproduire ce phénomène avec un ordinateur. Nous allons produire aléatoirement des ratons virtuels, chacun ayant une chance sur deux d’être un mâle ou une femelle, et les compter, puis nous allons comparer l’écart entre notre simulation, et ce que prévoit la formule théorique. Précisément, je « réalise » un certain nombre de « portées virtuelles de 12 ratons », je compte le nombre de mâles dans chacune d’entre elles, puis je compte le nombre de portées où il n’y a pas de mâles, le nombre de portées où il y en a 2, le nombre de portées où il y en a trois… et je range tout ça dans l’histogramme que voici, sur lequel je superpose, en rouge, la courbe prévue par la théorie.

simu12

On est assez loin du compte, avec notre simulation. Le maximum est à 7 mâles, et il y a moitié moins de portées avec 5 mâles que prévu. On a pourtant 1200 rats virtuels en tout, c’est pas mal, mais le fait d’en avoir fait des paquets de 12 fait qu’on a de plus grandes chances d’être à côté de la théorie en faisant nos statistiques. Et l’image ci-dessus n’est qu’un exemple de réalisation. En faisant tourner mon programme plusieurs fois de suite, je suis même tombée sur des cas où aucune des 100 portées virtuelles ne contenait, par exemple, 4 ou 5 mâles, ou bien où le maximum était à 8 mâles !

Et si, à nouveau, nous faisons des paquets de 100 ?

simu100

Ah, tout de suite ça va mieux ! Alors ça ne colle pas encore parfaitement (100, c’est encore un petit nombre, pour un mathématicien. Par contre, on a quand même 10000 rats virtuels, là… c’est pas dans la vraie vie qu’on les aurait, vive l’informatique), mais on sent bien que ce qu’on observe colle mieux à la théorie.

Pas assez de ratons

Ce mélange de théorie et de simulation nous fait bien sentir le noeud du problème : ce qu’on appelle parfois (sans toujours savoir de quoi on parle, et d’ailleurs je ne vais pas vous l’expliquer maintenant) la loi des grands nombres. Sous certaines hypothèses quant au phénomène que l’on observe, on peut effectivement passer mathématiquement d’une chance sur deux « individuelle » à une statistique « collective », à la condition d’avoir un très grand nombre d’observations. On peut alors même précisément chiffrer l’erreur que l’on fait entre la théorie et la réalité qu’on observera, et cette erreur peut devenir très petite. Elle est, grosso modo, proportionnelle à un truc qu’on appelle la variance, et inversement proportionnelle à la racine carrée du nombre de ratons. Avec douze ratons, l’incertitude sur notre prévision du nombre de mâles (ou des poils, ou des oreilles, ou de la couleur), que l’on peut calculer précisément (je vous l’épargne) vaut… plusieurs ratons !

Aussi, dans une prévision de portée entre disons, deux porteurs dumbo, il est parfaitement exact de dire que chaque raton a une chance sur 4 d’être dumbo, mais en déduire que 25% de la portée sera dumbo est une approximation, qui s’appuie sur une théorie mathématique solide valable pour des grands nombres que nous n’atteignons pas dans notre pratique d’amateurs. C’est un repère, ce n’est pas idiot, on ne peut pas faire mieux, mais ce n’est qu’un ordre de grandeur très flou. Il n’y a pas assez de ratons dans une portée pour faire des statistiques.

De toute manière, il n’y a jamais assez de ratons.

Top