La famille tuyau-de-poêle : consanguinité d’une souche frère-soeur

Vous qui entrez ici, abandonnez toute espérance ! Ce petit article bonus est réservé à ceux de mes lecteurs qui ont le goût des maths (niveau baccalauréat scientifique, voire premier cycle universitaire). Ou ceux qui se demandent encore pourquoi on les a torturés avec ces fichues suites récurrentes et ces maudits discriminants de polynôme sans jamais leur expliquer à quoi ça pouvait-y donc bien servir. Si vous êtes allergique aux maths, vous avez le droit de quitter la page maintenant !

Calculer la consanguinité dans une grande population

Dans le cas général, si l’on prenait toutes les fiches du LORD pour les mettre en tableau par exemple, les logiciels sont certainement le meilleur choix, car il n’existe pas de formule générale donnant la consanguinité d’un rat juste en fonction de sa génération (surtout que les rats d’une même génération n’ont certainement pas tous le même taux de consanguinité, forcément). Comme la méthode des chemins est exclue sur de grands arbres, il faut se trimballer ses équations sur les taux de parenté, et calculer de proche en proche, avec des tableaux de plus en plus grands, et de très nombreux calculs. À la main, ça devient rapidement laborieux (même si rigoureux et méthodique). Heureusement, dans le cas général, les portées consanguines sont rares, et il y a beaucoup, beaucoup de zéros dans les cases du tableau, ce qui permet d’économiser un peu ses forces.

Les logiciels sont généralement programmés avec diverses astuces matricielles (qui dépassent largement le cadre d’un site internet grand public, et qui n’ont pas beaucoup d’intérêt pour notre sujet) qui peuvent accélérer les choses. Le problème, c’est qu’ils sont conçus pour aller vite dans des cas classiques avec beaucoup de croisements (non consanguins). Plus le cas est particulier et consanguin, et plus ils vont mouliner dans la semoule. Quelques simples tests sur un logiciel permettent rapidement de se convaincre de la lenteur de la méthode générale sur des cas particuliers.

En revanche, on peut imaginer qu’une population plus structurée et plus consanguine, comme une lignée ou une souche, ne se comporte pas tout-à-fait de la même manière qu’une population quelconque à grand brassage. Et plus la méthode d’élevage déployée est régulière et structurée, plus on va se retrouver à faire bêtement le même calcul de très nombreuses fois à la suite. Si on est un peu curieux (ou pas très patient), on peut avoir envie de faire mieux que ça, et d’exploiter justement la structure particulière d’un arbre généalogique pour calculer plus rapidement.

La souche frère-sœur

Si on est un laboratoire, ou qu’on veut vraiment aller à l’économie des effectifs et n’avoir aucun ami, ou qu’on a lu plein de choses sur les effets magiques de la consanguinité (mettre en lumière les faiblesses, épurer la lignée, tout ça tout ça) sans bien les digérer, le schéma le plus simple et rapide est de prendre un couple de départ (on peut difficilement démarrer un élevage avec moins, vous en conviendrez), obtenir des petits, marier un frère et une sœur de cette portée, obtenir une nouvelle portée, marier un frère et une sœur de cette nouvelle portée, et recommencer aussi longtemps qu’on gagne. Si je nomme F et M la femelle et le mâle de mon couple de départ, puis F0 et M0 deux de leurs enfants, que je marie pour obtenir F1 et M1, qui s’accouplent aussitôt pour donner F2 et M2, et ainsi de suite, je suis en train de construire une souche, une sous-population de rats tous descendants du couple de départ et produits par des mariages consanguins, de plus en plus consanguins. Voici le schéma de croisement pour 5 générations, que l’on peut imaginer prolonger très aisément, au moins sur la feuille :

arbresouche

La souche n’est pas qu’une vue de l’esprit : depuis le début du vingtième siècle, un certain nombre de souches de laboratoires sont reproduites en suivant ce mode (par exemple, la souche King Albino initiée par Helen Dean King à partir de 1909). Malheureusement, certains amateurs semblent également jouer à ce jeu, et je leur souhaite bien du courage, étant donné les quelques chiffres que nous allons prochainement examiner.

Imaginez maintenant que je vous demande de me donner le taux de consanguinité de la cinquantième génération produite par la répétition du schéma ci-dessus. Qu’allez-vous faire : méthode des chemins ? un vrai arbre généalogique sur 50 générations, ça va prendre de la place. Une méthode tabulaire ? Avec deux rats par génération, nous allons avoir un tableau de parenté de 100 cases x 100 cases dont il faudra remplir une grosse moitié, soit un peu plus de 5000 cases à remplir, ce qui demande une motivation certaine. Il nous reste le logiciel. Le problème, c’est que le logiciel est bête comme ses pieds. Rapide, puissant, mais bête comme ses pieds. Je lui ai demandé. Il m’a calculé 18 générations en 24 heures, et ça commençait à être de pire en pire. Je me suis dit que je n’allais pas attendre 3 jours de plus et qu’il y avait forcément un moyen de faire mieux que ça, avec un arbre aussi simple, régulier, économe en créativité.

Un peu de modélisation

Quand l’ordinateur est trop bête pour faire rapidement quelque chose, il reste une solution : le papier, le crayon et la matière grise (et les notations et équation de l’article sur la méthode tabulaire, que nous allons réutiliser). Nous avons pour ça un atout : dans le cas de la souche frère-sœur, on connaît parfaitement les fonctions π (père) et μ (mère) en fonction de la génération, et la régularité du schéma (donc par exemple, le fait que le taux de consanguinité ne dépend, clairement, que de la génération puisqu’il sera le même pour le frère et la sœur de la même portée), pour écrire des formules de récurrence, c’est-à-dire les consanguinités et parentés d’une génération en fonction de la consanguinité et la parenté de la génération précédente (ou de quelques unes des précédentes) ; puis, si possible, une formule qui va nous donner directement la consanguinité en fonction du numéro de la génération n. Il s’agit donc d’écrire des suites récurrentes, et d’essayer de les démêler pour en connaître le terme général.

Dans le cas de la souche frère-sœur, les fonctions père et mère sont on ne peut plus simples :

\pi(Fn) \;= M(n-1)\\\mu(Fn) \;= F(n-1)\\\pi(Mn) = M(n-1)\\\mu(Mn) = F(n-1)

ce qu’on peut résumer simplement en une seule formule par :

F(n-1) \times M(n-1) \rightarrow \big(Fn,Mn\big)

Il va aussi nous falloir des initialisations :

  • F et M sont les parents de F0 et M0,
  • α(F)=α(M)=0 (on suppose que les membres du couple fondateurs ne sont pas consanguins),
  • Φ(F,F)=Φ(M,M)=1/2 (pour la même raison que le point précédent),
  • Φ(F,M)=0 (on suppose que les membres du couple fondateur ne sont pas apparentés),
  • α(1)=Φ(F0,M0)=1/4 (F0 et M0 sont frère et sœur).

Et on a tous les ingrédients pour faire un joli calcul !

Un peu de calcul

Écrivons la consanguinité à la génération (n+1), indifféremment pour un mâle ou une femelle :

\alpha(n+1)= \alpha\big(F(n+1)\big)=\Phi (Fn,Mn)

Fn et Mn ne sont pas parents l’un de l’autre, donc je peux appliquer la relation de récurrence sur leur parenté :

\Phi(Fn,Mn) = \frac{1}{4}\;\Phi\big(\pi(Fn),\pi(Mn)\big) + \frac{1}{4} \;\Phi\big(\pi(Fn),\mu(Mn)\big)\ldots
\ldots + \frac{1}{4}\;\Phi\big(\mu(Fn),\pi(Mn)\big) + \frac{1}{4} \;\Phi\big(\mu(Fn),\mu(Mn)\big)

Je connais parfaitement les fonctions π et μ, donc je peux remplacer :

\Phi(Fn,Mn) = \frac{1}{4}\Phi\big(M(n-1),Mn\big) + \frac{1}{4}\Phi\big(M(n-1),Fn\big)\ldots \ldots + \frac{1}{4}\Phi\big(F(n-1),Mn\big) + \frac{1}{4}\Phi\big(F(n-1),Fn\big)

Et là, il se produit une chose intéressante : on ne fait apparaître que des parentés entre parent et enfant ! Pour chacun des quatre termes au-dessus, je peux donc appliquer la relation de récurrence correspondante. Pour le premier par exemple :

\Phi(M(n-1),Mn) = \frac{1}{2}\Phi\big(M(n-1),\pi(Mn)\big) + \frac{1}{2}\Phi\big(M(n-1),\mu(Mn)\big)
=\frac{1}{2}\Phi\big(M(n-1),M(n-1)\big)+\frac{1}{2}\Phi\big(M(n-1),F(n-1)\big)

Φ(M(n-1),M(n-1)) est une parenté entre un individu et lui-même, je sais donc l’exprimer en fonction du taux de consanguinité de cet individu, qui vaut par définition α(n-1). Quant au deuxième terme, ce n’est autre que le taux de consanguinité de la génération n, par définition ! Donc :

\Phi(M(n-1),Mn) = \frac{1}{4} \big(1+\alpha(n-1)\big) + \frac{1}{2} \alpha(n)

Je fais de même pour les trois autres termes de l’équation me donnant Φ(Fn,Mn), qui valent tous la même chose. Je multiplie par 1/4 et j’additionne les quatre termes (ce qui revient à ne rien faire) et j’obtiens :

\alpha(n+1) = \frac{1}{4} \big(1+\alpha(n-1)\big) + \frac{1}{2} \alpha(n)

J’ai donc une relation de récurrence double que je peux facilement appliquer à la main ou programmer pour calculer le taux de consanguinité à n’importe quelle génération, avec la suite complètement définie par :
\begin{cases}  \alpha(0)= 0,\,\alpha(1) = 1/4,\\  \alpha(n+2) = \frac{1}{4} \big(1+\alpha(n)\big) + \frac{1}{2} \alpha(n+1)  \end{cases}

Et rien qu’avec ça, j’ai déjà mis une grosse piquette à Pedscope ! Le seul petit problème qu’il me reste, car je suis perfectionniste, c’est que pour obtenir la consanguinité de la cinquantième génération, je dois quand même calculer toutes les précédentes. En effet, pour connaître α(50), je dois calculer α(48) et α(49) pour pouvoir appliquer ma formule. Mais pour connaître α(48), il me faut α(46) et α(47). Et ainsi de suite. Et moi, qui suis vraiment une feignasse, j’aimerais bien l’avoir directement.

De la récurrence au terme général

Dans le cas du frère-sœur, il y a encore mieux : si vous avez des souvenirs de maths, vous vous rappelez peut-être qu’une suite linéaire récurrente d’ordre 2 (ce qu’est précisément la suite des taux de consanguinités α(n)) peut se résoudre en écrivant le polynôme caractéristique associé et en cherchant ses racines. Il est d’ordre 2, donc nous savons le faire depuis le lycée. En faisant cette opération, nous pouvons obtenir le terme général de la suite.

Il faut d’abord éliminer le terme constant en posant β(n) = α(n) – 1, écrire le polynôme caractéristique de β(n) :

P(X) = X^2 - \frac{1}{2} X - \frac{1}{4},

trouver ses racines grâce au calcul de son discriminant :

\Delta = b^2 - 4ac = \frac{5}{4},\;\rho_1 = \frac{1-\sqrt{5}}{4},\;\rho_2 = \frac{1+\sqrt{5}}{4},

puis déterminer les constantes λ et ν telles que :

\beta(n) = \lambda\rho_1^n+\nu\rho_2^n

grâce aux valeurs de β(0) et de β(1) (initialisation de la suite), qui sont connues. Le petit système linéaire à deux équations donnant λ et ν est simple, et on aboutit, pour la consanguinité du schéma frère-sœur, au terme général :

\alpha(n) = 1 - \bigg(\frac{1}{2}-\frac{1}{\sqrt{5}}\bigg)\bigg(\frac{1-\sqrt{5}}{4}\bigg)^n- \bigg(\frac{1}{2}+\frac{1}{\sqrt{5}}\bigg)\bigg(\frac{1+\sqrt{5}}{4}\bigg)^n

Banco !

Vous trouvez sûrement ça un peu moche (sauf si vous avez reconnu un bout du nombre d’or), mais cette formule a bien des vertus. D’abord, cette suite a le bon goût d’être une suite croissante tendant vers 1, qui est ce à quoi on s’attend quand on fabrique une souche (le taux de consanguinité doit logiquement tendre vers 100% si on arrête pas de croiser des frères avec leurs soeurs !). Et surtout, le pedscope peut aller se rhabiller, puisque je peux calculer en une fraction de seconde la consanguinité de n’importe quelle génération, directement et sans intermédiaire, toujours au même coût de calcul, avec une calculatrice de poche. La victoire du cerveau sur le muscle.

Application en images

Ma formule toute neuve me permet de maintenant de jouer un peu pour voir jusqu’où pousser ce schéma frère-sœur.

Je peux commencer par vérifier le fait bien connu : α(20)=98,6 % : j’ai une « souche pure » après 20 générations de croisement frère-sœur, consanguine à près de 99 %, c’est-à-dire homozygote strict pour quasiment tous ses gènes. Les individus sont quasiment des clones les uns des autres, au moins génétiquement parlant. Ce qui fait leur succès en sciences expérimentales…

Je peux aussi calculer les premiers termes de la suite, pour voir ce qui m’arriverait si d’aventure j’avais l’idée de me lancer dans une telle reproduction. 25 % à la première génération (ça nous le savions déjà), 37,5 % à la deuxième (ça grimpe fort, et mes fondateurs ne sont même pas encore morts !), 50 % à la troisième, 59,4 % à la quatrième. Ça grimpe vite, dites-donc. Et qu’est-ce qu’on avait dit à propos des 60 %, au fait ? Ah oui, dépression consanguine. Autrement dit, un amateur qui voudrait se lancer dans une reproduction en inbreeding strict courrait le risque de voir ses lignées s’autodétruire régulièrement à la quatrième génération. Un poil risqué…

La formule nous permet surtout de compléter (en moins d’un millième de seconde sur mon ordinateur) la courbe que Pedscope n’avait pas pu finir en 24 heures (il avait rendu l’âme à la dix-huitième génération) :

souche

Sans surprise, la courbe augmente constamment, vite et fort au début, avant d’atterrir en douceur sur la limite des 100 % (en réalité jamais exactement atteinte, mais de plus en plus proche, infiniment proche).

Évidemment, quand le nombre de générations augmente, il devient très discutable de négliger les mutations spontanées, et c’est de toute manière d’un intérêt pratique fort limité (sans compter la monotonie de la courbe), mais cela donne une idée de ce que l’on peut faire du point de vue calculatoire lorsque le système de reproduction est régulier… et des dangers immédiats que ferait courir une stratégie de reproduction basée strictement sur l’inbreeding. Bien sûr, le cas frère-sœur est le pire cas, mais il n’est pas très difficile d’imaginer que même en panachant les frère-sœur, père-fille, oncle-nièce et cousin-cousine, ça ne va pas augmenter beaucoup moins lentement, et avec la même issue.

J’espère que ce petit interlude aura amusé certains d’entre vous, rappelé des souvenirs à d’autres, mais rassurez-vous, c’était juste pour le fun (oui, j’ai de drôles de manières de m’amuser, je sais).

Et aussi pour montrer que les maths qu’on vous a fait faire au lycée peuvent servir à quelque chose, même quand on parle de rats !

Top