15
Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés. Représentation matricielle de généalogies Calcul du coefficient de consanguinité* Michel BEAULIEU, Éric LABELLE et Francine M. MAYER Abstract. The rcprcscntation of the links rclating ail individuals within a population oycr lllan}' gcncrations, or at dit-rerent points in lime, is a major objective of the research in population genetics. In order 10 study the genetic structure of the population of Saint-Barthélemy in the French West Indics, particularly through the measure of ils consanguinity, a theorctical mode! \Vas developed which represents the genealogicallinks iuta an adjaccncy malrix. This model WOlS used to compute the inbreeding coefficient and to cecale difiCrcnt tools for the analysis of consanguinity. Ke))mrds: consanguinity, genealogy, adjaccncy matrix, Saint-Barthélemy. i\.Iots-cIés : consanguinité, généalogie, matrice d'adjacence, Saint-Barthélemy. La description et l'analyse des structures et de l'évolution génétique des po- pulations humaines s'appuient, lorsque cela est possible, sur l'exploitation d'un registre reconstitué de population. La condition essentielle à la mise au point d'une base de données de ce type est l'existence, pour une population donnée, de sources archivistiques adéquates, principalement celles de l'état civil laïc ou religieux. Le rapprochement des mentions nominatives contenues dans les actes de baptêmes ou de naissance, de mariage, de sépulture ou de décès, dépouillés et informatisés, constitue l'élément clef de la reconstitution de l'ensemble dcs liens qui relient entre eux les individus. Une fois les jumelages réalisés, plusieurs $" Organismes subvcntionnaires : FCAR - Formation de chercheur et aide à la recherche (Québec) octroyé à EDYPH (1987-90) et FODAR du réseau des universités du Québec octmyé à EDYPI-I et SOREP (Centre illteruniversitaire de recherche sur les populations, G. Bouchard directeur, Université du Québec à Chicoutimi) [1990-1991 J. o Équipe de recherche sur la DYnamique des Populations Humaines (EDYPH); Centre d'étude des INteractions BIOlogiques entre la Santé et (CINBIOSE); Université du Québec à Montréal; case postale 8888; suce. A; Montréal; Québec, H3C 3P8 (Canada). Fax+ 15149874648 E·mail ; Michel Beaulicu : [email protected] E-mail: ÉricLabelleetFrancineM.Mayer:[email protected]

Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

Représentation matricielle de généalogiesCalcul du coefficient de consanguinité*

Michel BEAULIEU, Éric LABELLE et Francine M. MAYER

Abstract. The rcprcscntation of the links rclating ail individuals within a population oycr lllan}'

gcncrations, or at dit-rerent points in lime, is a major objective of the research in population genetics.In order 10 study the genetic structure of the population of Saint-Barthélemy in the French WestIndics, particularly through the measure of ils consanguinity, a theorctical mode! \Vas developedwhich represents the genealogicallinks iuta an adjaccncy malrix. This model WOlS used to computethe inbreeding coefficient and to cecale difiCrcnt tools for the analysis of consanguinity.

Ke))mrds: consanguinity, genealogy, adjaccncymatrix, Saint-Barthélemy.

i\.Iots-cIés : consanguinité, généalogie, matriced'adjacence, Saint-Barthélemy.

La description et l'analyse des structures et de l'évolution génétique des po­pulations humaines s'appuient, lorsque cela est possible, sur l'exploitation d'unregistre reconstitué de population. La condition essentielle à la mise au pointd'une base de données de ce type est l'existence, pour une population donnée,de sources archivistiques adéquates, principalement celles de l'état civil laïc oureligieux. Le rapprochement des mentions nominatives contenues dans les actesde baptêmes ou de naissance, de mariage, de sépulture ou de décès, dépouilléset informatisés, constitue l'élément clef de la reconstitution de l'ensemble dcsliens qui relient entre eux les individus. Une fois les jumelages réalisés, plusieurs

$" Organismes subvcntionnaires : FCAR - Formation de chercheur et aide à la recherche(Québec) octroyé à EDYPH (1987-90) et FODAR du réseau des universités du Québec octmyéà EDYPI-I et SOREP (Centre illteruniversitaire de recherche sur les populations, G. Boucharddirecteur, Université du Québec à Chicoutimi) [1990-1991 J.

o Équipe de recherche sur la DYnamique des Populations Humaines (EDYPH); Centre d'étudedes INteractions BIOlogiques entre la Santé et l'Em~ronilement (CINBIOSE); Université duQuébec à Montréal; case postale 8888; suce. A; Montréal; Québec, H3C 3P8 (Canada).

Fax+ 15149874648 E·mail ; Michel Beaulicu : [email protected]: ÉricLabelleetFrancineM.Mayer:[email protected]

Page 2: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

18 Michel BEAULIEU, Éric LABELLE, Francine M. MAYER

analyses longitudinales et transversales de type démographique on génétiquepeuvent être réalisées.

C'est afin de mieux comprendre la dynamique des rapports entre les facteursbiologiques et sociaux impliquée dans la formation de la population de l'îleSaint-Barthélemy dans les Antilles françaises, en tant qu'isolat sociologique etbiologique, que la constitution du registre de sa population, depuis son origine, aété entreprise. Initiée par le Dr. J. Benoist, elle s'est poursuivie depuis lors grâceau travaîl de plusieurs chercheurs. La richesse et la qualité des sources offrentde nombreuses possibilités d'analyse réalisée à partir du registre informatiséet géré sur micro-ordinateur. L'endogamie de la population (Benoist: 1964,1966), de méme que la présence d'une hypoacousie possiblement de naturehéréditaire (Mayer et al. : 1985, Bonaïti et al. : 1986) soulignent l'importancede bien connaître le patrimoine génétique de cette population. Pour ce faire,l'étude de la consanguinité (Serre et al. : 1982), entre autres choses, doit êtrepoursuivie, cette fois en mesurant l'évolution de son homogénéisation génétiqueau cours des générations directement à partîr des généalogies reconstituées.C'est le coefficient de consanguinité (Wright: 1922) qui permet de mesurerl'homogénéité génétique de chaque individu.

Le défi réside alors dans la représentation des liens entre les individussur plusieurs générations. Le volume et la diversité des relations entre lesmembres de la population, nous a amenés à développer un modèle théorique dereprésentation matricielle des liens généalogiques. Ce modèle a servi à mettre aupoint une méthode de calcul du coefficient de consanguinité ainsi que des outilsd'analyse de la consanguinité.

Représentationl11atricielle des liens généalogiques d'une population

On appelle arbre généalogique, l'ascendance d'un individu (ego). Les che­mins de l'arbre identifient les relations entre ego et chaque ancêtre. Par exemple,on peut écrire le chemin qui va d'ego à la mère de la mère de son père COlline

«egowpère-mère-mèrc», En codant « père}) par «0 », «mère}) par « 1» on oh­tient «011 ». On utilise ce codage par analogie à la numérotation usuelle parrang

lluméro(père) = 2 * numéro(cgo) + 0

lluméro(Jnère) ;::; 2 *numéro(ego) + 1 .

Deux chemins distincts dans un arbre généalogique peuvent mener à unmême individu; représentons une ascendance par un graphe orienté et étiqueté,G = (X, L, f) où X est l'ensemble des individus, L (L inclus dans X x X)

Page 3: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

REPRÉSENTATION r...fATRICIELLE DE GÉNÉALOGIES 19

o 1

1o

22 23

110 11

1 14567010 1

~~~~2!

3!

o!

ego

Fig. 1.- Représentation d'une ascendance par rang ct par chemin

l'ensemble des liens filiaux et f : L --; r{O, l} une fonction étiquelanl chaquelien par son sexe [O=(enfant,père), l=(enfant,mère)]. Par exemple:

Fig. 2.~ ABcendance de A

Tout lien généalogique peut être représenté par un mot de l'alphabetr = {O, l}. On définit sur l'ensemble de tous les mots de 0 et 1 une structure demonoïde en le munissant d'une loi de composition: la concaténation de mots (*),et en lui adjoignant le mot vide e, élément neutre de la loi de composition. Onl'appelle le monoïde libre sur r et on le note r' .

On a les règles suivantes.• Pour tout a, b, cE r* ,

(élément neutre)

(associativité)

• Si un mot 'lU peut être obtenu en concaténant u et ·u, lU = 'lt *v, alors u estun préfixe de 10 et v un suffixe de 10.

Exemple101 *001 = 101001.

Page 4: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

20 Michel BEAULIEU, Éric LABELLE, Francine M. MAYER

1, 10, 101 sont des préfixes et 1001, 001, 1 sont des suffixes de 101001.

• Par longueur d'un mot on entend le nombre de lettres qui le compose.

Le mot 01001 cst de longueur 5.

Comme un élément de r' représente un lien généalogique entre deuxindividus, l'ensemble des liens généalogiques entre deux individus est représentépar un sous-ensemble de r'. L'ensemble de tous ces sous-ensembles est notép(r). On peut définir sur p(r) une structure algébrique (demi-anneau) enle dotant de deux opérations:

- une addition, l'union ensembliste notée +,- une multiplication, )a concaténation de tous les éléments d'un ensemble avec

tous ceux d'un autre, notée aussi *.L'élément neutre de + est l'ensemble vide noté 0 et celui de < est l'ensemblecontenant le mot e, noté {e}.

On a les règles suivantes. Pour tout a, b, e E p(r'),

a+0=a=0+a

a < {e} = a = {e} < a

a+b=b+a

a+a=a

a + (b + c) = (a + b) + c

a«he) = (a<b)<e

a * (b + e) = (a *b) + (a * c)(b + e) *a = (b <a) + (e < a)

a <0 = 0

élément neutre +

élément neutre *commutativité +

idempotence +

associativité +

associativité *distributivité à gauche *+

distributivité à droite *+

élément absorbant *

{Dl} + 0 = {Dl}

{Dl} *{el = {Dl}

{Dl} + {Il} ={Dl, 11}

{Dl} *{ll} = {Olll}

{Dl, DOl} *{D, l} = {DIO, 011, 0010, 001l}

{Dl} *0 = 0

Page 5: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

REpRÉSENTATION MATRICIELLE DE GÉNÉALOGIES 21

On peut définir maintenant pour toute généalogie représentée par ungraphe G, sa matrice d'adjacence M, dont les entrées sont des éléments dep(r). Pour tout i, j EX,

si (i,j) E L,

sinon.

On peut aussi définir la matrice identité E et la matrice vide 11. Pour touti,j EX,

{{el sii =j,

E(i,j) = ~VJ sinon;

11(i,j) = 0.

En partant de notre exemple de la figure 2, construisons la matrice il{. Attribuonsà chaque ligne -i, {O} en colonne j pour j père de i, {l} en colollne k pour k mèrede i el 0 ailleurs (figure 3).

M=

A B C D E F G li

A {D} {I}

B {D} il}

C {D} {I}

D

E

F {D} {l}

G

If

NB. Les cases vides repré.~entcnt l'cn~cmhlc \~dc.

Fig. 3.- Malrice d'adjacence de l'ascendance de .Ji

Rappelons brièvement les définitions usuelles d'addition et de produit dematrices:

(S + T)U,j) = S(i,j) + TU,j),

(S*T)(i,j) = Lk[SU,k)*T(k,j)).

À partir de la matrice d'adjacence on peut reconstituer tous les cheminsallant d'un individu à un autre, en construisant les puissances successives de .A1.MkU, j) contiendra tous les chemins de longueur k dei à j. Pour k = l,on a J\1 1 = 111 et, par définition, M contient tous les chemins de longueur 1.

Page 6: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

22 Michel BEAULIEU, Éric LABELLE, Francine M. MAYER

Supposons que IvIk(i,j) contient tous les chemins de longueur k de i à j. Ona alors

JvIk+I(i,j) = '" JvIk(i,n) *JvI(n,j).LnAutrement dit, pour chaque individu n on prenclles chemins de longueur k

cie i à n [i.e. le contenu cie A1k(i, n) Jauxquels on concatène les chemins de nà j de longueur 1 [le contenu de lvI(n, j) J. On obtient ainsi des chemins delongueur k + 1 de i à j passant par n. On somme alors sur n, i.e. on faitl'union de tous les chemins de longueur k + 1 de i à j; d'où

JvIk+1 (i, j) = {tous les chemins de longueur k + 1 de i à j}.

ExempleMultiplions la matrice AI obtenue en figure 3 par elle-même: k! * 111 = .11f2 .

Nous obtenons alors la figure 4 qui nous donne les liens de longueur 2. Effectivement legrand-père paternel (<< 00 ») de .Ji est bien D.

M' =

A B C D E F G H

A {(J{)} {Ol} {IO} {It}

B

C {(J{)} lOt}

D

E

F

G

H

=M*M

Fig. 4.- Matrice des chemins de longueur 2 de l'ascendance de il

Et en figure 5, AI2 * 1\1 = AI3 nous donne les chemins de longueur 3, soit lesarrière-grands-parents des individus.

M' =

A B C D E F G H

A {tOO} {lOI}

B= 111 *jH *1H

Fig. 5.- Matrice des chemins de longueur 3 de l'ascendance de A

Il est évident qu'aucun individu n'apparaît dans sa propre asccndance. Si onsuppose qu'il n'y a qu'un nombre fini d'individus, il existe donc des chemins delongueur maximale (= m), et JvIm+i est égale à la matrice vide, pour tout i > O.Posons A1' = l + IvI + JvI2 + ... + JvIm ; alors JvI' contient tous les chemins.

Page 7: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

REPRÉSENTATION MATRICffiLLE DE GÉNÉALOGIES 23

La figure 6 représente Ar = 1 + AI + Af2 + AI3, soit l'ensemble des liens de

l'ascendance de A.

Jo,1'

,1 B C D E F G H

,1 le} {D} {l} {OO,lOO} {OI} {lO} {Il} {lOl}

B le} {O} {l}

C {el {DO} {O} il} {Dl}

D le}

E le}

F {O} le} {l}

G le}

H {el

Fig. 6.- Matrice des chemins de l'ascendance de A

Nous avons utilisé un graphe orienté pour représenter une ascendance, maistout ensemble d'individus et de liens généalogiques peut être représenté de cettefaçon. Relativement à cet ensemble de liens, sur la ligne i de 111' nous obtenonsl'ascendance de l'individu i, sur la colonne i sa descendance.

Nous croyons que cette méthode fournit un cadre intéressant pour l'analysegénéalogique. En associant liens généalogiques, chemins et mots, elle permetde voir les formes et les relations que peuvent avoir plusieurs ascendances. Lareprésentation matricielle d'une généalogie est une autre version de la matriced'adjacence d'un graphe (voir par exemple J. Labelle: 1981). Elle est analogueà la matrice stochastique dans la théorie des chaînes de Markov. En effet,en substituant dans At! la valeur } à «0» et «1», et la valeur «0» pourl'ensemble vide et en remplaçant l'nnion et la concaténation par l'addition et lamultiplication usuelles, on obtient dans M' I~s probalités d'origine des gènes:

M'U,j) = Prob(un gène 9 de i provienne de l'ancêtre j)

(Jacquard: 1974).

Coefficient de consangninité

Le coefficient de consanguinité est défini comme étant la probabilité pourquc les deux gènes qu'un individu possède en un locus soient identiques (Jac­quard: 1974). La formule du calcul de ce coefficient défini par Wright (1922) estexprimée comme suit:

F(x) = L P(s) [1 + F(a)]sES(x)

(1)

Page 8: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

24 Michel BEAULIEU, Éric LABELLE, Francine M. MAYER

où la sommation s'étend sur les cycles simples sE S(x) passant par le père et)a mère d'ego (x) allant à un ancêtre Cmllil1Un a sans repasser par un mêmeancêtre; où

P(s) = We-,

et où{

longueur du chemin I1+Iatcrnel entre ego et af=

longueur du chemin paternel entre ego et a

Définition

Un cycle de consanguinité est soit un cycle simple, soit un cycle composé d'uncycle de consanguinité basé au sommet d'un cycle simple.

(5'cgo cgo

Fig. 7.- E.'œmplc de cycle simple ct composé

Un cycle de consanguinité c est donc constitué de plusieurs cycles simplesSi. On écrira c ;:: s, ... Sk où Si est un cycle simple basé en Qi-I et desommet ai (on pose ego = aD). On note CCx) l'ensemble de tous les cyclesde consanguinité basé en x.

Si nOlIs exprimons la formule (1) en fonction des cycles de consanguinité,nous obtenons:

F(x) = I: P(s,) [1 + F(aIl]SIES(z)

= I: P(s,) + I: P(s,)· F(ullSIES(z) SI ES(z)

= I: P(SI) + I: I: P(s,) P(S2)SIES(z) SI ES(z) S2ES(Ul)

+ ... + I: ... I: P(sIl···P(Sn)sIES(z) s"ES(U,,_I)

='IES(~). ,I.I: ES(5.1:_11

1:>;.I::;:;n

Page 9: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

REPRÉSENTATION r-.1ATRICIELLE DE GÉNÉALOGIES 25

Définissons le poids d'un cycle de consanguinité c COlllme le produit despoids de ses cycles simples, i.e.

P(c) = peSt ., . Sk) = P(s,)" . P(skl = W'-k,

alors

F(",) ='jES(r),···"l ES(lI1_\)

l:::;:h;:;n

= L P(c) (2)cEC(z)

où la sommation s'étend sur l'ensemble des cycles de consanguinité C(x).

Nous utiliserons la formule (2) pour le calcul du coefficient de consangui­nité. Nous proposons un algorithme en trois étapes:1) construction de la table d'ascendance;2) construction de la matrice d'adjacence contractée;3) recherche des cycles de consanguinité et calcul.

Afin d'illustrer l'algorithme, nous suivrons l'exemple de l'ascendance de Aà laquelle nous ajoutons quelques individus.

P Q

Tr'L MN 0

i 'i'l J J(

~o

E ÎOY' G

T i'B C10 Il

,1

Fig. 8.- Ascendance de A

1) La première opération consiste à reconstituer l'information généalogiqueascendante (les ancêtres d'ego et leurs liens) tirée d'un registre de population.On utilise un algorithme récursif de recherche en profondeur dans la base de

Page 10: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

26 Michel BEAULIEU, Éric LABELLE, Francine M. MAYER

donnée. On parcourt la généalogie dans l'ordre père - mère - ego. Le cheminsuivi est codé par un mot de 0 et 1 et inscrit dans une table S (figure 9).Si un chemin mène à un individu par lequel on est déjà passé, ce chenùn estimmédiatement inscrit dans la table sans chercher à monter plus haut afind'éviter toute redondance.

Indi\'idu Rang

L 0000

P 00010,00100

Q 00011,00101

M 0001

N 0010

a 0011

l 000

J 001,1011

D 00,100

E 01

B 0

[( 1010

H 101

F 10

G 11

C 1

A

Fig. 9.- Table S de l'ascendance de A

2) Pour qu'un individu soit au sommet d'un cycle de consanguinité, il doit avoirau moins deux chemins dans la table d'ascendance d'ego. Appelons l l'en­semble de ces individus et ego. l1anscrivons la table S dans une malrice J1>I,l par l (figure 10) où

M(ego, j) = l'ensemble des chemins identifiés en S(j).

La matrice lvI ne décrit pas tous les chemins entre chacun des indivi­dus. Par exemple, le chenùn «001» E lîf(A, J) peut se décomposer en«00» E llf(A, D) el « 1 » un chemin de D à J. En procédanl de celle façon

Page 11: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

REPRÉSENTATION l\1ATRICIELLE DE GÉNÉALOGIES

JI D J P Q

JI {OO,IOO} {ool,1Ol1l {OOOIO,OOIOO} {OOOH,oolOl}

D

J

P

Q

Fig. 10.- Matrice AI

27

pour chaque mot et en ne conservant que les mots indécomposables, on ob~

tient pour 111 la matrice d'adjacence d'un graphe représentant l'ascendancecontractée1.

Algorithme de décompositionPour tout i E l

Pour tout j E lPour tout c, E MCi, j)

Pour tout k E 1\ {j}Pour tout Cz E MCi, k)

Si Cz :::: CI *C3

alors M(j,k):~ M(j,k) + {c,}MCi, k) :~ MU, k) \ {cz}

1* pour chaque individu i, en commençantr par ego1* pour chaque individu j1* pour chaque chemin dei à j1* pour chaque individu k <> jr pour chaque chemin de i à kr si CI est préfixe de Cl' i.e.r Cz de i à k passe par jrajoute C3 dans M(j, k)r enlève Cz de MU, k)

JI D J P Q

,t {oo,IOO} {lOtl}

D {l} lOlO} {OH}

J {OO} {Ol}

p

Q

Pr--___.Q

Fig. 10.- Matrice d'adjacence et graphe de l'ascendance contractée

3) La recherche des cycles de consanguinité se fait en parcourant le graphe de l'as~

cendance contractée. Un cycle se compose d'un chemin paternel w et d'un cheminmaternel 'V tels que les sommets de w et u correspondent au même individu. On ditque west un chemin ascendant de ego à un sommet et réciproquement u un chemin

1 L'ascendance contractée est équivalente au réseau d'ascendance contracté utilisé par Jacquard(1966).

Page 12: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

28 Michel BEAULIEU, Éric LABELLE, Francine M. MAYER

descendant du sommet à ego. Dans la matrice d'adjacence AI, nous obtenons surchaque lignei l'ascendance de l'individu i et sur chaque colonne sa descendance.On cherche pour tout chemin w obtenu récursivement de ligne enligne, les cheminsdescendants v par les colonnes, tel que v nous mène à ego. Si on descend surun individu par lequel on est monté, on identifie un cycle simple dans le cycle deconsanguinité. Pour que le cycle simple soit valide, on dOÎt être monté par un cheminpaternel et descendu par un cheuÙll maternel. Lorsque v nous mène à ego, on obtientun cycle de consanguinité et le nombre de cycles simples qui le compose. Alors ensommant sur la valeur de chaque cycle, on obtient le coefficient de consanguinité.

Algorithme de recherche des cycles de consanguinité

Soit w, v respectivement le chemin paternel et maternel du cycle.Soit ll' , une table de vecteurs [ligne,colonne,chenùn] contenant les coordonnées

dans .AI des composantes de w.Soit n := 0 r L'indice de longueur de ll' .Soit k := 0 r Le nombre de cycles simples dans un cycle.Soit CNG := 0 f' Le coefficient.

Soit T, une table indexée par I, T(i) contient les cycles ayant comme sommet i,T(i,t) = (w,u,k).

Faire ligne (ego) 1* Cherche les cycles de consanguinité./* T(i) = l'ensemble des cycles ayant comme sonuuet i./* CNG = coefficient de consanguinité d'ego.

Fin

Procédure ligne (i)Pour tout j E 1

Pour tout cE M(i,j)Si i <> ego ou c = 0 * c'

w:= w *cn := n + 1n'[n] := [i,j, c]Ligne (j)Colonne (j)n:= n ~ 1w:=w*c- l

fin siFin ligne

Procédure colonne (j)Pour tout i E 1

e= 1'Thnt que n'le, 1] <> i et e<= n

e:= e+ 1Pour tout cE M(i,j)

Si e<= n

/* Pour chaque individu j/* chemin de i à j/* exclut chemin maternel partant d'ego/* concatène lU et c/* incrémente n1* ajoute le chemin à Tl'1* cherche à monter de j1* cherche à descendre de jr décrémente n/* enlève le suffixe c à lU

/* Pour chaque individu il'/* vérifie si on est monté pari/* sinon e est plus grand que n/* chenùn de i à j/* si on est monté par i

Page 13: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

REPRÉSENTATION IvlATRICIELLB DE GÉNÉALOGIES

Si C ::::: 1*Cf et lY[e, 3] ::::: 0 *Cil

k := k + 1u::::::c*uSi i = 1

T(W[n, 2]) := T(W[n, 2] + (w, u, k)CNG ::::: CNG + (1)'nngueur du (;yde-k

sinonColonne (i)

fin siv::::::c- 1*vk := k - 1

fin sisinon

v:::::: c*vColonne (i)v::::::c- 1 *v

fin siFin colonne

29

f* Cycle valide basé en 1: :/* c est un chemin maternelf* et ly[e,3] un chemin paternel/* incrémente k/* concatène c etu/* si le cycle est basé en ego/* ellregish'e le cycle en T

/* addition du poids du cycle

/* cherche à descendre de i

/* enlève le préfixe c àu/* décrémente k

/* concatène c et v/* cherche à descendre de i/* enlève le préfixe c à v

Cette méthode oHre une description exhaustive de la consanguinité. Pourchaque ancêtre commun, la table T contient tous les cycles de consanguinitédont il est le sommet. Un cycle est donné par les chemins paternel et maternelet le nombre de cycles simples qui le compose. On calcule aisément le poids dechaque ancêtre dans la consanguinité d'ego. L'annexe 1 présente un exemple derapport du calcul.

Les algorithmes proposés ont été développés au sein du module généa­logique du logiciel d'analyse de registre de populations, Alla/pop2. La vitessedu calcul dépend surtout de la taille de la matrice d'adjacence de l'ascendancecontractée. Pour donner un exemple de la vitesse du calcul, la consanguinitéd'un individu3 ayant 132 ancêtres sur 11 générations dont 46 ont plus d'undescendant (dans l'ascendance), pour lequel on identifie 374 cycles, est calculéen 30 secondes. Ce temps est obtenu sur un micro-ordinateur AT&T 6386.Une analyse plus fine serait ici nécessaire pour déterminer, selon la nature dela population étudiée (profondeur généalogique, enchevêtrement des réseauxd'ascendance, ...), la façon optimale de procéder. On pourrait, par exemple, ne

2 Anulpop est un logiciel d'analyse des fichiers de population développé par EDYFH à l'UQAM.La gestion des données et la programmation sont elIectuées aveclelogiciel Clipper (Nantucket Corp.)

3 Un individu (2786) pris dans le fichier de population de Saint-Barthélemy.

Page 14: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

30 Michel BEAULIEU, Éric LABELLE, Francine M. MAYER

rechercher que les cycles simples et par la suite générer les cycles de consangui­nité.

En conclusion, les algorithmes utilisés pour le calcul de la consanguinitépeuvent être étendus. On peut calculer la parenté entre deux individus A et Ben recherchant les cycles montant de la ligne A et descendant sur la ligne B.On peut imaginer aussi d'autres extensions possibles de ces méthodes: calculdes coefficients d'identité, échange entre groupes, etc.

BibliographieBENOIST (Jean) : 1964, «Saint-Barthélémy: Physical Anthropology of an Isolatc»,

Americall JOIIIllIII ofPhysical AII/hropology 22, pp. 473-488.

BENOIST (Jean): 1966, «Du social au biologique: études de quelques interactions»,L'Homme 6, pp. 5-26.

BONAÏTI (Catherine), DEMENAIS (E), BOIS (E.) et HOCHEZ (J.) : 1986, «Studies onan Isolated West Indics Population: IV: Genetic Study of HCaI'ing Loss», Gene/ieEpidemiology 3, pp. 113-119.

JACQUARD (Albert) : 1966, «Logique du calcul des coefficients d'identité entre deuxindividus », PopulalioJl 21, pp. 751-767.

JACQUARD (Albert) : 1974, Géllétiqlles des poplliatiolls hllmailles (Paris: PUF).

LABELLE (Jacques): 1981, ThéO/je des graphes (Ontremont: Modnlo).

MAYER (Francine M.), BONA'iTl (C) et BENOIST (J.): 1985,« Genealogieal Approachto the Genetic Study of Hypoacusia in a Caribbcan Isolate», Diseases of Comple.tEtiology in Small Populations} Et/mie DifJèrenees and Researeh Approacllcs in CHAwKRABORTY (R.) et SZATHMARY (E.J.R.) cds. Pragress ill Clillical (//ul BiologicalReseal'ch 194 (New York: A.R. Liss) pp. 227-244.

SERRE (Jean-Louis), MAYER (F.M.), FEINGOLD (N.) et BENOIST (J.): 1982, «Étuded'un isolat des Antilles. Il. Estimation de la consanguinité», Allnales de Gtfnétique25 (1), pp. 43-49.

WRIGHT (Sewall): 1922, «Coefficient of inbreeding and relationship», Ame11ean Natu·ralisl 56, pp. 330-338.

Page 15: Représentation matricielle de généalogies Calcul …web.philo.ulg.ac.be/rissh/wp-content/uploads/sites/10/...Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIX, 1 à 4, 1993. C.I.P.L. - Université de Liège - Tous droits réservés.

REPRÉSENTATION MATRICIELLE DE GÉNÉALOGIES

Annexe

Exemple de rapport du calcul de coefficient de consanguinité

Individu 90001 - A (Tel qu'utilisé en exemple)

Son ascendance comporte 16 ancêtres; 4 peuvent être ancêtres communs.

On identifie 6 cycles de consanguinité.

Détail des cycles:

chemin ancêtre chemin longueur cyde- valeurpaternel commun maternel cycle simple du cycle

00010 p 101100...... : tt 1 0.00097656300010 P 100100...... : tt 2 0.00195312500011 Q 101101...... : Il 1 0.000976563ooOtt Q 100101...... : Il 2 0.001953125001 J IOtt ........ : 7 1 0.01562500000 D 100......... : 5 1 0.062500000

Effet consanguin des 4 ancêtres communs en ordre d'importance

Matricule ~ nombre cycles moyenne chemin eO'ct consanguin

1: 90003 D ~ 1 2.50 0.0625000002: 90009 J ~ 1 3.50 0.0156250003: 90015 P ~ 2 5.50 0.0029296884: 90016 Q ~ 2 5.50 0.002929688

Le coefficient est de : 0.083984375

31