1
Estimation indirecte de l'âge : modèles probabilistes et approche statistique Isabelle SÉGUY 1,2 Luc BUCHET 2,1 Henri CAUSSINUS 3 , Daniel COURGEAU 1 1 Institut National d’Études Démographiques ([email protected] ; [email protected] ) 2 CEPAM-UMR 7264, CNRS-Université de Nice-Sophia-Antipolis ( [email protected] ) 3 Université Paul Sabatier, Toulouse ( [email protected] ) Toute estimation indirecte de l’âge requiert un modèle reliant l’objet à estimer (l’âge calendaire) aux données disponibles (l’indicateur biologique d’âge). Aucune liaison déterministe ne peut être espérée : le modèle est donc probabiliste et l’estimation relève de la statistique. XXVIIe Congrès international de la population de l’UIESP, Busan, Corée du sud, 25-31 août 2013 Dans le cadre d’un groupe de travail pluridisciplinaire « Mesures de l’âge sans état civil », soutenu par la Fondation du Campus Condorcet, nous avons examiné l’extension de ces méthodes à des problèmes ressortissant à des domaines différents mais se présentant formellement de façon similaire (seule la loi a priori des p j demande à être repensée). Ainsi, en médecine légale, un expert est appelé à estimer un âge calendaire j en fonction d’observations anatomiques i, sur un sujet décédé ou sur un individu vivant dont l’âge est inconnu (Chariot, 2010). La méthode est aussi applicable en démographie quand il s’agit de réaffecter un âge civil à des personnes dont la déclaration d’âge est soumise à des variations opportunistes. Applications en médecine légale et en sciences sociales A partir des données de référence (tableau 2), une condition d’invariance biologique assurant la permanence de la distribution de l’indicateur biologique à âge calendaire donné, permet d’estimer les probabilités p i/j par les fréquences n ij /n .j . Tableau 2. Distribution observée du couple « âge – indicateur biologique » dans un échantillon de référence . Ces probabilités satisfont les relations (1) et (2) i j i j j p p Quantile 5% 10 % 25 % 50 % 75 % 90% 95 % Probabilité d’âge 50 ans 0.495 0.535 0.606 0.687 0.747 0.808 0.838 Probabilité d’âge < 30 ans 0.030 0.040 0.051 0.081 0.131 0.182 0.212 Les calculs confirment donc, avec un degré de vraisemblance évaluable, qu’il s’agit bien d’hommes ayant atteint l’âge adulte malgré une vie très active, voire dangereuse, comme en témoignent les observations paléopathologiques. Application en archéologique funéraire et en paléopathologie Pour évaluer l’âge calendaire de ces individus connaissant le stade d’âge biologique atteint i = 3, il faut les considérer comme issus de la même population que celle de la nécropole, dont on a préalablement estimé la structure par âges par la procédure d’inférence bayésienne. (cf. communication en session 292) L’estimation ponctuelle de la probabilité que l’âge soit supérieur ou égal à 50 ans est 0.701. L’estimation ponctuelle de la probabilité que l’âge inférieur à 30 ans est 0.075. La précision de ces estimations est fournie par les densités de la figure 2 et numériquement par quelques quantiles (tableau 3). Tableau 3. Quelques quantiles correspondant aux densités de la figure 2 - On voit que la probabilité de la première classe d’âge est estimée avec une précision assez faible (entre 0.60 et 0.75 avec la probabilité ½), mais elle n’a que 5 chances sur 100 d’être inférieure à 0.495 (1/2) et 25 chances sur 100 d’être inférieure à 0.606. - La seconde probabilité, très faible, est estimée avec une précision élevée autour de sa médiane 0.08. Elle n’a que 5 chances sur 100 d’être supérieure à 0.212 et 25 sur 100 d’être supérieure à 0.131. Deux homme ont été inhumés, non pas dans la nécropole de Frénouville (France), mais non loin, à proximité d’un gué (Bellengreville). Leur morphologie très robuste les distingue des habitants gallo-romains de Frénouville, et les séquelles d’arthrose observées suggèrent des individus plutôt âgés, tandis que le stade biologique atteint (3) les désignerait comme matures. S’agit-il d’individus de plus 50 ans comme le suggère l’état de leurs ossements, ou de jeunes adultes fortement atteints ? Age supérieur à 50 ans sachant le stade: 3 Age inférieur à 30 ans sachant le stade: 3 Figure 2. Distribution (densité) des probabilités conditionnelles considérées, avec (en rouge) les quantiles à 5, 50 et 95% . Probabilités d’un âge supérieur ou égal à 50 ans (gauche) et d’un âge inférieur à 30 ans (droite) pour un individu de stade 3 Références : CHARIOT Patrick. Quand les médecins se font juges: la détermination de l'âge des adolescents migrants. Chimères, 2010, no 3, p. 103-111. CAUSSINUS Henri, and COURGEAU Daniel. Estimating age without measuring it: A new method in paleodemography. Population (english edition), 2010, vol. 65, no 1, p. 117- 144. SÉGUY Isabelle, CAUSSINUS Henri, COURGEAU Daniel, BUCHET Luc. Estimating the age structure of a buried adult population: a new statistical approach applied to archaeological digs in France. American Journal of Physical anthropology, 150, 2013, p. 170–18 SÉGUY Isabelle, BUCHET Luc. With the contributions of Henri Caussinus and Daniel Courgeau.Handbook of Paleodemography. Springer Series: INED Population Studies, Vol. 2. (Original French edition published by the INED, Paris, 2011). 2014, V, 220 p. (Caussinus, Courgeau, 2010 ; Séguy, Caussinus, Courgeau, Buchet, 2013 ; communication en session 292) Comment estimer l’âge calendaire j d’un individu isolé sachant le stade d’âge biologique atteint i, c’est-à-dire comment estimer les probabilités p j/i pour un i, donné et j =1,…c. La formule (2) fournit une estimation ponctuelle de p j/i . Mais c’est insuffisant, il faut indiquer la marge d’incertitude de l’estimation ponctuelle par sa loi de probabilité. Avec la loi de probabilité des p i/j tirée des données de référence et la loi de probabilité des p j obtenue ci- dessus, on tire au hasard un échantillon de p i/j (pour le stade i considéré et pour j =1,…,c) et un échantillon de p j (j=1,…,c) ; la formule (2) fournit alors un échantillon de p j/i simulant sa loi de probabilité. Deux types de questions se posent La loi de probabilité conjointe de l’âge biologique d’un sujet (défini par un stade i, allant de 1 à r) et de son âge calendaire (défini par une classe d’âge j, allant de 1 à c) est exprimée dans le tableau 1, avec les notations : i : probabilité que le stade d’âge biologique soit i et p j : probabilité que l’âge calendaire soit j p j/i : probabilité qu’un individu soit d’âge calendaire j, sachant que son stade d’âge biologique est i p i/j : probabilité qu’un individu ait atteint le stade d’âge biologique i, sa chant que son âge calendaire est j p ij : probabilité que le stade d’âge biologique soit i et l’âge calendaire j Formalisation du problème Tableau 1. Loi de probabilité du couple « âge – indicateur biologique ». r Comment estimer la structure par âges d’une population, c’est-à-dire les probabilités p j (j=1,…c) ? Une estimation des probabilités i est tirée des observations anthropologiques du site étudié, qui fournissent les nombres (m 1 , …, m i , …, m r ) d’individus dans les différents stades biologiques, sur un échantillon total de m individus. La formule (1) et l’utilisation convenable de cette information et de celle apportée par les données de référence permettent l’estimation des p j . En pratique, nous avons proposé une méthode bayésienne qui part d’une loi a priori convenable des p i/j et des p j et fournit la réponse sous forme de lois a posteriori. La loi a posteriori de chaque p j donne non seulement une estimation ponctuelle de ce paramètre (par sa moyenne), mais encore une information sur la précision de cette estimation Cette précision peut être illustrée par des intervalles de crédibilité permettant par exemple de comparer plusieurs sites entre eux (figure 1 avec probabilités de survie) Figure 1. Frénouville, IVe siècle ap JC (à gauche) et VIe-VIIe siècles (a droite): Intervalles de crédibilité pour les probabilités de survie (à 90% en vert, à 50% en rouge),

Estimation indirecte de l'âge : modèles probabilistes et approche statistique Isabelle SÉGUY 1,2 Luc BUCHET 2,1 Henri CAUSSINUS 3, Daniel COURGEAU 1 1

Embed Size (px)

Citation preview

Page 1: Estimation indirecte de l'âge : modèles probabilistes et approche statistique Isabelle SÉGUY 1,2 Luc BUCHET 2,1 Henri CAUSSINUS 3, Daniel COURGEAU 1 1

Estimation indirecte de l'âge : modèles probabilistes et approche statistique

Isabelle SÉGUY1,2 Luc BUCHET2,1 Henri CAUSSINUS3, Daniel COURGEAU1 1 Institut National d’Études Démographiques ([email protected] ; [email protected])

2 CEPAM-UMR 7264, CNRS-Université de Nice-Sophia-Antipolis ([email protected])3 Université Paul Sabatier, Toulouse ([email protected])

Toute estimation indirecte de l’âge requiert un modèle reliant l’objet à estimer (l’âge calendaire) aux données disponibles (l’indicateur biologique d’âge). Aucune liaison déterministe ne peut être espérée

: le modèle est donc probabiliste et l’estimation relève de la statistique.

XX

VII

e C

on

grè

s in

tern

ati

on

al d

e la p

op

ula

tion

de l’U

IES

P, B

usan

, C

oré

e d

u s

ud

, 25-3

1 a

t 2013

Dans le cadre d’un groupe de travail pluridisciplinaire « Mesures de l’âge sans état civil », soutenu par la Fondation du Campus Condorcet, nous avons examiné l’extension de ces méthodes à des problèmes ressortissant à des domaines différents mais se présentant formellement de façon similaire (seule la loi a priori des pj demande à être repensée).

Ainsi, en médecine légale, un expert est appelé à estimer un âge calendaire j en fonction d’observations anatomiques i, sur un sujet décédé ou sur un individu vivant dont l’âge est inconnu (Chariot, 2010).

La méthode est aussi applicable en démographie quand il s’agit de réaffecter un âge civil à des personnes dont la déclaration d’âge est soumise à des variations opportunistes.

Applications en médecine légale et en sciences sociales

A partir des données de référence (tableau 2), une condition d’invariance biologique assurant la permanence de la distribution de l’indicateur biologique à âge calendaire donné, permet d’estimer les probabilités pi/j par les fréquences nij/n.j .

Tableau 2. Distribution observée du couple « âge – indicateur

biologique » dans un échantillon de référence .

Ces probabilités satisfont les relations (1) et (2)ijij

j pp

Quantile 5% 10 % 25 % 50 % 75 % 90% 95 %

Probabilité d’âge 50 ans

0.495 0.535 0.606 0.687 0.747 0.808 0.838

Probabilité d’âge < 30 ans

0.030 0.040 0.051 0.081 0.131 0.182 0.212

Les calculs confirment donc, avec un degré de vraisemblance évaluable, qu’il s’agit bien d’hommes ayant atteint l’âge adulte malgré une vie très active, voire dangereuse, comme en témoignent les observations

paléopathologiques.

Application en archéologique funéraire et en paléopathologie

Pour évaluer l’âge calendaire de ces individus connaissant le stade d’âge biologique atteint i = 3, il faut les considérer comme issus de la même population que celle de la nécropole, dont on a préalablement estimé la structure par âges par la procédure

d’inférence bayésienne. (cf. communication en session 292)

L’estimation ponctuelle de la probabilité que l’âge soit supérieur ou égal à 50 ans est 0.701.

L’estimation ponctuelle de la probabilité que l’âge inférieur à 30 ans est 0.075. La précision de ces estimations est fournie par les densités de la figure 2

et numériquement par quelques quantiles (tableau 3).

Tableau 3. Quelques quantiles correspondant aux densités de la figure 2

- On voit que la probabilité de la première classe d’âge est estimée avec une précision assez faible (entre 0.60 et 0.75 avec la probabilité ½), mais elle n’a que 5 chances sur 100 d’être inférieure à 0.495 (1/2) et 25 chances sur 100 d’être inférieure à 0.606.- La seconde probabilité, très faible, est estimée avec une précision élevée autour de sa médiane 0.08. Elle n’a que 5 chances sur 100 d’être supérieure à 0.212 et 25 sur 100 d’être supérieure à 0.131.

Deux homme ont été inhumés, non pas dans la nécropole de Frénouville (France), mais non loin, à proximité d’un gué (Bellengreville).

Leur morphologie très robuste les distingue des habitants gallo-romains de Frénouville, et les séquelles d’arthrose observées suggèrent des individus plutôt âgés, tandis que le stade biologique atteint (3) les désignerait comme matures.

S’agit-il d’individus de plus 50 ans comme le suggère l’état de leurs ossements, ou de jeunes adultes fortement atteints ?

Age supérieur à 50 ans sachant le stade: 3 Age inférieur à 30 ans sachant le stade: 3

Figure 2. Distribution (densité) des probabilités conditionnelles considérées, avec (en rouge) les quantiles à 5, 50 et 95% . Probabilités d’un âge supérieur ou égal à 50 ans (gauche) et d’un âge inférieur à 30 ans (droite) pour un

individu de stade 3

Références :CHARIOT Patrick. Quand les médecins se font juges: la détermination de l'âge des adolescents migrants. Chimères, 2010, no 3, p. 103-111.

CAUSSINUS Henri, and COURGEAU Daniel. Estimating age without measuring it: A new method in paleodemography. Population (english edition), 2010, vol. 65, no 1, p. 117-144.

SÉGUY Isabelle, CAUSSINUS Henri, COURGEAU Daniel, BUCHET Luc. Estimating the age structure of a buried adult population: a new statistical approach applied to archaeological digs in France. American Journal of Physical anthropology, 150, 2013, p. 170–18

SÉGUY Isabelle, BUCHET Luc. With the contributions of Henri Caussinus and Daniel Courgeau.Handbook of Paleodemography. Springer Series: INED Population Studies, Vol. 2. (Original French edition published by the INED, Paris, 2011). 2014, V, 220 p.

(Caussinus, Courgeau, 2010 ; Séguy, Caussinus, Courgeau, Buchet, 2013 ; communication en session 292)

Comment estimer l’âge calendaire j d’un individu isolé sachant le stade d’âge biologique atteint i,

c’est-à-dire comment estimer les probabilités pj/i pour un i, donné et j =1,…c. La formule (2) fournit une estimation ponctuelle de pj/i . Mais c’est insuffisant, il faut indiquer la marge d’incertitude de

l’estimation ponctuelle par sa loi de probabilité.

Avec la loi de probabilité des pi/j tirée des données de référence et la loi de probabilité des pj obtenue ci-dessus,

on tire au hasard un échantillon de pi/j (pour le stade i considéré et pour j =1,…,c) et un échantillon de pj (j=1,…,c) ;

la formule (2) fournit alors un échantillon de pj/i simulant sa loi de probabilité.

Deux types de questions se posent

La loi de probabilité conjointe de l’âge biologique d’un sujet (défini par un stade i, allant de 1 à r) et de son âge calendaire (défini par une classe d’âge j, allant de 1 à c) est exprimée dans le tableau 1, avec les notations :

i : probabilité que le stade d’âge biologique soit i et pj : probabilité que l’âge

calendaire soit jpj/i : probabilité qu’un individu soit d’âge calendaire j, sachant que son stade d’âge

biologique est ipi/j : probabilité qu’un individu ait atteint le stade d’âge biologique i, sachant que son âge

calendaire est jpij : probabilité que le stade d’âge biologique soit i et l’âge calendaire j

Formalisation du problème

Tableau 1. Loi de probabilité du couple « âge – indicateur

biologique ».

r

Comment estimer la structure par âges d’une population, c’est-à-dire les probabilités pj (j=1,…c) ? Une estimation des probabilités i est

tirée des observations anthropologiques du site étudié, qui fournissent les nombres (m1,…, mi, …, mr ) d’individus dans les différents stades biologiques, sur un échantillon total de m individus.

La formule (1) et l’utilisation convenable de cette information et de celle apportée par les données de référence permettent l’estimation des pj .

En pratique, nous avons proposé une méthode bayésienne qui part d’une loi a priori convenable des pi/j et des

pj et fournit la réponse sous

forme de lois a posteriori.La loi a posteriori de chaque pj donne non seulement une estimation ponctuelle de ce paramètre (par sa moyenne), mais encore une information sur la précision de cette estimation

Cette précision peut être illustrée par des

intervalles de crédibilité permettant

par exemple de comparer plusieurs sites

entre eux (figure 1 avec probabilités de survie)

Figure 1. Frénouville, IVe siècle ap JC (à gauche) et VIe-VIIe siècles (a droite):

Intervalles de crédibilité pour les probabilités de survie (à 90% en vert, à 50% en rouge),