Transcript
Page 1: Pensées sur la théorie statistique

Pensées sur la théorie statistiqueNancy Reid

Théorie statistique

Page 2: Pensées sur la théorie statistique

SSC 2010

La statistique en demande

“La science statistique connaît une croissance sans précédent tant en opportunités qu'en activités”

Physique des hautes énergiesHistoire de l'artForage de réalitéBioinformatiqueEnquêtes complexesClimat et environnementSSC 2010 …

Théorie statistique

Page 3: Pensées sur la théorie statistique

SSC 2010

Pensée Statistique

Pleins des ressources

Theory of statistics

Page 4: Pensées sur la théorie statistique

SSC 2010

Pensée statistique 1

Si une statistique était la réponse, quelle est la question? Que comptons-nous?

Embûches fréquentes moyennes, médianes et valeurs aberrantes

Sommes-nous certains? signification et confiance statistiques

Pourcentages et risques changements relatifs et absolus

Théorie statistique

Page 5: Pensées sur la théorie statistique

SSC 2010

Théorie statistique pour 20xx

Que devrions-nous enseigner?Si une statistique est la réponse, quelle est la question?

Planification d'expérience et enquêtesEmbûches fréquentes

Statistiques descriptives: exhaustivité etc.Sommes-nous certains?

InférencePourcentages et risques

Interprétation

Théorie statistique

Page 6: Pensées sur la théorie statistique

SSC 2010

Modèles et vraisemblance

La modélisation est difficile et importanteIl y a beaucoup à tirer de la fonction de vraisemblancePas que des estimateurs ponctuels dePas que (pas du tout!) des tests les plus puissantsQuantités inférentielles (pivots)Distributions inférentielles (asymptotiques)Un point de départ naturel, même pour des modèles

très complexes

Théorie statistique

Page 7: Pensées sur la théorie statistique

SSC 2010

Likelihood is everywhere!

Théorie statistique

Page 8: Pensées sur la théorie statistique

Aperçu

SSC 2010

1. Théorie asymptotique d’ordre supérieur/la vraisemblance en tant que pivot

2. Inférence bayésienne et non bayésienne3. Vraisemblance partielle, quasi et composite4. Où allons-nous?

Théorie statistique

Page 9: Pensées sur la théorie statistique

SSC 2010

Fonctions valeur-p à partir de vraisemblance

La vraisemblance en tant que pivot

Page 10: Pensées sur la théorie statistique

SSC 2010

Fonctions valeur-p à partir de vraisemblance

La vraisemblance en tant que pivot

0.975

0.025

Page 11: Pensées sur la théorie statistique

SSC 2010

Peut être presque exacte

La vraisemblance en tant que pivot

Racine de la vraisemblanceEstimateur du max. de vraisemblanceFonction de scoreToutes approximativement de loi

Beaucoup mieux:

peut être

Page 12: Pensées sur la théorie statistique

SSC 2010

Peut être presque exacte

La vraisemblance en tant que pivot

Racine de la vraisemblanceEstimateur du max. de vraisemblanceFonction de score

Page 13: Pensées sur la théorie statistique

SSC 2010

Peut être presque exacte

La vraisemblance en tant que pivot

Page 14: Pensées sur la théorie statistique

SSC 2010

Peut être presque exacte

La vraisemblance en tant que pivot

Page 15: Pensées sur la théorie statistique

SSC 2010

Peut être presque exacte

La vraisemblance en tant que pivot

Page 16: Pensées sur la théorie statistique

SSC 2010

Peut être presque exacte

La vraisemblance en tant que pivot

Page 17: Pensées sur la théorie statistique

SSC 2010

Peut être presque exacte

La vraisemblance en tant que pivot

Page 18: Pensées sur la théorie statistique

SSC 2010

Utiliser des approximations d’ordre supérieur

La vraisemblance en tant que pivot

Approximations excellentes pour cas ‘faciles’ Familles exponentielles, régression linéaire non normale

Demandant plus de travail pour cas ‘modérés’ Modèles autorégressifs, effets fixes et aléatoires, réponse discrète

Délicates pour cas ‘difficiles’ Modèles structurels complexes à sources de variation multiples

Meilleurs résultats pour un paramètre scalaire Mais on peut devoir faire de l’inférence sur des paramètres

vectoriels

Page 19: Pensées sur la théorie statistique

SSC 2010

D’où est-ce que ça vient?

La vraisemblance en tant que pivot

4Amari, 1982, Biometrika; Efron 1975 Annals

Page 20: Pensées sur la théorie statistique

SSC 2010

D’où est-ce que ça vient?

La vraisemblance en tant que pivot

Géométrie différentielle de modèles statistiquesThéorie des familles exponentiellesApproximations d’Edgeworth et du point de selleIdée clef:Un modèle paramétrique lisse peut être approximé par un modèle tangent tiré d’une famille exponentielleNécessite de différencier la fonction de log-vraisemblance par rapport à l’espace échantillonnalPermet des généralisations aux modèles plus complexes

Page 21: Pensées sur la théorie statistique

SSC 2010

D’où est-ce que ça vient?

Likelihood as pivotal

Page 22: Pensées sur la théorie statistique

SSC 2010

Généralisations

La vraisemblance en tant que pivot

À des données discrètesLorsque différencier la log-vraisemblance par rapport à

l’espace échantillonnal est plusSolution: utiliser plutôt la valeur espérée de la

statistique de scoreL’erreur relative est alors plutôt queTout de même mieux que l’approximation normale

Page 23: Pensées sur la théorie statistique

SSC 2010

Généralisations

La vraisemblance en tant que pivot

Page 24: Pensées sur la théorie statistique

SSC 2010

Généralisations

La vraisemblance en tant que pivot

À des paramètres d’intérêt vectorielsMais nos solutions nécessitent un seul paramètreSolution: utiliser la longueur du vecteur, conditionnelle

à sa direction

Page 25: Pensées sur la théorie statistique

SSC 2010

Généralisations

La vraisemblance en tant que pivot

Étendre le rôle de la famille exponentielleEn généralisant la différentiation par rapport à l’espace

échantillonnalIdée: différencier la log-vraisemblance espérée

Plutôt que la log-vraisemblanceMène à une nouvelle version de la famille

exponentielle approximantePeut être utilisée avec les pseudo-vraisemblances

Page 26: Pensées sur la théorie statistique

SSC 2010

Que pouvons-nous apprendre?

bayésienne/non bayésienne

Les approximations d’ordre supérieur demandentDe différencier la fonction de log-vraisemblance par rapport à l’espace échantillonnalL’inférence bayésienne sera différenteLes développements asymptotiques soulignent cet écartLes a posteriori bayésiens ne sont en général pas calibrésNe peuvent pas toujours être corrigés par le choix d’a

prioriNous pouvons étudier ceci en comparant approximations

bayésiennes et non bayésiennes

Page 27: Pensées sur la théorie statistique

SSC 2010

Exemple: inférence pour ED50

bayésienne/non bayésienne

Régression logistique avec une seule covariableSur l’échelle logistiqueLois a priori plates pourLe paramètre d’intérêt estCouverture empirique des intervalles bayésiens a

posteriori: 0.90, 0.88, 0.89, 0.90

Couverture empirique d’intervalles utilisant 0.95, 0.95, 0.95, 0.95

Page 28: Pensées sur la théorie statistique

SSC 2010

Loi a priori plates: mauvaise idée!

bayésienne/non bayésienne

Page 29: Pensées sur la théorie statistique

SSC 2010

Loi a priori plates: mauvaise idée!

bayésienne/non bayésienne

Page 30: Pensées sur la théorie statistique

SSC 2010

Loi a priori plates: mauvaise idée!

bayésienne/non bayésienne

Valeur-p bayésienne – valeur-p fréquentiste

Page 31: Pensées sur la théorie statistique

SSC 2010

Modèles plus complexes

Partial, quasi, composite likelihood

L’inférence basée sur la vraisemblance a plusieurs qualités souhaitables

Exhaustivité, efficacité asymptotiqueBonnes approximations pour les distributions requisesObtenue naturellement à partir de modèles paramétriquesPeut être difficle à construire, surtout pour des modèles complexesPlusieurs généralisations naturelles: vraisemblance partielle

pour données censurées, quasi-vraisemblance pour équations d’estimation généralisées, vraisemblance composite pour données dépendantes

Page 32: Pensées sur la théorie statistique

SSC 2010

Modèles complexes

Vraisemblance partielle, quasi et composite

Exemple: études longitudinales de sujets atteints de migraines

Variable latente Variable observée

E.g. maux de tête intenses, modérés, faibles, absents… Covariables: âge, éducation, analgésiques, météo, … effets aléatoires inter- et intra-sujetsCorrélation sérielle

Page 33: Pensées sur la théorie statistique

SSC 2010

Vraisemblance pour données discrètes longitudinales

Vraisemblance partielle, quasi et composite

Fonction de vraisemblance

Difficile à calculerHypothèses fortesProposition: utiliser des densités bivariées marginales à la place des densités normales multivariéesCe qui donne un modèle mal spécifié

Page 34: Pensées sur la théorie statistique

SSC 2010

Vraisemblance composite

Vraisemblance partielle, quasi et composite

Fonction de vraisemblance composite

Plus généralement,

Les ensembles indexent des distributions marginales ou conditionnelles (ou …)

Inférence basée sur la théorie des équations d’estimation

Page 35: Pensées sur la théorie statistique

SSC 2010

Un exemple simple

Vraisemblance partielle, quasi et composite

L’EMV par paires de est entièrement efficaceSi , la perte d’efficacité dépend de la dimensionPetite pour dimension plus petite que, disons, 10S’écroule si et que la taille échantillonnale est

fixe Pertinent pour séries chronologiques, applications génétiques

Page 36: Pensées sur la théorie statistique

SSC 2010

Estimateur par vraisemblance composite

Vraisemblance partielle, quasi et composite

Information de Godambe

Page 37: Pensées sur la théorie statistique

SSC 2010

Applications récentes

Vraisemblance partielle, quasi et composite

Données longitudinales binaires et continues: modèles à effets aléatoires

Analyse de survie: modèles de défaillance, copules Réponses de types multiples: discrète et continue;

marqueurs et temps d’évènementsFinance: modèle à covariance variant dans le temps Génétique/bioinformatique: CCL pour distribution

vonMises: repliement de protéine; cartographie génétique; déséquilibre de liaison

Données spatiales: géostatistique, processus spatiaux ponctuels

Page 38: Pensées sur la théorie statistique

SSC 2010

… et plus

Vraisemblance partielle, quasi et composite

Analyse d’images Modèle de RaschModèle de Bradley-Terry Modèle à espace d’étatsDynamique des populations …

Page 39: Pensées sur la théorie statistique

SSC 2010

Que pouvons-nous apprendre?

Vraisemblance partielle, quasi et composite

Page 40: Pensées sur la théorie statistique

SSC 2010

Que devons-nous savoir?

Vraisemblance partielle, quasi et composite

Pourquoi les estimateurs de la vraisemblance composite sont-ils efficaces?

Quelle quantité d’information utiliser?L’identifiabilité des paramètres est-elle garantie?Sommes-nous certains de la cohérence des

composantes avec un ‘vrai’ modèle?Pouvons-nous progresser si ce n’est pas le cas?Comment construire les densités conjointes?Quelles propriétés ont ces constructions?La vraisemblance composite est-elle robuste?

Page 41: Pensées sur la théorie statistique

SSC 2010

Pourquoi est-ce important?

Vraisemblance partielle, quasi et composite

Les idées de la vraisemblance composite viennent des applications

Les méthodes de vraisemblance semblent trop complexesUne varitété de domaines d’applications utilisent des

idées similaires/identiquesL’abstraction apportée par la théorie nous permet de

prendre du recul face à l’applicationComprendre quand les méthodes peuvent ne pas

fonctionnerEt quand devraient-elles bien fonctionner

Page 42: Pensées sur la théorie statistique

SSC 2010

Le rôle de la théorie

Où allons-nous?

Distiller les idées principalesSimplifier les détailsIsoler des caractéristiques particulièresDans le meilleur cas, nous donner une nouvelle

compréhension de ce qui est à la base de nos intuitionsExemple: courbure et inférence bayésienneExemple: vraisemblance compositeExemple: taux de fausses découverte

Page 43: Pensées sur la théorie statistique

SSC 2010

Taux de fausses découverte

Where are we headed?

Problème de comparaisons multiples Simultaneous statistical inference – R.G. Miller, 1966

La correction de Bonferroni est trop forteBenjamini and Hochberg, JRSS B, 1995Introduisent taux de fausses découverte

Beaucoup plus mieux que “Type I and Type II error”Et puis les données, en ce cas de l’astrophysiqueGenovese & Wasserman avec Miller & Nichol

Page 44: Pensées sur la théorie statistique

SSC 2010

Taux de fausses découverte

Where are we headed?

Page 45: Pensées sur la théorie statistique

SSC 2010

Pistes

Où allons-nous?

La vraisemblance composite comme lisseuseCalibration de l’inférence a posterioriGénéralisation de la théorie asymptotique d’ordre

supérieur à la vraisemblance compositeFamilles exponentielles et vraisemblance empiriqueModèles semi- et non-paramétriques liés à la théorie

asymptotique d’ordre supérieurRéduction de dimension efficace à des fins d’inférenceMéthodes d’ensemble en apprentissage machine

Page 46: Pensées sur la théorie statistique

SSC 2010

Spéculations

Où allons-nous?

“in statistics the problems always evolve relative to the development of new data structures and new computational tools” … rapport du NSF

“Statistics is driven by data” … Don McLeish“Our discipline needs collaborations” … Hugh ChipmanComment créer des opportunités?

Comment établir une identité qui nous est propre?Face à des pressions bureaucratiques de fusionner?Continuer à mettre l’accent sur ce que nous faisons de

meilleur!!

Page 47: Pensées sur la théorie statistique

SSC 2010

Spéculations

Où allons-nous?

Engle Variabilité, modélisation, données, théorie, données, théorie

Tibshirani Validation croisée; “forensic statistics” (Baggerly & Coombes,

AAOS, 2009 # 4)Netflix Grand Prize

“Recommender systems”: apprentissage machine, psychologie, statistique!

Tufte “Visual Display of Quantitative Information” -- 1983

Page 49: Pensées sur la théorie statistique

SSC 2010

Merci!!

Théorie statistique

Félix LabrecqueCynthia Bocci

Jean-François Plante

Page 50: Pensées sur la théorie statistique

Merci!!

Théorie statistique

Page 51: Pensées sur la théorie statistique

SSC 2010

Notes

Theory of statistics

1. “Making Sense of Statistics” Accessed on May 5, 2010. http://www.senseaboutscience.org.uk/2. Midlife Crisis: National Post, January 30, 2008.3. Alessandra Brazzale, Anthony Davison and Reid (2007). Applied Asymptotics. Cambridge

University Press.4. Amari (1982). Biometrika.5. Fraser, Reid, Jianrong Wu. (1999). Biometrika.6. Reid (2003). Annals Statistics7. Fraser (1990). J. Multivariate Anal. 8. Figure drawn by Alessandra Brazzale. From Reid (2003).9. Davison, Fraser, Reid (2006). JRSS B.10. Davison, Fraser, Reid, Nicola Sartori (2010). in progress11. Reid and Fraser (2010). Biometrika12. Fraser, Reid, Elisabetta Marras, Grace Yun-Yi (2010). JRSSB13. Reid and Ye Sun (2009). Communications in Statistics14. J. Heinrich (2003). Phystat Proceedings15. C. Varin, C. Czado (2010). Biostatistics.16. D.Cox, Reid (2004). Biometrika.17. CL references in C.Varin, D.Firth, Reid (2010). Submitted for publication.18. Account of FDR and astronomy taken from Lindsay et al (2004). NSF Report on the Future of

Statistics19. Miller et al. (2001). Science.20. Photo: http://epiac1216.wordpress.com/2008/09/23/origins-of-the-phrase-pie-in-the-sky/ 21. Photo: http://www.bankofcanada.ca/en/banknotes/legislation/images/023361-lg.jpg


Recommended