53
Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes lignes de la philosophie statistique Formaliser un problème Principes d’application généraux Interpréter les résultats (plusieurs résultats)

Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Embed Size (px)

Citation preview

Page 1: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

ObjectifsLire un manuel de référence

Choisir une méthodeVérifier les conditions d’applicationUtiliser la méthodeLire les résultats

Comprendre les grandes lignes de la philosophie statistique

Formaliser un problèmePrincipes d’application générauxInterpréter les résultats (plusieurs résultats)

Page 2: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

0.1 Les statistiquesLicence de psychologie

Année 2003-2004

Page 3: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Statistiques

On distingue généralement les statistiques descriptives et les statistiques inférentielles.Les statistiques descriptives ou exploratoires et l’analyse des données ont été vues en première année.Les statistiques inférentielles constituent le programme des DEUG 2 et licence.

Page 4: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Statistiques exploratoires

Décrire une variable, un lien entre variables, un tableau de chiffresVisualiser, grâce à des représentations adaptées, un ensemble de données complexeRésumer une série de valeurs par des indices.

Page 5: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Statistiques inférentiellesGénéraliser un résultat observé sur un échantillon à toute la populationRéfuter une hypothèse grâce à l’utilisation de critères fiables et contrôlablesPrévoir un résultat numérique à partir d’un échantillonEstimer des paramètres auxquels on n’a pas accès

Page 6: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Statistiques inférentielles

On distingue, parmi les statistiques inférentielles, deux grands types de constructions / méthodes qui se recoupent :Les tests d’hypothèses (utilisés par la science psychologique en général)Les modèles mathématiques (utilisés par la psychologie mathématique en particulier)

Page 7: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Tests d’hypothèsesLes tests du khi², de Student, tous les

tests de comparaison de moyennes sont des tests d’hypothèses. Ils permettent de « démontrer » un résultat général à partir d’un échantillon.

Attention : ces résultats n’ont pas le même statut qu’en sciences dures…

Page 8: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

ModèlesLes modèles sont des constructions (mathématiques ou

non) qui représentent la réalité sous une forme simplifiée et plus accessible.

Ils sont utiles pour prévoir et estimerLa régression linéaire n’est rien d’autre que la construction

d’un modèle particulier : un modèle linéaire.

Page 9: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

En bref

In d icesm oyen n es , va rian ce ...

R ep ré sen ta tion sh is tog ram m es , d isp ers ion

S ta tis t iq u e exp lo ra to ireou d esc rip tive ; A D D

M od è lesreg ress ion ...

Tes tskh i², S tu d en t...

S ta tis t iq u e in fé ren tie lle

S ta tis t iq u ese t an a lyse d es d on n é es

Page 10: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

0.2 Plan prévisionnel et bibliographie

CM, TD, Examens Blancs

Page 11: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

n° date TD CM1 07-oct rappels de 2ème introduction2 14-oct EB reglin 23 21-oct semaine libre reglin plus (alternatives)4 28-oct reglin EB5 04-nov travail expérimental ANOVA 16 18-nov EB ANOVA factoriel7 25-nov travail expérimental ANOVA repété8 02-déc semaine libre EB9 09-déc ANOVA tests des signes et de Wilcoxon

10 16-déc EB analyse des données : ACP, ACM11 06-janv finalisation "articlette"12 14-janv Examen terminal

Page 12: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Remarques

Sur les examens blancsPréparation à l’examenDécouverte du coursNouveaux éléments

Sur les exemplesEn général, les exemples sont réels, mais pas les données brutesIl arrive aussi que les exemples soient inventés de toute pièce – ou entièrement vrai. C’est précisé

Sur le mini-rapport (articlette)

Pourquoi cette nouveautéSemaines dites « libres »Semaines dite « expérimentales »

Travail personnelPlus autonomes que l’an dernierLes TD sont l’occasion de questionsPaquets d’exercices – mais vous pouvez aussi piocher dans les livres.

Page 13: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Bibliographie

Howell, D. C. (1998). Méthodes statistiques en sciences humaines. De Boeck Université.

Chapitre 1 : introductionChapitre 4 : testsChapitre 9 et 15 : régression linéaireChapitre 10 : corrélations alternativesChapitre 11, 13, 14 : ANOVAChapitre 18 : tests non paramétriques

Exercices non corrigés

Howell est psychologue, enseignant aux USA.

Page 14: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Bibliographie

Escofier, B. & Pagès, J. (1998). Analyse factorielles simples et multiples. Paris: Dunod.

Ne concerne que la dernière séance (ACP et ACM), non traitée dans le HowellDes explications préliminaires difficiles à suivreDes exemples relativement bien détaillés: y aller directementPas d’exercices corrigés (comme le Howell d’ailleurs)

B. Escofier est mathématicienne

Page 15: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Bibliographie

Guéguen, N. Statistiques pour psychologues. Paris: Dunod.

Le cours n’est pas aussi approfondi que dans le Howell. Méfiance aussi quant à la rigueur.Les exercices semblent très bien choisis, et il sont corrigés.Ouvrage aimé des étudiants.Ne couvre pas tout le programme de DEUG et licence!

N. Guéguen est psychologue

Page 16: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Bibliographie

Monfort, A. (1997). Cours de statistique mathématique. Paris: Economica.

Très mathématique, rigoureux, peu accessibleRéservé aux curieux ou aux amoureux des mathématiquesVous pourrez toutefois jeter un œil pour découvrir la théorie mathématique qui se cache derrière ce que nous faisons ici

A. Monfort est mathématicien et économiste

Page 17: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

BibliographieSaporta, G. (1990). Probabilité, analyse des données et statistique. Technip.

Très mathématique, rigoureux, mais accessible, contrairement au Monfort.Certains points sont très bien expliqués, et un coup d’œil peut valoir le coup.Les introductions de chapitre et de parties sont également intéressantes.Exercices non corrigés et d’un type différent de ce qu’on fait ici.

G. Saporta est mathématicien et économiste

Page 18: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Partie A

Régression linéaire

Page 19: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

1. Régression linéaire simple

Rappels et compléments

Page 20: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

1.1. Un exemple

Aperçu rapide

Page 21: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Exemple On étudie le lien

entre la MCT (mesurée par une note) et le QI

Sur un échantillon de taille n

On dispose d’un échantillon de 50 sujets

On dispose de deux variables X et Y numériques (quantitatives)

Le but est de montrer un lien (on pense que la mémoire a une influence sur le QI)

On cherche un lien éventuel entre le facteur (VI) X et la variable dépendante Y

MCT = Mémoire à Court Terme

Page 22: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Exemple Pour cela, on

commence par représenter le QI en fonction de la MCT

Qui donne un nuage de n points

Ce qui donne un nuage de 50 points

On représente le diagramme de dispersion de Y en X

Sur lequel on peut visualiser simplement un lien quand il existe

Permettant de visualiser le cas échéant un « effet » de X sur Y.

Page 23: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Exemple

0

50

100

150

200

0 2 4 6 8 10

Page 24: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Exemple On étudie le

diagramme de dispersion pour savoir si les variables sont liées S’il semble y avoir un

lien on est fondé à construire une courbe

Ici, on peut voir une légère tendance croissante

On étudie le diagramme pour identifier un éventuel lien fonctionnel

Qui se formalise par la superposition au nuage de point d’une courbe de tendance

Dite en général « courbe de tendance ».

Page 25: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Exemple

0

50

100

150

200

0 2 4 6 8 10

Meilleure courbe

polynomiale de degré 4

Page 26: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Exemple

0

50

100

150

200

0 2 4 6 8 10

Meilleure droite

possible (droite de

régression)

Page 27: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

1.2. Principes de lecture

Du diagramme de dispersion

Page 28: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Principes

Le diagramme de dispersion se lit par référence à une courbeUn nuage qui ne semble pas être proche d’une courbe dénote une absence de lienUn nuage qui semble se situer entièrement sur une courbe dénote un lien fonctionnel entre les deux variablesUn nuage qui semble se situer plus ou moins sur une droite dénote un lien linéaire entre les variables

Page 29: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Courbes de tendances

0

10

20

0 1 2 3 4 5

0

10

20

0 1 2 3 4 5

0

10

20

0 1 2 3 4 5

Page 30: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Absence de lien

0

10

0 1 2 3 4 5

Page 31: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Lien linéaire

0

10

20

0 1 2 3 4 5

0

10

20

0 1 2 3 4 5

Page 32: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

1.3. Les bases

De la régression linéaire simple : construction du

modèle

Page 33: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

SituationNous disposons de deux variables X et Y. X est le facteur (VI)Nous voulons construire un modèle où le lien entre X et Y est simple et fonctionnelPosons par exemple (lien linéaire) :

Y aX b

Page 34: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Exemple On pose la question

suivante à des sujets : « combien font 7+x ?»

numérique Où x varie de 80 à 89

On a un facteur X

On relève le temps de réponse Y

Et une variable dépendante Y

Page 35: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Exemple On aimerait prévoir le

temps de réponse en fonction de X

qui soit linéaire Selon une formule simple (linéaire ou affine)

On cherche un lien entre les variables

Pour cela, on choisit la meilleure formule possible de la forme

On cherche l’équation de régression linéaire.

Y aX b

Page 36: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Erreur d’estimationPour déterminer l’équation de régression, nous minimisons l’erreur moyenne d’estimationCette erreur est liée au coefficient de corrélation rElle est minimale pour une unique valeur de a et une unique valeur de b : les coefficients de régressionLes coefficients de régression et le coefficient de corrélation se calculent à la machine

Page 37: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

erreur d'estimation

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5

x = 2

y = 7

y^ = 4

Erreur d’estimation

Page 38: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Coefficient de corrélationLe coefficient de corrélation est défini par

Il mesure l’erreur d’estimationIl mesure le lien linéaire entre les variablesIl mesure la distance entre la droite de régression et le nuage de points

cov( , )XY

X Y

X Yr

Page 39: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

1.4. L’estimateur R

Compléments sur la régression simple

Page 40: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Problèmes pratiquesOn ne dispose que d’un échantillonOn calcule donc non pas =r(X,Y)Mais r(x,y),Réalisation d’une variable aléatoire R (coefficient de corrélation d’échantillonnage)

Cette variable aléatoire sert d’estimateur du paramètre r(X,Y).Il s’agit d’un estimateur convergent…Mais biaisé !Des tables permettent d’obtenir des intervalles de confiance pour r(X,Y) à partir de r(x,y) car la loi de R est connue.

Page 41: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

1.5. Un exemple

Traité en entier

Page 42: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Reconnaissance et MCTOn pense que la mémoire à court terme est sériel, c’est-à-dire que, pour une tâche de reconnaissance d’items dans une liste apprise, la liste est passée dans l’ordre jusqu’à l’item cible.On note R le rang de l’item cible, et T le temps de réponse.

Si notre hypothèse de départ est juste, on doit avoir un lien affine entre T et R.En effet, si a est le temps d’accès au premier item, numéroté 0, et b le temps pour passer d’un item au suivant, on doit avoir

T = a+bR

Page 43: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

La situation On mesure le temps

de réponse et le rang.

sur un échantillon de taille n = 40

On dispose d’un échantillon de 40 sujets

On a deux variables numériques : le facteur R et la VD T

On représente les données par un diagramme de dispersion

On représente le diagramme de dispersion de T en R

Page 44: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Le diagramme

y = 0,9887x + 1,5309

R2 = 0,9703

0

1

2

3

4

5

6

7

8

-2 0 2 4 6

R (rang)

T (

TR

)

Page 45: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Interprétation

L’équation de régression estT = 0.99R+1.52

Le coefficient directeur de la droite est positif, ce qui montre que la relation entre R et T est croissante, et donc que r est positif.Donc

y = 0,9887x + 1,5309

R2 = 0,9703

0

1

2

3

4

5

6

7

8

-2 0 2 4 6

R (rang)

T (

TR

)

0.97 0.98r

Page 46: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

InterprétationCe coefficient dénote un lien linéaire croissant fort entre les variablesL’hypothèse sérielle est donc confirmée par cette expérience

ATTENTION : il s’agit toujours d’estimations et de modèles, donc d’une vérité simplifiée.

Si on avait au contraire trouvé un r proche de 0, cela n’aurait pas démontré une « absence de lien », mais seulement la faiblesse de la linéarité.

y = 0,9887x + 1,5309

R2 = 0,9703

0

1

2

3

4

5

6

7

8

-2 0 2 4 6

R (rang)

T (

TR

)

Page 47: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Interprétation

Les coefficients a et b donnent des informations sur les temps d’accès en MCTIl s’agit d’estimateurs des « vrais » coefficients A et B.Des tables peuvent être utilisées.

y = 0,9887x + 1,5309

R2 = 0,9703

0

1

2

3

4

5

6

7

8

-2 0 2 4 6

R (rang)

T (

TR

)

Page 48: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

1.6. Conclusion

Sur la régression linéaire simple

Page 49: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

A retenirLa régression linéaire simple s’applique quand on cherche un lien linéaire entre deux variables quantitatives.On commence par représenter le diagramme de dispersion.

Le coefficient r donne des informations sur la qualité du modèleL’équation de régression permet de prédire des valeurs de la VD en fonction de la VI — en non l’inverse !On notera souvent

Y

Page 50: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

AttentionNe pas confondre lien (corrélation) et causalité

Lapins et Dow JonesPointure-dictéeLunettes-glacesLe nombre de voitures / de réfrigérateursRégression vers la moyenne

N’oubliez pas que R est un estimateur

Si le coefficient de corrélation est « bon », il montre un lien linéaire, donc un lienS’il est « mauvais », il ne montre pas une absence de lien, mais seulement la faiblesse d’un lien linéaire, à ramener à la taille d’échantillon

Page 51: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Pour en finir avec la régression linéaire simple

cov( , ) cov( , );

x y X Y

x y X Yr

Y aX b

Coefficient de corrélation sur l’échantillon

Page 52: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Pour en finir avec la régression linéaire simple

cov( , ) cov( , );

x y X Y

x y X Yr

Y aX b

Coefficient de corrélation sur la

population

Page 53: Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes

Pour en finir avec la régression linéaire simple

cov( , ) cov( , );

x y X Y

x y X Yr

Y aX b

Y estimé en fonction de X

Coefficients de régression