PSYQR19A Statistiques - Cogsci.nl · Test t (ou ANOVA) spécifique pour groupes indépendants –...

Preview:

Citation preview

PSYQR19AStatistiques

Lotje van der Linden

l.vanderlinden@cogsci.nl

TD1: 04/02/2012 2

Objectifs généraux du cours

● Analyser les données de TER● avec un logiciel statistique

– Choisir le test approprié pour tester une certaine problématique

– Appliquer– Décrire et interpreter les résultats

TD1: 04/02/2012 3

Arbre de décision

TD1: 04/02/2012 4

Fonctionnement UE

● Modalité d'évaluation :– Examen sur table = 50 %– Examen oral individuel = 50 %

● 15 minutes de présentation de votre TER

TD1: 04/02/2012 5

Emploi du temps

Séance Date Thème

1 04/02/2016 IntroductionLes statistiques descriptives

2 11/02/2016 Le test t: Comparer 2 moyennes

3 25/02/2016 L'ANOVA simple : Comparer >2 moyennes d'une seule VI

4 03/03/2016 L'ANOVA factorielle : Comparer >2 moyennes de plusiers VI

5 10/03/2016 Continuation ANOVAPreparer le fichier csv

6 17/03/2016 La régression simple et correlation1 prédicteur

7 24/03/2016 La régression multiplePlusiers prédicteurs

8 31/03/2016 (Les tests non-paramétriques)Révisions

9 ?? Examen sur table

TD1: 04/02/2012 6

Planning● Aujourd'hui :

TER

Pause

Partie 1 : Théorie

Partie 2 : Informatique

● La méthodologie expérimentale● Les statistiques descriptives

● Introduction logiciel● Exercices statistique descriptive

TD1: 04/02/2012 7

Méthodologie expérimentale

TD1: 04/02/2012 8

La méthodologie expérimentale

● Les variables● Le cycle de la recherche empirique

– Deux type de question de recherche– Deux types de relation entre les échantillons

TD1: 04/02/2012 9

Les variables

● Les variables dépendantes (VD)● Les variabiles indépendantes (VI)

TD1: 04/02/2012 10

Les VD

● Ce que l'on mesure les données→● 3 niveaux de mesures

– Nominal– Ordinal– Numérique

TD1: 04/02/2012 11

Les VD

● Ce que l'on mesure les données→● 3 niveaux de mesures

– Nominal : ● Les différentes valeurs de la VD sont de simples

étiquettes● Les valeurs ne sont pas "classables"● Pas de hiérarchie possible● Ex : Quelle est votre couleur préférée ?

– Pas de réponses plus justes que des autres– Bleu pas mieux que jaune

TD1: 04/02/2012 12

Les VD

● Ce que l'on mesure les données→● 3 niveaux de mesures

– Nominal – Ordinal :

● Les différentes valeurs de la VD sont "classables". On peut déterminer laquelle "vient avant" l'autre.

● Pas d'intervalles réguliers entre les différentes valeurs

● Ex : Aimez-vous les statistiques ?

TD1: 04/02/2012 13

Les VD

● Ce que l'on mesure les données→● 3 niveaux de mesures

– Nominal– Ordinal– Numérique :

● La différence entre deux valeurs est réguilière● Opérations arithmétiques possibles● Ex : Les TR, le nombre de réponses correctes, …

TD1: 04/02/2012 14

Les VD● Avant tout analyse statistiqe :

– Bien identifier la VD– Et son niveau de mesure

● Pourquoi ?– Constraint les analyses statistiques possibles et les conclusions qu'on

peut en tirer– Si on ne considère pas notre VD sur le bon niveau de mesure analyse →

et conclusions seront fausses● Ex : Les numéros des maillots des joueurs de foot

– Modalités sont des nombres– Mais : ce sont des simples étiquettes– Pas de hiérarchie– Donc : le numéro « moyenne » (ici : 10,25) n'a aucun sens

Lord (1953)

TD1: 04/02/2012 15

Les VI● Les manipulations● Ce que l’expérimentateur fait varier pour en étudier l’effet

sur la VD● Modalités : les valeurs que peut prendre une variable

– Ex : la variable « Sexe » a deux modalités : Féminin ou Masculin● Sous-division :

– Les VI invoquées● Existantes dans la nature● Elles sont simplement recuillies par l'expérimentateur● Ex: le sexe du participant, l'age, etc.

– Les VI controlées (ou provoquées / manipulées)● Crées par l'expérimentateur● Ex: groupe de contrôle versus groupe de traitement, etc.

TD1: 04/02/2012 16

Les VI

VI :- Café, avec deux modalités : Sans et Avec- Invoquée

Pour étudier l'effet du caféine sur le temps de réponse (TR), un

chercheur teste deux groupes de participants :

1) Un groupe de participants qui ont l'habitude de boire du café

2) Et un groupe de participants qui ne boivent jamais de café.

Les participants font une tache sur ordinateur. Ils doivent appuyer sur

un bouton le plus rapidement possible quand une cible apparaît sur

l'écran.

TD1: 04/02/2012 17

Les VI

Et si l'expérimentateur demande aux participants de venir au

labo sans avoir bu de café, et puis les divise en deux groupes :

1) Au groupe 1, il donne a boire une tasse de café jute avant la

tache.

2) A l'autre groupe, il donne a boire une tasse de l'eau.

VI :- Café, avec deux modalités : Sans et Avec- Provoquée (= manipulée)

TD1: 04/02/2012 18

Les VI

● Implications sur les conclusions qu'on peut tirer● Les VI invoquées disqualifient toute

interprétation causale

Ici, par ex :Pour la 1ere expérience, on ne peut pas exclure la possibilité que des gens qui sont plus vite boivent plus de café par rapport aux gens qui sont plus lents

TD1: 04/02/2012 19

Le cycle de la recherche empirique

Données

Analyse

Interpretation

Problématique

Méthode

TD1: 04/02/2012 20

Le cycle de la recherche empirique

Problématique

Méthode

Données

Analyse

Interpretation

● La probématique

TD1: 04/02/2012 21

La problématique● Deux types de questions de recherche :

– Différences :● Comparer deux ou plusieurs échantillons

entre eux● La VI a plusieurs modalités● L'hypothèse concerne une différence entre

deux moyennes

– Relations :● Etudier les liens entre les variables étudiées● La VI (ici : prédicteur) est une variable

continue● L'hypothèse concerne une relation entre

deux variables

Le groupe qui a bu une tasse de café, est-il plus vite sur une tâche de détection par rapport au groupe qui n'a pas bu de café ?

La quantité de caféine, est-elle correlée avec le temps de réponse dans le sens ou plus de caféine fait plus vite ?

TD1: 04/02/2012 22

Arbre de décision

Les derniers TD

Les premiers TD

TD1: 04/02/2012 23

Le cycle de la recherche empirique

Problématique

Méthode

Données

Analyse

Interpretation

● Un exemple

TD1: 04/02/2012 24

Le cycle de la recherche empirique

● La problématique :– L'alcool, influence-t-il la conduite de voiture ?

?

TD1: 04/02/2012 25

Le cycle de la recherche empirique● La méthodologie

Problématique

Méthode

Données

Analyse

Interpretation

TD1: 04/02/2012 26

La méthodologie● Les VI et VD● Plan expérimental à 1 VI à deux modalités

TD1: 04/02/2012 27

La méthodologie

● Comment distribuer les participants dans les modalités de la VI ?

● 2 possibilités :– Deux échantillons indépendants– Deux échantillons appariés (= plan à mesures

répétées)

TD1: 04/02/2012 28

La méthodologie

● Comment distribuer les participants dans les modalités de la VI ?– Deux échantillons indépendants

● Répartition aléatoire des participant dans chacun des groupes

● Si n = 8● 4 participants dans chaque groupe, au hasard

TD1: 04/02/2012 29

La méthodologie

● Comment distribuer les participants dans les modalités de la VI ?– Deux échantillons indépendants

TD1: 04/02/2012 30

La méthodologie

● Comment distribuer les participants dans les modalités de la VI ?– Deux échantillons appariés (= plan à

mesures répétées)● Si n = 8 les 8 participants passent dans toutes les →

conditions expérimentales● Les mêmes participants sont testés deux fois

TD1: 04/02/2012 31

La méthodologie

● Comment distribuer les participants dans les modalités de la VI ?– Deux échantillons appariés

TD1: 04/02/2012 32

Arbre de décision

TD1: 04/02/2012 33

Le cycle de la recherche empirique● Les données

Problématique

Méthode

Données

Analyse

Interpretation

TD1: 04/02/2012 34

Les résultats● Les données

TD1: 04/02/2012 35

Les données

● 2 échantillons indépendants– Les participants diffèrent

entre conditions. – Par conséquence, les m (les

cerles noirs) peuvent être liées

– Mais non les observations individuelles (les cercles non remplis)

TD1: 04/02/2012 36

Les données

● 2 échantillons appariés– Pour chaque participant nous

avons une observation dans les deux conditions.

– Par conséquence, on a le droit de lier à la fois les m

– Et les observations individuelles.

TD1: 04/02/2012 37

Les résultats● Que veut-on savoir pour déterminer si une différence est

(probablement) significative ?– L'effectif Effectif

A) petit B) grand

Dans la Figure B, les estimations des μ sont plus fiables parce que les m sont basées sur plus d'observations.

TD1: 04/02/2012 38

Les résultats● Que veut-on savoir pour déterminer si une différence est

(probablement) significative ?– L'effectif Effectif

A) petit B) grand

Dans la Figure A, la valeur aberrante influence plus les m que dans la Figure B

TD1: 04/02/2012 39

Le cycle de la recherche empirique● Que veut-on savoir pour déterminer si une différence est

(probablement) significative ?– L'effectif– La variabilité intra conditions

● La part de variabilité de la VD qui ne peut pas être attribuée aux traitements expérimentaux

● Ici: la variabilité en compétences de conduite, peu importe la quantitéd'alcool

Dans la Figure A, les estimations des μ sont plusfiables parce que la variabilité intra conditions est plus petite

Variabilité intra

A) peu B) beaucoup

TD1: 04/02/2012 40

Le cycle de la recherche empirique● Que veut-on savoir pour déterminer si une différence est

(probablement) significative ?– L'effectif– La variabilité intra– La relation entre les deux échantillons

Relation entre les échantillons

A) Indépendants B) Mesures répétées

TD1: 04/02/2012 41

Le cycle de la recherche empirique● Que veut-on savoir pour déterminer si une différence est

(probablement) significative ?– L'effectif– La variabilité intra– La relation entre les deux échantillons– Le niveau alpha ()

● Si plus libéral augmente les chances de trouver un effet significatif→● Mais aussi le risque de fausses alarmes● Défaut = 0,05

TD1: 04/02/2012 42

Le cycle de la recherche empirique● Analyse

Problématique

Méthode

Données

Analyse

Interpretation

TD1: 04/02/2012 43

Analyse● A partir de la semaine prochaine● Les plans a mesures répétées ont un avantage statistique par

rapport aux plans aux échantillons indépendants

TD1: 04/02/2012 44

Analyse● A partir de la semaine prochaine● Les plans a mesures répétées ont un avantage statistique par

rapport aux plans aux échantillons indépendants

TD1: 04/02/2012 45

Analyse● A partir de la semaine prochaine● Les plans a mesures répétées ont un avantage statistique par

rapport aux plans aux échantillons indépendants– Deux échantillons indépendantes

● Test t (ou ANOVA) spécifique pour groupes indépendants

– Deux échantillons appariés● Test t (ou ANOVA) spécifique pour groupes appariés

TD1: 04/02/2012 46

Le cycle de la recherche empirique● Interpretation

– Dans la partie « Discussion » des articles scientifiques

Problématique

Méthode

Données

Analyse

Interpretation

TD1: 04/02/2012 47

Les statistiques descriptives

TD1: 04/02/2012 48

Les statistiques descriptives

● Cherchent à résumer les données– Les indices de tendance centrale– Les indices de dispersion

TD1: 04/02/2012 49

Les indices de tendance centrale● Résumer l'attitude générale de la VD● Le mode

– Valeur de la VD dont la fréquence est maximale– L'effectif partiel le plus élevé– Ici : 17

● La médiane– Approche non-paramétrique, basé sur des rangs– La valeur de la VD qui partage l'effectif en 2– Ici : 17

● La moyenne (mean)– La valeur moyenne de la VD– Ici : 17

● Les 3 indices donnent souvent des résultats voisins– Dans une distribution normale : mode, médiane

et moyenne sont confondus● Mais pas toujours…

TD1: 04/02/2012 50

Les indices de dispersion● Mesurer la variabilité/ l'hétérogénéité

de la VD● La moyenne ne suffit pas

– Ex. 2 groupes d'étudiants– Cela signifie-t-il la même chose ?

● L'étendue (range)– Valeur maximale – valeur minimale

● La variance– Plus précise que l'étendue

● L'écart type (standard deviation)– Est une mesure de la variance

● L'écart interquartile– Comme la médiane a→ pproche non-

paramétrique, basé sur des rangs

TD1: 04/02/2012 51

Les indices de dispersion● Mesurer la variabilité/ l'hétérogénéité

de la VD● La moyenne ne suffit pas

– Ex. 2 groupes d'étudiants– Cela signifie-t-il la même chose ?

● L'étendue (range)– Valeur maximale – valeur minimale

● La variance– Plus précise que l'étendue

● L'écart type (standard deviation)– Est une mesure de la variance

● L'écart interquartile– Comme la médiane a→ pproche non-

paramétrique, basé sur des rangs

TD1: 04/02/2012 52

Tendance centrale

Dispersion

VD nominale Mode

VD ordinale Médiane Écart interquartile

VD numérique● Distribution symmétrique● Pas de valeurs aberrantes

Moyenne Varianceou écart type

VD numérique● Distribution asymmétrique● Valeurs aberrantes

Médiane Écart interquartile ????

VD numérique● Distribution bimodale● Valeurs aberrantes

Les modes (au moins 2)

????

Les statistiques descriptives● Le choix des indices dépend:

– Du niveau de mesure de la VD (nominal, ordinal, numérique)

TD1: 04/02/2012 53

Les statistiques descriptives

Le choix des indices dépend :– Du niveau de mesure de la VD (nominal, ordinal, numérique)– De la distribution des données (symétrique ou asymétrique)– De la présence des valeurs aberrantes

TD1: 04/02/2012 54

La distribution de fréquence de la VD

● Comment se distribuent les données ?● Ex : distribution des notes d'examen

– 500 étudiants– La moins bonne note = 2– La meilleure note = 16– Mais combiens d'étudiants ont eu 2, 3, 4, .. 11, .. 17 ?– La distribtion de fréquences répond à cette question

● Histogram des fréquences● Parfois avec une estimation

de la densité superposée

TD1: 04/02/2012 55

La distribution de fréquence de la VD

● La première étape de l'analyse !● La forme de la distribution a des conséquences pour tous les

étapes d'analyse qui suivent● Déjà au niveau de statistiques descriptives● Différentes formes possibles

Distribution normale Distribution asymétrique Distribution bimodale

Par ex:TTaille, poidsVariables psychologiques : QILoi du hasard : tirer à pile ou face 1000 fois...

Par ex : Temps de réponse

Par ex : Préférence manuelle

TD1: 04/02/2012 56

Tendance centrale

Dispersion

VD nominale Mode

VD ordinale Médiane Écart interquartile

VD numérique● Distribution symmétrique● Pas de valeurs aberrantes

Moyenne Varianceou écart type

VD numérique● Distribution asymmétrique● Valeurs aberrantes

Médiane Écart interquartile

VD numérique● Distribution bimodale● Valeurs aberrantes

Les modes …

Les statistiques descriptives● Le choix des indices dépend:

– De la distribution des données (symétrique ou asymétrique ou bimodale)

TD1: 04/02/2012 57

Partie 2 : Informatique

TD1: 04/02/2012 58

Logiciel statistique

● Logiciel avec interface ou langage de programmation ??

● Avantages et inconvéniants– Interface plus facile à apprendre– Mais moins flexible

● Si un test statistique que vous envisagez pour votre Mémoire n'est pas couvert par JASP, n'hésitez pas à me consulter

● JASP– Gratuit– Tous les plateforms (Windows, Mac OS, Linux)

https://jasp-stats.org/

TD1: 04/02/2012 59

Le logiciel JASP

TD1: 04/02/2012 60

Le logiciel JASP

● Ouvrir un fichier de données– Vidéo 1

TD1: 04/02/2012 61

Le logiciel JASP

● Faire des statistiques descriptives– Vidéo 2

TD1: 04/02/2012 62

Exercices

Recommended