40
Vérification des données

Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Embed Size (px)

Citation preview

Page 1: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Vérification des données

Page 2: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Entrée des donnéesEntrée des données

Données brutes

Nom Note score R age sexe

Houle, N. A 30 21f

Darcy, T. B 27 25m

Petit, M. C 31 23m

Legrand, P. A 28 24f

.

.

.

.

.Baron, C. B 29 24 m

Fichier Excel

Page 3: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

«Data window»«Data window»

Page 4: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Premières vérificationsPremières vérifications Vérification du fichier de données

Données manquantes Exclusion des variables ou des cas générant un

pourcentage important de données manquantes Remplacement des valeurs manquantes

Moyenne de groupe Régression

Valeurs extrêmes Univariées Multivariées

Page 5: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Influence des valeurs extrêmes

Examine <nom de variable>

Page 6: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Valeurs extrêmes Valeurs extrêmes univariées univariées (SPSS - Explore)(SPSS - Explore)

Page 7: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Valeurs extrêmes Valeurs extrêmes multivariéesmultivariées

Page 8: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Normalité de Normalité de distributiondistribution

Number of valid observations (listwise)=454.00

Variable <nom de variable>

Mean 9.649 Std Dev 7.642Kurtosis 11.157 S.E. Kurt .229Skewness 2.755 S.E. Skew .115Minimum 1.00 Maximum 58.00

Distribution normale =>Coefficient de dissymétrie (skewness) = 0 etCoefficient d’aplatissement (kurtosis) = 0

Page 9: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Vérification de Vérification de normalité normalité

SPSS ExploreSPSS Explore

Page 10: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P
Page 11: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

HomocédasticitéHomocédasticité Homogénéité de la variance: La variance d’une variable

dépendante est la même pour les différents niveaux de la variable indépendante

Homocédasticité: La variance des scores pour une variable est la même pour toutes les valeurs d’une autre variable

Manque de Homocédasticité Non normalité d’une des variables

Ex: âge et salaire (salaire est biaisé positivement) Plus d’erreur de mesure pour certains niveaux d’une des

variablesEx: des personnes d’une certain âge sont plus préoccupées avec leur

santé et donnent donc des informations plus fiables à ce sujet

Page 12: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

SolutionsSolutions Taille de l’échantillon

Normalité: Une Anova avec plus de 20 dferreur est assez robuste dans le cas de violation de normalité

Homogénéité des variances: Taille des groupes égale -> peu problématique

Taille inégale (Fmax: rapport entre la variance la plus large et la variance la plus petite) rapport entre la cellule la plus importante et la

cellule la plus petite env. 4 pour 1: Fmax ≤ 10 rapport entre la cellule la plus importante et la

cellule la plus petite plus important: Fmax < 3

Transformations

Page 13: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

TransformationsTransformations

Page 14: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Transformation Transformation logarithmiquelogarithmique

Page 15: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P
Page 16: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Interprétation des résultats

Page 17: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Le Le test statistiquetest statistique

Quelles sont les informations fournies par un test statistique?

Un test statistique répond à la question:

Est-ce que la différence entre le groupe expérimental et le groupe contrôle est telle que l’on puisse conclure qu’elle n’est pas due au hasard?

La réponse dépend: de la taille d’effet du nombre de sujets du test statistique utilisé du niveau alpha fixé

Page 18: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

MAGICMAGIC

Magnitude la taille de l’effet est-ce que l’influence de la VI sur la VD est importante?

Articulation le degré de détail énoncé facilité de tirer des conclusions utiles (ex “les moyennes des cinq groupes A,B,C,D,E ne sont pas les mêmes”

vs“les moyennes des groupes C,D,E sont significativement différentes des

moyennes de A et B bien que ceux-ci ne différent pas entre eux” ou

“on observe une augmentation linéaire des moyennes de A à E”Generality validité externe

permet la généralisation des résultatsInterestingness l’importance théorique

est-ce que l’étude fournit des nouvelles connaissances?Credibility validité interne la qualité de l’opérationnalisation des variables, contrôle des artefacts

potentiels

Page 19: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Significatif ou nonSignificatif ou non

Exemples: Le résultat est significatif au niveau de .07 Le résultat est marginalement significatif Bien que le résultat ne soit pas significatif au

niveau conventionnel de .05, il suggère que ...

Tukey (1991): .05 < p < .15 «the difference leans in the ... direction»

.15 < p < .25 «there is a hint regarding the direction»

Page 20: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

StyleStyle

Style conservateur n’utilise jamais des tests

unidirectionnels n’utilise qu’une seule analyse pré-

déterminée n’exclue jamais de valeurs extrêmes évite de se concentrer sur un seul

résultat en particulier, surtout s’il est favorable

ne dévie jamais d’un seuil de signification pré-établi

Page 21: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Présentation des résultats

Page 22: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Analyse de la varianceAnalyse de la variance

F 2,28 3.71, p.037, 2 .21

Degrées de liberté(effet, erreur)

Valeur FValeur p

Eta2 = taille d’effet

Page 23: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Les tableaux et les figures

PSY7102

Page 24: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Les erreurs les plus Les erreurs les plus communescommunes

Répéter les mêmes informations dans une figure, un tableau, ou bien dans le texte

Présenter des tableaux ou des figures qui sont incompréhensibles sans l ’aide du texte

Présenter des données dans des tableaux ou des figures sans discuter de leur signification dans le texte

Page 25: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Les tableauxLes tableauxQuand ?

Pour des petites séries de données peu complexes

Comment ?

Mettre les informations dans les colonnes et les lignes dans un ordre logique (p.ex: dans l’ordre de l’importance des items)

Choisissez un nombre de chiffres raisonnable (p.ex: 3578 plutôt que 3578,887, 1,34 plutôt que 1,3434562)

Arrangez les items tel que les comparaisons importantes soient faciles à faire

Page 26: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

APAAPA Emplacement

Après les notes de bas de page, à la fin du document

Dans le texte on signale:----------------------

Insert Table 1 here----------------------

Numérotation Chiffres arabes sans suffixes (donc 5 et 6 à la

place de 5a et 5b) Titre

Doit décrire de manière précise les variables indépendantes et dépendantes tel que le lecteur sait ce qui est présenté sans avoir recours au texte (ex: « Mean log-transformed post-auricular reflex magnitude as a function of emotional facial expression and expresser sex »)

Page 27: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

FiguresFigures Pour des fins de vérification et

d’interprétation des données

Pour des fins de communication des résultats

Page 28: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Née en 1323 à Allemagne (À l’ouest de Riez), FranceNée en 1323 à Allemagne (À l’ouest de Riez), France

Mort le 11 juillet 1382 à Lisieux, FranceMort le 11 juillet 1382 à Lisieux, France

Page 29: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Stem-and-leaf Plot Stem-and-leaf Plot ((Tracés en arborescence)Tracés en arborescence)

Cette forme de présentation des données permet facilement de détecter des distributions problématiques

Exemple: Un enseignant a demandé à 10 élèves d'indiquer combien de livres ils avaient lu au cours des 12 derniers mois. Voici leurs réponses :

12, 23, 19, 6, 10, 7, 15, 25, 21, 12

Tige Feuille 0 6 7 1 0 2 5 9 2 1 2 3 5

Page 30: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Box PlotBox Plot Ce type de figure est construit à

partir de la médiane, des deux quartiles et des valeurs extrêmes

Les valeurs extrêmes se retrouvent à plus de 1.5 espaces interquartiles en bas ou en haut des quartiles

Les valeurs extrêmement extrêmes se retrouvent à plus de 3 espaces interquartiles en bas ou en haut des quartiles

Page 31: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Box Plot : exempleBox Plot : exemple

Page 32: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Comparaison des séries des Comparaison des séries des donnéesdonnées

Page 33: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Communication des Communication des résultatsrésultats

Présentation claire avec des symboles distincts

Supprimez des informations non essentielles

Éviter trop de points sur l ’échelle

Ne mettez pas d’informations supplémentaires (ex: légende) dans la région des données

Quand des symboles ou des lignes chevauchent, utiliser des moyennes qui aident à la discrimination visuelle

Faire plusieurs essais afin de voir quel type de graphique communique le mieux les données

Page 34: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

suitesuite Deux graphiques clairs sont mieux qu’un

graphique surchargé par des données ou des symboles

Il est acceptable de se servir d’un graphique complexe s’il permet de visualiser un résultat complexe

Quand plusieurs graphiques devraient être comparés il faut qu’ils aient la même échelle

Il est possible d’indiquer l’étendue de mesure (ex: 0-200) sur le titre de l’axe et de la commencer avec une autre valeur afin d’améliorer la résolution

Voir aussi: http://www.statcan.ca/francais/edu/power/ch9/first9_f.htm

Page 35: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Exemple IExemple I Problème: peu de données avec un patron simple ->

mieux sous forme de tableaux

Page 36: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Exemple IIExemple II

Problème: demande le jugement des longueurs relatives, ce qui est plutôt difficile

Page 37: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Capacités cognitives Capacités cognitives impliquées dans la lecture impliquées dans la lecture

de figures de figures Position sur une échelle commune

Position sur des échelles identiques mais non alignées

Longueur

Angle/pente

Surface

Volume

Gradation des couleurs

Page 38: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

Exemple IIIExemple III

Page 39: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

APAAPA Impression

Très bonne qualité sur une feuille 8 x 11.5 Emplacement: Après les tableaux (pages non

numérotées) Dans le texte on signale:

-----------------------Insert Figure 1 here

----------------------- La légende est sur la page de la figure et ne fait

pas partie du titre Numérotation

Chiffres arabes Titres

Sur une feuille à part (la dernière page numérotée du document)

Page 40: Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle, N.A3021 f Darcy, T. B2725 m Petit, M. C3123 m Legrand, P

RéférencesRéférences Abelson, R.P. (1995). Statistics as principled

argument. Hillsdale, NJ: Lawrence Erlbaum.

Sternberg, R.J. (2005). The psychologist’s companion (4th ed.). New York, NY: Cambride University Press .

Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49, 997-1003.

Cohen, J. (1990). Things that I have learned (so far). American psychologist, 45, 1304-1312.

Cowles, M. & Davis, C. (1982). On the origins of the .05 level of statistical significance. American Psychologist, 37, 553-558.