Vérification des données. Entrée des données Données brutes Nom Note score R age sexe Houle,...

Preview:

Citation preview

Vérification des données

Entrée des donnéesEntrée des données

Données brutes

Nom Note score R age sexe

Houle, N. A 30 21f

Darcy, T. B 27 25m

Petit, M. C 31 23m

Legrand, P. A 28 24f

.

.

.

.

.Baron, C. B 29 24 m

Fichier Excel

«Data window»«Data window»

Premières vérificationsPremières vérifications Vérification du fichier de données

Données manquantes Exclusion des variables ou des cas générant un

pourcentage important de données manquantes Remplacement des valeurs manquantes

Moyenne de groupe Régression

Valeurs extrêmes Univariées Multivariées

Influence des valeurs extrêmes

Examine <nom de variable>

Valeurs extrêmes Valeurs extrêmes univariées univariées (SPSS - Explore)(SPSS - Explore)

Valeurs extrêmes Valeurs extrêmes multivariéesmultivariées

Normalité de Normalité de distributiondistribution

Number of valid observations (listwise)=454.00

Variable <nom de variable>

Mean 9.649 Std Dev 7.642Kurtosis 11.157 S.E. Kurt .229Skewness 2.755 S.E. Skew .115Minimum 1.00 Maximum 58.00

Distribution normale =>Coefficient de dissymétrie (skewness) = 0 etCoefficient d’aplatissement (kurtosis) = 0

Vérification de Vérification de normalité normalité

SPSS ExploreSPSS Explore

HomocédasticitéHomocédasticité Homogénéité de la variance: La variance d’une variable

dépendante est la même pour les différents niveaux de la variable indépendante

Homocédasticité: La variance des scores pour une variable est la même pour toutes les valeurs d’une autre variable

Manque de Homocédasticité Non normalité d’une des variables

Ex: âge et salaire (salaire est biaisé positivement) Plus d’erreur de mesure pour certains niveaux d’une des

variablesEx: des personnes d’une certain âge sont plus préoccupées avec leur

santé et donnent donc des informations plus fiables à ce sujet

SolutionsSolutions Taille de l’échantillon

Normalité: Une Anova avec plus de 20 dferreur est assez robuste dans le cas de violation de normalité

Homogénéité des variances: Taille des groupes égale -> peu problématique

Taille inégale (Fmax: rapport entre la variance la plus large et la variance la plus petite) rapport entre la cellule la plus importante et la

cellule la plus petite env. 4 pour 1: Fmax ≤ 10 rapport entre la cellule la plus importante et la

cellule la plus petite plus important: Fmax < 3

Transformations

TransformationsTransformations

Transformation Transformation logarithmiquelogarithmique

Interprétation des résultats

Le Le test statistiquetest statistique

Quelles sont les informations fournies par un test statistique?

Un test statistique répond à la question:

Est-ce que la différence entre le groupe expérimental et le groupe contrôle est telle que l’on puisse conclure qu’elle n’est pas due au hasard?

La réponse dépend: de la taille d’effet du nombre de sujets du test statistique utilisé du niveau alpha fixé

MAGICMAGIC

Magnitude la taille de l’effet est-ce que l’influence de la VI sur la VD est importante?

Articulation le degré de détail énoncé facilité de tirer des conclusions utiles (ex “les moyennes des cinq groupes A,B,C,D,E ne sont pas les mêmes”

vs“les moyennes des groupes C,D,E sont significativement différentes des

moyennes de A et B bien que ceux-ci ne différent pas entre eux” ou

“on observe une augmentation linéaire des moyennes de A à E”Generality validité externe

permet la généralisation des résultatsInterestingness l’importance théorique

est-ce que l’étude fournit des nouvelles connaissances?Credibility validité interne la qualité de l’opérationnalisation des variables, contrôle des artefacts

potentiels

Significatif ou nonSignificatif ou non

Exemples: Le résultat est significatif au niveau de .07 Le résultat est marginalement significatif Bien que le résultat ne soit pas significatif au

niveau conventionnel de .05, il suggère que ...

Tukey (1991): .05 < p < .15 «the difference leans in the ... direction»

.15 < p < .25 «there is a hint regarding the direction»

StyleStyle

Style conservateur n’utilise jamais des tests

unidirectionnels n’utilise qu’une seule analyse pré-

déterminée n’exclue jamais de valeurs extrêmes évite de se concentrer sur un seul

résultat en particulier, surtout s’il est favorable

ne dévie jamais d’un seuil de signification pré-établi

Présentation des résultats

Analyse de la varianceAnalyse de la variance

F 2,28 3.71, p.037, 2 .21

Degrées de liberté(effet, erreur)

Valeur FValeur p

Eta2 = taille d’effet

Les tableaux et les figures

PSY7102

Les erreurs les plus Les erreurs les plus communescommunes

Répéter les mêmes informations dans une figure, un tableau, ou bien dans le texte

Présenter des tableaux ou des figures qui sont incompréhensibles sans l ’aide du texte

Présenter des données dans des tableaux ou des figures sans discuter de leur signification dans le texte

Les tableauxLes tableauxQuand ?

Pour des petites séries de données peu complexes

Comment ?

Mettre les informations dans les colonnes et les lignes dans un ordre logique (p.ex: dans l’ordre de l’importance des items)

Choisissez un nombre de chiffres raisonnable (p.ex: 3578 plutôt que 3578,887, 1,34 plutôt que 1,3434562)

Arrangez les items tel que les comparaisons importantes soient faciles à faire

APAAPA Emplacement

Après les notes de bas de page, à la fin du document

Dans le texte on signale:----------------------

Insert Table 1 here----------------------

Numérotation Chiffres arabes sans suffixes (donc 5 et 6 à la

place de 5a et 5b) Titre

Doit décrire de manière précise les variables indépendantes et dépendantes tel que le lecteur sait ce qui est présenté sans avoir recours au texte (ex: « Mean log-transformed post-auricular reflex magnitude as a function of emotional facial expression and expresser sex »)

FiguresFigures Pour des fins de vérification et

d’interprétation des données

Pour des fins de communication des résultats

Née en 1323 à Allemagne (À l’ouest de Riez), FranceNée en 1323 à Allemagne (À l’ouest de Riez), France

Mort le 11 juillet 1382 à Lisieux, FranceMort le 11 juillet 1382 à Lisieux, France

Stem-and-leaf Plot Stem-and-leaf Plot ((Tracés en arborescence)Tracés en arborescence)

Cette forme de présentation des données permet facilement de détecter des distributions problématiques

Exemple: Un enseignant a demandé à 10 élèves d'indiquer combien de livres ils avaient lu au cours des 12 derniers mois. Voici leurs réponses :

12, 23, 19, 6, 10, 7, 15, 25, 21, 12

Tige Feuille 0 6 7 1 0 2 5 9 2 1 2 3 5

Box PlotBox Plot Ce type de figure est construit à

partir de la médiane, des deux quartiles et des valeurs extrêmes

Les valeurs extrêmes se retrouvent à plus de 1.5 espaces interquartiles en bas ou en haut des quartiles

Les valeurs extrêmement extrêmes se retrouvent à plus de 3 espaces interquartiles en bas ou en haut des quartiles

Box Plot : exempleBox Plot : exemple

Comparaison des séries des Comparaison des séries des donnéesdonnées

Communication des Communication des résultatsrésultats

Présentation claire avec des symboles distincts

Supprimez des informations non essentielles

Éviter trop de points sur l ’échelle

Ne mettez pas d’informations supplémentaires (ex: légende) dans la région des données

Quand des symboles ou des lignes chevauchent, utiliser des moyennes qui aident à la discrimination visuelle

Faire plusieurs essais afin de voir quel type de graphique communique le mieux les données

suitesuite Deux graphiques clairs sont mieux qu’un

graphique surchargé par des données ou des symboles

Il est acceptable de se servir d’un graphique complexe s’il permet de visualiser un résultat complexe

Quand plusieurs graphiques devraient être comparés il faut qu’ils aient la même échelle

Il est possible d’indiquer l’étendue de mesure (ex: 0-200) sur le titre de l’axe et de la commencer avec une autre valeur afin d’améliorer la résolution

Voir aussi: http://www.statcan.ca/francais/edu/power/ch9/first9_f.htm

Exemple IExemple I Problème: peu de données avec un patron simple ->

mieux sous forme de tableaux

Exemple IIExemple II

Problème: demande le jugement des longueurs relatives, ce qui est plutôt difficile

Capacités cognitives Capacités cognitives impliquées dans la lecture impliquées dans la lecture

de figures de figures Position sur une échelle commune

Position sur des échelles identiques mais non alignées

Longueur

Angle/pente

Surface

Volume

Gradation des couleurs

Exemple IIIExemple III

APAAPA Impression

Très bonne qualité sur une feuille 8 x 11.5 Emplacement: Après les tableaux (pages non

numérotées) Dans le texte on signale:

-----------------------Insert Figure 1 here

----------------------- La légende est sur la page de la figure et ne fait

pas partie du titre Numérotation

Chiffres arabes Titres

Sur une feuille à part (la dernière page numérotée du document)

RéférencesRéférences Abelson, R.P. (1995). Statistics as principled

argument. Hillsdale, NJ: Lawrence Erlbaum.

Sternberg, R.J. (2005). The psychologist’s companion (4th ed.). New York, NY: Cambride University Press .

Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49, 997-1003.

Cohen, J. (1990). Things that I have learned (so far). American psychologist, 45, 1304-1312.

Cowles, M. & Davis, C. (1982). On the origins of the .05 level of statistical significance. American Psychologist, 37, 553-558.

Recommended