Excel Et Tests Statistiques

Embed Size (px)

DESCRIPTION

statistiques

Citation preview

LUTILISATION PRATIQUE DES TRAITEMENTS STATISTIQUES SOUS EXCEL

LUTILISATION PRATIQUE DES TRAITEMENTS STATISTIQUES SOUS EXCEL Par Alain Mouchs

Matre de Confrences lInstitut de Psychologie et de Sociologie Appliques, U.C.O, Angers. 1.Gnralits:Un travail de recherche permet danalyser et interprter nos donnes, pour vrifier nos hypothses. Et cette validation des conclusions exprimentales est intimement lie l'emploi de la statistique. Mais le choix des tests appropris est souvent dlicat.

Le document propos nest pas un abrg de statistiques, mais simplement une aide concrte vous permettant dacqurir un savoir-faire des principaux tests statistiques.

Toutefois il est utile de vous souvenir de vos cours de statistiques, ou au besoin davoir sous la main un ouvrage de statistiques pour suivre ces exercices.

On parle souvent en Sciences Humaines, de "variable dpendante" et de "variables indpendantes"... Rappelons que la variable dfinit les caractristiques de la mesure que l'on utilise pour prlever l'information.

La variable dpendante = les donnes: se poser une question-problme, et dcrire la conduite tudie.

La variable indpendante = source de variations, conditions manipules par lobservateur.

Petit rappel (avec un exemple tout fait absurde, je le prcise !):

Supposons que je veux tudier la consommation de chocolat chez les tudiants (= Variable dpendante), et plus prcisment, je veux savoir si les Littraires mangent plus (ou moins) de chocolat que les Scientifiques (Variable indpendante).

Premire difficult: la typologie des variables.

Pour valuer un traitement partie des donnes opres, il faut dterminer le type dchelle de mesure utilis.

Gnralement, il existe trois niveaux de mesure. Ma variable dpendante est-elle: ordinale? nominale? dintervalle?

Nominal = classe d'quivalence, ordinal = plus grand que..., et intervalle = grandeur des intervalles entre les objets d'une chelle ordinale.

Si je dcide de noter simplement lexistence ou labsence de chocolat selon les individus (je note oui , ou non , sans considrer la quantit) alors la variable dpendante est devenue nominale .

Par contre, si je dcide de comptabiliser le poids consomm de chocolat (en gramme) par jour, et par individus, dans ce cas nous avons affaire une variable ordinale (continue). De mme si lon demande notre consommateur de chocolat destimer de faon numrique sa dpendance (par ex . en utilisant une chelle de type Likert: 0= pas du tout, 1= un peu, 2 = assez souvent, etc.), cest encore une chelle ordinale. Toutefois certains auteurs prfrent parler dchelle dintervalle Et javoue ne pas saisir toutes ces subtilits!

Disons quil existe des chelles dintervalles, cest dire sous forme de valeurs numriques particulires.

Par exemple on peut estimer le temps mis pour manger toute une tablette de chocolat.

Ou encore on obtient un score aprs preuve qui indique ltat du consommateur, aprs ingestion de toute la tablette. (calcul par cumul des vnements psychophysiologiques nause, anxit, etc.-cits dans un questionnaire).

En tout cas selon les diffrentes chelles, on utilisera des tests appropris.

Mais il existe un autre problme. Certains tests peuvent tre paramtriques, et dautres non-paramtrique.

Que signifie cette diffrence entre tests?

Si ma variable est ordinale, et si la population des tudiants est importante, on peut supposer que la distribution suit la loi normale (loi de Gauss).

En effet la consommation de chocolat varie selon les individus: quelques personnes ont une consommation nulle, ou trs faible et au contraire quelques personnes trop gourmandes mangent toute une plaquette, et la majorit des individus auront une consommation plus raisonnable Donc les chantillons suivent une distribution normale, cest dire un distribution en forme de cloche.

Si ma variable suit la loi de probabilit de Gauss, jai "le droit" d'utiliser les tests paramtriques. Je pourrai par exemple utiliser un test de moyennes, tel que le t de Student

Cependant pour compliquer encore, on peut avoir des variables qui ne suivent pas vraiment la loi normale Dans ce cas, on prfrera les tests non-paramtriques.

En ralit, c'est parfois difficile de choisir les tests employs...

En effet, en particulier dans le cas des petits chantillons, certains histogrammes obtenus sont plus "ordinales" que "nominales", mais pourtant sont trs loin dune distribution dite normale .

Dans certains cas, les tests non-paramtriques sont plus adapts. Et de fait, il existe des mthodes non-paramtriques qui traitent aussi des variables ordinales, et qui sont trs adaptables des cas particuliers.

Cependant beaucoup de chercheurs en Sciences humaines prfrent utiliser les tests "paramtriques" Cest une affaire de choix ! (ou de flemme ?).

Je vous signale nanmoins que certains nostalgiques des tests non-paramtriques ont ralis des logiciels free permettant de calculer ces tests.

Dans tous les cas, le logiciel Excel (ainsi que ce logicien free trouv par Internet) va vous permettre de raliser trs facilement la plupart des traitements statistiques, paramtriques ou non-paramtriques.

Mais auparavant, quelques astuces pour traiter facilement vos donnessous Excel

A. Une premire astuce: le collage spcial (attention cette information concerne exclusivement la version ancienne dExcel, et non la version Excel2007!)Mes donnes que je vais tester sont en ligne, et je veux quils soient en colonne Que faire? Rponse: si vous devez changer vos donnes de ligne en colonne-ou inversement-: copiez vos donnes, et slectionnez un emplacement, puis dans Edition, choisir Collage spcial, puis Transpos, et cliquez OK.

B. Une deuxime astuce: le filtrage

Un exemple: vous venez de saisir les rsultats dun questionnaire SUJETAGETEST 1TEST 2 SEXE

1enfant2510 homme

2adulte2611 femme

3adolescent4214 homme

4adolescent3610 homme

5adulte219 homme

6adulte208 femme

7enfant3212 femme

8adulte3114 homme

//... femme

268etc...

Vous possdez une foule dinformations, mais si vous devez comparer manuellement vos rsultats aux diffrentes modalits (homme ou femme, grand moyen ou petit, enfant ou adulte etc), votre analyse sera bien complexe!

Mais Excel possde un outil trs efficace: le filtrage, trs pratiquepour traiter vos donnes.Procdure: dans Donnes, cherchez filtre. Slectionnez une cellule (par exemple dans sujet, ou sexe, ou ge etc.), et cliquez sur la commande filtrage automatique.

Ensuite vous pouvez trs facilement sparer vos groupes soit en hommes, soit en femmes, ou encore vous pouvez analyser uniquement les hommes-adultes, etc.

C. O trouver les analyses statistiques intressantes, sous Excel?

Cest paradoxal, mais vous ne trouverez pas beaucoup de tests statistiques intressants dans la fonction statistiques dExcel!

Dans les versions anciennes) dExcel, l faut plutt chercher dans les macros, et plus prcisment dans Utilitaire danalyse.

Comment peut-on trouver ce prcieux macro? Dans Outils, cherchez Utilitaire danalyse, (et si vous ne le trouvez pas, cherchez dans macros complmentaire, et cochez Utilitaire danalyse)

(remarque: dans la version Excel 2007, il faut cliquer le bouton Microsoft Office, et activer (en bas) Option Excel, puis Complments, Grer, complment Excel. Et dans les Macros complmentaires disponibles, il faut activer la case Analysis ToolPak) Ensuite vous trouverez lutilitaire danalyse dans Donnes Ouf!

Dans le cas des tests non-paramtriques, nous avons utilis le logiciel "Astro Research" de Mr H. Delboy, mdecin, statisticien, astrologue, musicologue, etc Ce scientifique passionn dastrologie, alchimie et dautres bizarreries sotriques a ralis un logiciel remarquable et gratuit, qui fonctionne sous Excel. (adresse:hdelboy.club.fr/Nonparam.htm)2. Calculs statistiques paramtriques:

Ces quelques pages vous expliquent la marche suivre des calculs les plus utiliss, en donnant des exemples.

A. Lenregistrement des observations:

1- Calculer la moyenne, lcart-type, analyser la dispersion, etc

(Visitez vos anciens cours de statistiques, SVP)

Procdure: dans Utilitaire danalyse, cliquez Statistiques descriptives, et cochez Rapport dtaill.

Entrez vos donnes dans plage dentre (en slectionnant avec la souris la zone choisie), prcisez si les donnes sont en colonnes, ou en lignes, et faites OK.

Vous trouvez aussitt la moyenne, lerreur-type (Erreur-type: sx =), la mdiane, le mode (= la valeur de lobservation associe la frquence la plus leve) , lcart-type

(Ecart-type: S = ), la variance de lchantillon (= le carr de lcart-type S),, le coefficient daplatissement Kurstosis, le coefficient dassymtrie, etc

2- Ralisation dune distribution de frquence: cration dun histogramme de donnes quantitatives groupes.

Exemple: un enseignant vient de corriger 20 copies dexamen. Les notes vont de 2 18/20, et il souhaite connatre la distribution.

Notes:

10987,517181213764,51113108811132611

Cet enseignant dcide dutiliser des intervalles de notes pour raliser un graphique plus reprsentatif.

Il dtermine 9 classes, correspondant lintervalle de partition:

(1 3), (3-5), (5-8), (18-20)

Tableau de 9 classes:13581012141618

Procdure: dans Utilitaire danalyse, cliquez Histogramme.

Rentrez les notes dans plage dentre, et les 9 classes dans plage des classes.

Vous pouvez cocher galement reprsentation graphique, puis OK Et vous aurez aussitt un rsultat indiquant les classes, la frquence des rsultats, (et en prime, un joli histogramme...) Vous pouvez dailleurs transformer cet histogramme tout loisir dans lAssistant graphique dExcel.

Remarque: si vous souhaitez crer une distribution de frquence avec des donnes non-groupes, il ne faut plus utiliser loutil histogramme de lUtilitaire danalyse, mais laide du Tableau crois dynamique qui se trouve dans le menu Donnes.

Dans notre cas, cliquez sur suivant, indiquez vos notes dans plage, et cliquez sur disposition

Ensuite glissez simplement le champ des notes sur le rectangle ligne, puis glissez nouveau sur donnes. Ensuite, cliquez Terminer L, vous allez vous sentir un peu bte car vous nobtenez pas de Frquence, mais une banale Somme! Cest normal, ne paniquez pas Cliquez deux fois sur somme, et vous tombez dans un Champ dynamique, plein de merveilles: somme, moyenne, cart-type, produit, etc. Ici, choisissez Nb (qui signifie le nombre doccurrence, ce qui correspond tout fait!)

Le tableau crois dynamique est galement trs intressant pour raliser un questionnaire, des tableaux, des analyses croises, etc. Amusez-vous vous exercer en glissant les diffrents boutons proposs, et bientt vous allez devenir un accro dExcel

Les tests statistiques pour un, deux, ou k chantillons

La plupart des tests sera un comparaison de moyennes ou de frquences

Mais il faut tout dabord identifier la (ou les) variables. Comment est forme ma variable dpendante ? Quel type d'chelle faut-il employer? La variable est-elle ordinale , ou alors

nominale ?

Trois possibilits : nous voulons analyser

-un seul chantillon tester,

-deux chantillons,

-ou k chantillons

Par exemple, si je compare simplement les tudiants qui consomment (ou non) du chocolat, c'est une variable 1 chantillon. Si je veux analyser la comparaison Littraire/Scientifique, et la consommation du chocolat, alors c' est une variable indpendante 2 chantillons

Et si je veux analyser la comparaison Littraire/Scientifique des accros du chocolat, en considrant le sexe des individus, alors c'est une variable indpendante 4 chantillons... Je vous conseille de regarder le tableau rcapitulatif qui se trouve la dernire page de ce document.

B. Les tests statistiques pour un, ou deux chantillonsIl faut dabord prciser ce quon cherche: soit mon hypothse suppose une indpendance (cest dire une absence de relation), ou au contraire mon hypothse suppose une liaison (cest dire une association corrle)?

B.1: Les tests dindpendance:

1-le test de Student, comparaison dune moyenne:

Formule t =

Exemple: daprs un rapport, on trouve que les hommes de plus de 30 ans regardent la tlvision en moyenne 25 h par semaine. Nous voulons comparer cette moyenne une population dtudiants. Onze tudiants ont comptabilis leur temps pass devant la tlvision,par semaine:

Rsultats

Etudiants10815282019132091438

Procdure: dans Utilitaire danalyse, cliquez Test dgalit des esprances: observations paires. Par un copier-coller (en colonnes, SVP ), rentrez les chantillons observs dans plage pour la variable 1, et dans plage pour la variable 2 rptez simplement n.fois la moyenne thorique (ici, 25):

Etudiants10815282019132091438

thorique2525252525252525252525

Puis, faites OK: nous obtenons un tableau tout fait clair, avec plusieurs informations:

Test d'galit des esprances: observations paires

Variable 1Variable 2

Moyenne17,636363625

Variance80,25454550

Observations1111

Diffrence hypothtique des moyennes0

Degr de libert10

Statistique t-2,72617579

P(TB>C, etc.

Par exemple, on ajoute un excipient un mdicament en sorte d'amliorer le got, et on souhaite apprcier l'effet de cette dose sur le jugement. C'est dans ces cas que la statistique de Page est conseille. Elle est dfinie par L, o :

Explication: L reprsente la somme des j rangs Rj, de j = 1 k. k est le nombre de blocs,exactement comme dans le test de Friedman.

Dans le cas o le nombre de blocs k est infrieur 10, on consulte une table spciale. Au-del, la formule employer est :

o L* est l'approximation normale de L, ds que k > 10 ; elle suit une loi de Khi 2 1 ddl. n est le nombre d'observations (attention: il doit y avoir le mme nombre chaque colonne) et k est le nombre de blocs .

Si nous reprenons lexemple prcdent (test de Friedman), vous cochez le Pages test en suivant les mmes consignes:

Page's Test

N (= t)6

k (= b)4

L145,5

m150

s7,071

SL0,636

pNS

Le rsultat nest pas significatif (NS). Ainsi si lon trouve une diffrence entre les tests (voir rsultat de Friedman, qui est significatif), on nobserve cependant pas deffet dordre (ou deffet-dose).

D. Les mesures de corrlation non-paramtriques

1. le Coefficient de contingence

Dans le cas dune variable nominale, on peut facilement calculer le Coefficient de contingence.

En utilisant le pour k chantillons, ce coefficient correspond C = ( / N + )

(Bien videmment, C nest significatif que si lest, avec = (k-1)(l-1) degrs de libert)2- Exemple de corrlations non-paramtriques pour 2 chantillons

Les personnalits autoritaires sont-elles lies leur status social? Pour le savoir, nous avons test 12 sujets qui ont pass deux questionnaires de psychologie sociale.

829887401161131118385126106117

424639376588865662925481

Nous pouvons utiliser le test de corrlation de Spearman, bien connu (qui calcule la corrlation entre deux ensembles de rangs) ou encore le test tau de Kendall (qui base sa statistique sur le nombre dinversions constates dans les classements).

Formule: r de Spearman:

(avec d = diffrences entre les 2 classements

Formule du tau de Kendall: =

Avec S = total Rel (= somme des notes +1 ou 1 de toutes les paires)

Et n (n-1) = total Possible.

Le logiciel propose ces deux test de corrlation. Il suffit de placer en colonnes ces donnes dans Input range et faire OK.

Spearman rank order correlation

N24

Np12

Mx97

My62,33

Sd0

Sd252

df10

r'0,818

t4,497

p0,00115

Z0,00333

tiesno

Kendall's Tau

n12

S44

tau0,6667

Tk for tiesX : 0 - Y : 0

tau corr. for ties0,6667

p0,0026

On trouve une corrlation trs significative ( r= 0,818 pour le test de Spearman, et tau de Kendall = 0,66; p= .001).

(Note: le test de Spearman est accompagn dun graphique sous Excel reprsentant le nuage des points de la corrlation).

Ajoutons que ces tests de corrlation sont adapts pour valuer la liaison entre deux classements.

2. corrlations non-paramtriques pour k chantillons

Enfin pour valuer plus de 2 classements, il faut utiliser soit le Coefficient de contingence (dans le cas dune variable nominale), ou soit le Coefficient de concordance de Kendall W (test non-paramtrique pour variable ordinale).

(Vous pouvez galement le trouver dans le logiciel en cherchant le test de Friedman, et en cochant le Kendalls coefficient).

Exemple: nous avons demand 4 sujets de classer par ordre de prfrence 6 dessins:

SujetsDessin 1Dessin 2Dessin 3Dessin 4Dessin 5Dessin 6

A541632

B231564

C416325

D432516

Le raisonnement de Kendall est le suivant: si tous les sujets sont daccord, la somme (Rj) de chaque colonne sera une progression arithmtique de raison k (k tant le nombre de sujets). Et en moyenne, lcart sera grand entre chaque total Rj, et la moyenne des Rj.

A linverse si les sujets effectuent les classements alatoirement, alors les sommes Rj seront voisines de la moyenne des Rj. Kendall a tabli un coefficient de concordance fond sur le principe des carts entre chaque total Rj et la moyenne des Rj (W), qui varie de 0 +1.

Formule du Coefficient de concordance de Kendall .W

W = , avec S=

Avec Rj = somme de chaque colonne (somme des rangs)

k = nombre de classement effectus

n= nombre dlments classer

S= somme des carrs des carts entre chaque Rj et le moyenne du Rj

Dans notre cas, il faut suivre le mme protocole que le test de Friedman.

On trouve dans notre cas:

Kendall's coefficient of concordance

k4

N6

df5

s64

W0,229

F0,229

T for ties0

W*0,229

p0,47

critical value of W [5 | 1] %0,501 | 0,644

W = 0,229. (p = 0,47): il ny a pas de vritable accord entre les 4 sujets.

OUVRAGES

BEAUFILS B. Statistiques Applique la Psychologie, tome 2, Bral dition, 1996

DRETZKE :Statistiques avec Microsoft Excel, (traduit par I. Goulet), Edition Reynald Goulet Inc., 2005

GUEGUEN N. Statistiques pour psychologues, Dunod, 2001

HOWELL D.C Mthodes statistiques en Sciences humaines, Boeck Universit, 1998

SIEGEL S. Nonparametric statistics for the behavioral sciences, McGraw-Hill, 1956

Vous pouvez me contacterpar E-mail: [email protected] le macro free des tests non-paramtriques sous Excel utilis, ladresse est: hdelboy.club.fr/Nonparam.htm

Enfin, vous pouvez galement utiliser par Internet des logiciels gratuits de traitements statistiques. Une adresse: http://www.u707.jussieu.fr/biostatgv/tests.phpUtilisation des principaux tests statistiques, disponibles sous Excel

Nombre des chantillons analyserType de variablesType dchantillonsTests

non-paramtriques

(macro free, avec calcul sous Excel )

Tests paramtriques:

(Calcul sous Excel, dans Utilitaire danalyse)Tests de

Corrlation

NOMINALEKhi2 ,

Test binomial

Un chantillonT. de Student

(dansTest dgalit des esprances: observations paires)

ORDINALEKolmogorov-Smirnov

Pour n>30, Test de la diffrence significative minimale (z-test)

NOMINALEEchantillons indpendants Khi2 pour 2 chantillons

non paramtrique:

Test de Spearman,

Echantillons apparis

Khi2 de McNemar de Kendall.

Deux

chantillonsORDINALEEchantillons indpendantsU de Mann-Whitney,

Autres tests: Wald-Wolfowitz, test de Moses

Kolmogorov-Smirnov

Le test de la mdiane (Mood test)F. de Snedecor

(dans: Test dgalit des variances).

T. de Student (dans Test dgalit des esprances: 2 observations diffrentes

Pour n>30, Test de la diffrence significative minimale (z-test)paramtrique: r de Bravais-Pearson

Sous Excel, dans analyse de corrlation

Echantillons apparisTest de Wilcoxon

T. de Student

(dansTest dgalit des esprances: observations paires)

NOMINALEEchantillons indpendantsKhi2 pour k chantillons

Coefficient de contingence

(voir Khi 2 pour k ch.)

K chantillonsEchantillons apparisTest Q de CochranCorrlation multiple: sous Excel, dans

ORDINALEEchantillons indpendantsTest de

Kruskal-Wallis

Le test de la mdiane

Test de Jonckheere-TerpstraANOVA (dans: analyse de variance: un facteur)

Rgression linaire

Echantillons apparisTest de Friedman

Test de PageANOVA (dans: analyse de variance: deux facteurs, sans rptition dexprience

Coefficient

de concordance

de Kendall W.

A B

C D

(ni-ni)/ni , soit ici:

(23 32,52)/32,52

= 2,79

=2/5 (Distribution cumule thorique)

=1/10 (Distribution cumule observe)

Somme des variances

Variance des 4 items

Variance des scores obtenus

Test de Friedman

F= analyse de variance 1 facteur sur donne ralis sur la base des rangs

r de Spearman

de Kendall

e= approximation normale du t de Student

Moyennes des 4 scores

Nombre des sujets

valeur; moyenne; cart-type

Le t de Student

Valeur de la probabilit

Ici, SL = L*

L* = (L m) / s

Pour passer de ligne en colonne sous Excel, copiez vos donnes, et slectionnez un emplacement, puis dans Edition, choisir Collage spcial, puis Transpos, et cliquez OK.

Pour passer de ligne en colonne sous Excel, copiez vos donnes, et slectionnez un emplacement, puis dans Edition, choisir Collage spcial, puis Transpos, et cliquez OK.

Pour passer de ligne en colonne sous Excel, copiez vos donnes, et slectionnez un emplacement, puis dans Edition, choisir Collage spcial, puis Transpos, et cliquez OK.

PAGE 3

_1168166482.unknown

_1168264824.unknown

_1176193773.unknown

_1208938751.unknown

_1209300573.doc

_1209449729.unknown

_1208950799.unknown

_1207654712.unknown

_1168264941.unknown

_1168262579.unknown

_1168262139.unknown

_1168262405.unknown

_1168166966.unknown

_1159008422.unknown

_1159270303.unknown

_1159354939.unknown

_1164787955.unknown

_1159355945.unknown

_1159270503.unknown

_1159009050.unknown

_1158754876.unknown

_1158756457.unknown

_1158757558.unknown

_1158758169.unknown

_1158756816.unknown

_1158755431.unknown

_1130933914.unknown

_1158754177.unknown

_1158754415.unknown

_1101049373.unknown