Upload
elliot-grandjean
View
111
Download
1
Embed Size (px)
Citation preview
+Inférence
tests univariéstests bivariés
Eugénie Dostie-Goulet
Plan de la présentationComment faire une bonne recherche statistiqueL’inférenceRisques de biaisDistribution normaleinférence : tests univariés (moyenne, pourcentage)Inférence : tableaux croisés et Chi2 (khi-deux)
+On ne prouve rien
Lacunes conceptuelles: restons modestes!
Impossible de spécifier le modèle parfaitement
Hasard dans l’échantillonnage
Notre objectif est donc de tester des hypothèses, de confronter nos résultats à nos attentes. Il y a toujours quelque chose à en tirer, peu importe le résultat.
+Réflexion théorique
La théorie est au coeur de l’analyse statistique: on base nos hypothèses sur cette théorie, on l’utilise pour alimenter la discussion sur nos résultats, on l’enrichit grâce à ces résultats et les conclusions qu’on en tire.
Il est donc essentiel de saisir les arguments théoriques et les débats qui s’y trouvent avant de se lancer dans des analyses trop poussées.
... ce qui ne veut pas dire qu’on ne « découvrira » rien!
+Formulation du problème
Identification d’un problème
Motivation: qui s’intéresse à nos résultats? Les décideurs s’intéressent à l’importance sociale ou
politique des résultats d’une recherche. Les chercheurs veulent une contribution à l’avancement
des connaissances scientifiques
Énoncé sous forme de question problème général, qu’on précise, et pour lequel on pose
une question
Inondations au Pakistan
Il y a plus de 125 000 Canadiens
d’origine pakistanaise...
On en connaît peu sur l’origine de l’aide en situation
de crise
Quels sont les facteurs influençant l’aide en situation de crise?
+Construction du cadre opératoire
Doit être plausible La littérature nous aide à en juger
Doit être vérifiable Basée sur des concepts/variables opératoires (précis,
mesurables)
Doit être précise Formulation sans ambiguïté
Doit être générale Le pouvoir d’explication va au-delà du cas particulier
Hypothèse
Plus la diaspora est nombreuse dans un pays d’accueil, plus ce pays est porté à dépenser lorsqu’un drame survient dans le pays
d’origine
+Construction du cadre opératoire
Des individus? des villes? des pays?
Unité d’analyse
Bien les choisir
Ce qu’on utilise pour « représenter » chaque variables
Variable dépendante, variable indépendante, variables contrôle
Indicateur
+Structuration
Aide internationale en millions de $
Importance de la diaspora
Médiatisation du drame
Nombre de morts
Résolution de l’ONU
Variables indépendantesou les « causes »
Variable dépendante ou la « conséquence »
Schéma conceptuel
+
Cueillette des données
Analyse des données / interprétation des résultats
+L’analyse confirmatoire
+Quelques notions d’inférence statistique
Inférence statistique: ensemble des méthodes permettant de tirer des conclusions sur un groupe déterminé – la population – à partir des données provenant d’un échantillon choisi dans cette population.
L’estimation ponctuelle est ajustée pour tenir compte de l’erreur échantillonnale: c’est la notion de « niveau de confiance ».
+Biais possibles
Biais échantillon Taux de réponse (par téléphone, environ 50 à 60%) Qui répond?
Ceux qui sont à la maison
Ceux que ça intéresse
Problématique du cellulaire
Biais répondant « Qualité » de la réponse
Rapports avec l’enquêteur
Désirabilité sociale
Image conforme, « normale »
Mémoire Hasard
Biais questionnaire Formulation des questions Formulation des réponses
Erreur échantillonnale
+Quelques termes
Population Échantillon
Définition L’ensemble des unités considérées par le chercheur
Un sous-ensemble de la population choisi pour étude
Symbole Lettres grecques ou majuscules
lettres minuscules
Caractéristique paramètre statistique
Taille N n
Moyenne (mu) x (x barre)
Écart-type σ (sigma) s
Pourcentage π (pi) p
-
+La distribution normaleUne distribution normale a deux paramètres: sa moyenne et son écart-type
Propriété fondamentale: pour toute combinaison de moyenne et d’écart-type, il y aura toujours une proportion de cas constante entre la moyenne et un point quelconque situé à une certaine distance de la moyenne exprimée en termes d’unité(s) d’écart-type
+ Environ 68 % des données se situent à l'intérieur de
l'intervalle : -S< x < + S.
Environ 95 % des données se situent à l'intérieur de l'intervalle : - 2S< x < + 2S.
Environ 99 % des données se situent à l'intérieur de l'intervalle : - 3S< x < + 3S.
+De la moyenne de l’échantillon à la moyenne de la population...
À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n
À 99% de certitude: μ = x ± 2,58 sx où sx = s/√n
u = moyenne de la populationx = moyenne de l’échantillonsx = écart-type de la distribution d’échantillonnages = écart-type de l’échantillon
_
_-
-
-
-
-
+D’où vient le 1,96?
Avec une variable continue, la probabilité d’obtenir une certaine valeur précise est trop petite pour attribuer une probabilité à chaque valeur. On attribue donc une probabilité à un intervalle de valeurs par voie d’estimation par intervalle. Cette probabilité est représentée par l’aire sous la courbe de distribution normale.
C’est la cote Z qui permet d’attribuer une probabilité à un intervalle de valeurs.
À une cote Z de 1,96 correspond une aire sous la courbe de 0,975. Donc: Une proportion de 0,025 (ou 2,5%) des cas sont entre 1,96 et l’infini
positif, et 2,5% entre -1,96 et l’infini négatif. Donc 5% des cas sont à l’extérieur de l’intervalle allant de -1,96 à 1,96 (soit environ 2s de la moyenne).
+De la moyenne de l’échantillon à la moyenne de la population...
À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n
À 99% de certitude: μ = x ± 2,58 sx où sx = s/√n
μ = moyenne de la populationx = moyenne de l’échantillonsx = écart-type de la distribution d’échantillonnages = écart-type de l’échantillon
_
_-
-
-
-
-
+Distribution d’échantillonnage
Imaginez qu’on ne prend pas seulement un échantillon tiré au hasard, mais tous les échantillons possibles...
Exemple simple: population de cinq personnes, échantillon de deux cas. Combien d’échantillons possibles? 10
Exemple complexe: population de 5 000 000 d’électeurs québécois, échantillon de 1000 cas. Combien d’échantillons possibles?
27 000 000 000 000 000 000 000 000 000 000 000 000 000
Donc imaginez qu’on prend la moyenne de chacun de ces échantillons... on peut alors construire notre distribution d’échantillonnage
À partir de 30 cas, la moyenne de cette distribution d’échantillonnage correspond à la moyenne de la population & la distribution d’échantillonnage suit une distribution
normale.
+De la moyenne de l’échantillon à la moyenne de la population...
À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n
À 99% de certitude: μ = x ± 2,58 sx où sx = s/√n
_
_-
-
-
-
Tous les éléments de la formule affectent l’ampleur de l’intervalle: 1)Le niveau de confiance: plus on veut être confiant, plus grand sera l’intervalle (et moins l’estimation sera précise2)L’écart-type de l’échantillon: plus il y a de dispersion, plus grand sera l’intervalle (et moins l’estimation sera précise)3)La taille de l’échantillon: plus grand est l’échantillon, plus petit sera l’intervalle (et plus l’estimation sera précise)
+Exercice En Grande-Bretagne, on a demandé à un échantillon de
2326 électeurs de donner leur appréciation de chacun des partis sur une échelle de 0 à 10.
Quel est l’intervalle de valeurs pour la moyenne dans la population pour chacun des partis?
Sommes-nous exacts si nous affirmons qu’en moyenne, les Britanniques préfèrent les Libéraux?
Moyenne Écart-type
Travaillistes 4,38 3,42
Conservateurs 3,89 3,05
Libéraux-Démoc.
4,62 2,93
+Le tableau croisé
Lorsqu’on travaille avec des données quantitatives, le tableau croisé est utilisé pour observer la relation entre deux variables lorsque ces variables ont peu de catégories. Un maximum de 20 cellules est fortement recommandé.
En analyse confirmatoire, on travaille avec une variable dépendante et au moins une variable indépendante. Dans un tableau croisé, la convention veut que la variable indépendante soit sur le haut (colonnes) et la variable dépendante sur le côté gauche (lignes, ou rangées).
Les pourcentages font référence à la variable indépendante (colonnes).
+Le test du Chi2
Basé sur l’hypothèse que le chercheur a établi à l’avance une relation entre les deux variables
Suppose un échantillon aléatoire
Le test est fiable si pas plus de 25% des cellules ont moins de 5 cas de fréquence attendue
+Le Chi2 : La relation entre le sexe et le fait d’être syndiqué
Homme
Femme
Total
Syndiqué 13(65%)
9(33%)
22(47%)
Pas syndiqué
7(35%)
18(67%)
25(53%)
Total 20(100%)
27(100%)
47(100%
)
Homme
Femme Total
Syndiqué
9,4(47%)
12,6(47%
22(47%)
Pas syndiqué
10,6(53%)
14,4(53%)
25(53%)
Total 20(100%)
27(100%)
47(100%
)
Cas « réel » Fréquences attendues(par l’hypothèse nulle)
Chi2 (1) : 4,6 p<0,05 Chi2 (1) : 0
+À Londres: opinion sur la gestion du crime par le gouvernement chez les partisans travaillistes et les autres
Parti travailliste Autre parti Total
Très bonne gestion
2(1,79%)
2(1,30%)
4(1,55%)
Assez bonne gestion
45(40,18%
13(8,44%)
58(22,48%)
Ni bonne ni mauvaise gestion
31(27,68%)
48(31,17%
79(30,62%)
Assez mauvaise gestion
25(22,32%
39(25,32%)
64(24,81%)
Très mauvaise gestion
5(4,46%)
48(31,17%)
53(20,54%)
Total 112(100%)
154(100%)
266(100%)Chi2: 53.9768 p < 0.000 chisq.test(tableaucroisé)
Pearson's Chi-squared testdata: tableaucroisé X-squared = 53.9768, df = 4 , p-value < 0.000
R