+ Inférence tests univariés tests bivariés Eugénie Dostie-Goulet Plan de la présentation Comment faire une bonne recherche statistique Linférence Risques

+Inférence

tests univariéstests bivariés

Eugénie Dostie-Goulet

Plan de la présentationComment faire une bonne recherche statistiqueL’inférenceRisques de biaisDistribution normaleinférence : tests univariés (moyenne, pourcentage)Inférence : tableaux croisés et Chi2 (khi-deux)

+On ne prouve rien

Lacunes conceptuelles: restons modestes!

Impossible de spécifier le modèle parfaitement

Hasard dans l’échantillonnage

Notre objectif est donc de tester des hypothèses, de confronter nos résultats à nos attentes. Il y a toujours quelque chose à en tirer, peu importe le résultat.

+Réflexion théorique

La théorie est au coeur de l’analyse statistique: on base nos hypothèses sur cette théorie, on l’utilise pour alimenter la discussion sur nos résultats, on l’enrichit grâce à ces résultats et les conclusions qu’on en tire.

Il est donc essentiel de saisir les arguments théoriques et les débats qui s’y trouvent avant de se lancer dans des analyses trop poussées.

... ce qui ne veut pas dire qu’on ne « découvrira » rien!

+Formulation du problème

Identification d’un problème

Motivation: qui s’intéresse à nos résultats? Les décideurs s’intéressent à l’importance sociale ou

politique des résultats d’une recherche. Les chercheurs veulent une contribution à l’avancement

des connaissances scientifiques

Énoncé sous forme de question problème général, qu’on précise, et pour lequel on pose

une question

Inondations au Pakistan

Il y a plus de 125 000 Canadiens

d’origine pakistanaise...

On en connaît peu sur l’origine de l’aide en situation

de crise

Quels sont les facteurs influençant l’aide en situation de crise?

+Construction du cadre opératoire

Doit être plausible La littérature nous aide à en juger

Doit être vérifiable Basée sur des concepts/variables opératoires (précis,

mesurables)

Doit être précise Formulation sans ambiguïté

Doit être générale Le pouvoir d’explication va au-delà du cas particulier

Hypothèse

Plus la diaspora est nombreuse dans un pays d’accueil, plus ce pays est porté à dépenser lorsqu’un drame survient dans le pays

d’origine

+Construction du cadre opératoire

Des individus? des villes? des pays?

Unité d’analyse

Bien les choisir

Ce qu’on utilise pour « représenter » chaque variables

Variable dépendante, variable indépendante, variables contrôle

Indicateur

+Structuration

Aide internationale en millions de $

Importance de la diaspora

Médiatisation du drame

Nombre de morts

Résolution de l’ONU

Variables indépendantesou les « causes »

Variable dépendante ou la « conséquence »

Schéma conceptuel

+

Cueillette des données

Analyse des données / interprétation des résultats

+L’analyse confirmatoire

+Quelques notions d’inférence statistique

Inférence statistique: ensemble des méthodes permettant de tirer des conclusions sur un groupe déterminé – la population – à partir des données provenant d’un échantillon choisi dans cette population.

L’estimation ponctuelle est ajustée pour tenir compte de l’erreur échantillonnale: c’est la notion de « niveau de confiance ».

+Biais possibles

Biais échantillon Taux de réponse (par téléphone, environ 50 à 60%) Qui répond?

Ceux qui sont à la maison

Ceux que ça intéresse

Problématique du cellulaire

Biais répondant « Qualité » de la réponse

Rapports avec l’enquêteur

Désirabilité sociale

Image conforme, « normale »

Mémoire Hasard

Biais questionnaire Formulation des questions Formulation des réponses

Erreur échantillonnale

+Quelques termes

Population Échantillon

Définition L’ensemble des unités considérées par le chercheur

Un sous-ensemble de la population choisi pour étude

Symbole Lettres grecques ou majuscules

lettres minuscules

Caractéristique paramètre statistique

Taille N n

Moyenne (mu) x (x barre)

Écart-type σ (sigma) s

Pourcentage π (pi) p

-

+La distribution normaleUne distribution normale a deux paramètres: sa moyenne et son écart-type

Propriété fondamentale: pour toute combinaison de moyenne et d’écart-type, il y aura toujours une proportion de cas constante entre la moyenne et un point quelconque situé à une certaine distance de la moyenne exprimée en termes d’unité(s) d’écart-type

+ Environ 68 % des données se situent à l'intérieur de

l'intervalle : -S< x < + S.

Environ 95 % des données se situent à l'intérieur de l'intervalle : - 2S< x < + 2S.

Environ 99 % des données se situent à l'intérieur de l'intervalle : - 3S< x < + 3S.

+De la moyenne de l’échantillon à la moyenne de la population...

À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n


u = moyenne de la populationx = moyenne de l’échantillonsx = écart-type de la distribution d’échantillonnages = écart-type de l’échantillon

_

_-

-

-

-

-

+D’où vient le 1,96?

Avec une variable continue, la probabilité d’obtenir une certaine valeur précise est trop petite pour attribuer une probabilité à chaque valeur. On attribue donc une probabilité à un intervalle de valeurs par voie d’estimation par intervalle. Cette probabilité est représentée par l’aire sous la courbe de distribution normale.

C’est la cote Z qui permet d’attribuer une probabilité à un intervalle de valeurs.

À une cote Z de 1,96 correspond une aire sous la courbe de 0,975. Donc: Une proportion de 0,025 (ou 2,5%) des cas sont entre 1,96 et l’infini

positif, et 2,5% entre -1,96 et l’infini négatif. Donc 5% des cas sont à l’extérieur de l’intervalle allant de -1,96 à 1,96 (soit environ 2s de la moyenne).




μ = moyenne de la populationx = moyenne de l’échantillonsx = écart-type de la distribution d’échantillonnages = écart-type de l’échantillon

_

_-

-

-

-

-

+Distribution d’échantillonnage

Imaginez qu’on ne prend pas seulement un échantillon tiré au hasard, mais tous les échantillons possibles...

Exemple simple: population de cinq personnes, échantillon de deux cas. Combien d’échantillons possibles? 10

Exemple complexe: population de 5 000 000 d’électeurs québécois, échantillon de 1000 cas. Combien d’échantillons possibles?

27 000 000 000 000 000 000 000 000 000 000 000 000 000

Donc imaginez qu’on prend la moyenne de chacun de ces échantillons... on peut alors construire notre distribution d’échantillonnage

À partir de 30 cas, la moyenne de cette distribution d’échantillonnage correspond à la moyenne de la population & la distribution d’échantillonnage suit une distribution

normale.




_

_-

-

-

-

Tous les éléments de la formule affectent l’ampleur de l’intervalle: 1)Le niveau de confiance: plus on veut être confiant, plus grand sera l’intervalle (et moins l’estimation sera précise2)L’écart-type de l’échantillon: plus il y a de dispersion, plus grand sera l’intervalle (et moins l’estimation sera précise)3)La taille de l’échantillon: plus grand est l’échantillon, plus petit sera l’intervalle (et plus l’estimation sera précise)

+Exercice En Grande-Bretagne, on a demandé à un échantillon de

2326 électeurs de donner leur appréciation de chacun des partis sur une échelle de 0 à 10.

Quel est l’intervalle de valeurs pour la moyenne dans la population pour chacun des partis?

Sommes-nous exacts si nous affirmons qu’en moyenne, les Britanniques préfèrent les Libéraux?

Moyenne Écart-type

Travaillistes 4,38 3,42

Conservateurs 3,89 3,05

Libéraux-Démoc.

4,62 2,93

+Le tableau croisé

Lorsqu’on travaille avec des données quantitatives, le tableau croisé est utilisé pour observer la relation entre deux variables lorsque ces variables ont peu de catégories. Un maximum de 20 cellules est fortement recommandé.

En analyse confirmatoire, on travaille avec une variable dépendante et au moins une variable indépendante. Dans un tableau croisé, la convention veut que la variable indépendante soit sur le haut (colonnes) et la variable dépendante sur le côté gauche (lignes, ou rangées).

Les pourcentages font référence à la variable indépendante (colonnes).

+Le test du Chi2

Basé sur l’hypothèse que le chercheur a établi à l’avance une relation entre les deux variables

Suppose un échantillon aléatoire

Le test est fiable si pas plus de 25% des cellules ont moins de 5 cas de fréquence attendue

+Le Chi2 : La relation entre le sexe et le fait d’être syndiqué

Homme

Femme

Total

Syndiqué 13(65%)

9(33%)

22(47%)

Pas syndiqué

7(35%)

18(67%)

25(53%)

Total 20(100%)

27(100%)

47(100%

)

Homme

Femme Total

Syndiqué

9,4(47%)

12,6(47%

22(47%)

Pas syndiqué

10,6(53%)

14,4(53%)

25(53%)

Total 20(100%)

27(100%)

47(100%

)

Cas « réel » Fréquences attendues(par l’hypothèse nulle)

Chi2 (1) : 4,6 p<0,05 Chi2 (1) : 0

+À Londres: opinion sur la gestion du crime par le gouvernement chez les partisans travaillistes et les autres

Parti travailliste Autre parti Total

Très bonne gestion

2(1,79%)

2(1,30%)

4(1,55%)

Assez bonne gestion

45(40,18%

13(8,44%)

58(22,48%)

Ni bonne ni mauvaise gestion

31(27,68%)

48(31,17%

79(30,62%)

Assez mauvaise gestion

25(22,32%

39(25,32%)

64(24,81%)

Très mauvaise gestion

5(4,46%)

48(31,17%)

53(20,54%)

Total 112(100%)

154(100%)

266(100%)Chi2: 53.9768 p < 0.000 chisq.test(tableaucroisé)

Pearson's Chi-squared testdata: tableaucroisé X-squared = 53.9768, df = 4 , p-value < 0.000

R

Documents

+ Inférence tests univariés tests bivariés Eugénie Dostie-Goulet Plan de la présentation Comment faire une bonne recherche statistique Linférence Risques