109
Cned – Université Lyon 2 – Université de Rouen Licence de sciences de l’éducation Carole Daverne – Danièle Trancart Méthodes quantitatives Cours Directrice de publication : Valérie Brard-Trigo Les cours du Cned sont strictement réservés à l’usage privé de leurs destinataires et ne sont pas destinés à une utilisation collective. Les personnes qui s’en serviraient pour d’autres usages, qui en feraient une reproduction intégrale ou partielle, une traduction sans le consentement du Cned, s’exposeraient à des poursuites judiciaires et aux sanctions pénales prévues par le Code de la propriété intellectuelle. Les reproductions par reprographie de livres et de périodiques protégés contenues dans cet ouvrage sont effectuées par le Cned avec l’autorisation du Centre français d’exploitation du droit de copie (20, rue des Grands Augustins, 75006 Paris).

Methodologie_quantitatives_2010(1)

Embed Size (px)

DESCRIPTION

Cours de méthodologie quantitative utilisé dans le cadre d'une licence3 Science de l'Education

Citation preview

Page 1: Methodologie_quantitatives_2010(1)

Cned – Université Lyon 2 – Université de Rouen

Licence de sciences de l’éducation

Carole Daverne – Danièle Trancart

Méthodes quantitatives

Cours

Directrice de publication : Valérie Brard-Trigo

Les cours du Cned sont strictement réservés à l’usage privé de leurs destinataires et ne sont pas destinés à une utilisation collective. Les personnes qui s’en serviraient pour d’autres usages, qui en feraient une reproduction intégrale ou partielle, une traduction sans le consentement du Cned, s’exposeraient à des poursuites judiciaires et aux sanctions pénales prévues par le Code de la propriété intellectuelle. Les reproductions par reprographie de livres et de périodiques protégés contenues dans cet ouvrage sont effectuées par le Cned avec l’autorisation du Centre français d’exploitation du droit de copie (20, rue des Grands Augustins, 75006 Paris).

Page 2: Methodologie_quantitatives_2010(1)

Sommaire

Introduction ........................................................................................................................ 4

Chapitre 1 Production de données 1. Mise en œuvre des notions fondamentales de la statistique ........................................... 11 1A. Population, individu ..................................................................................................... 11 1B. Recensement et sondage ............................................................................................. 12 1C. Représentativité ......................................................................................................................... 12

1D. Caractères ou variables statistiques ............................................................................. 12

2. Présentation approfondie d’un outil : le questionnaire ................................................... 14

2A. Qu’est-ce qu’un questionnaire ? .................................................................................. 15

2B. À propos de la fabrication du questionnaire ................................................................. 15

2C. Classification des questions selon la nature des variables étudiées .............................. 15

2D. Quand le questionnaire est rédigé ............................................................................... 17

3. Choix d’un échantillon : notions élémentaires sur les sondages ..................................... 18

3A. Méthodes empiriques de sondage................................................................................ 18

3B. Méthodes aléatoires de sondage .................................................................................. 19

3C. Les panels ................................................................................................................... 20

Chapitre 2 Description statistique de tableaux à une variable 1. Situation générale d’étude ............................................................................................. 22

2. Traitement des données qualitatives nominales ............................................................. 24

2A. Situation d’étude ......................................................................................................... 24

2B. Exposé théorique ......................................................................................................... 25

2C. Traitement des données .............................................................................................. 26

3. Traitement des variables qualitatives ordinales .............................................................. 29

3A. Situation d’étude ......................................................................................................... 29

3B. Exposé théorique ......................................................................................................... 29

3C. Traitement des données .............................................................................................. 30

4. Traitement des variables qualitatives textuelles ............................................................. 34

5. Traitement des variables quantitatives discrètes ............................................................ 34

5A. Situation d’étude ......................................................................................................... 34

5B. Exposé théorique ......................................................................................................... 35

8 7007 TG WB 00

Page 3: Methodologie_quantitatives_2010(1)

5C. Traitement des données .............................................................................................. 39

6. Traitement des variables quantitatives continues ........................................................... 44

6A. Situation d’étude ......................................................................................................... 44

6B. Exposé théorique ......................................................................................................... 45

6C. Traitement des données .............................................................................................. 52

8 7007 TG WB 00

Page 4: Methodologie_quantitatives_2010(1)

Chapitre 3 Échantillon aléatoire : intervalle de confiance d’une proportion ou d’une moyenne 1. Intervalle de confiance d’une proportion .................................................................. 64

1A. Situation d’étude ......................................................................................................... 64

1B. Exposé théorique ......................................................................................................... 65

1C. Traitement des données .............................................................................................. 68

2. Intervalle de confiance d’une moyenne .................................................................... 69

2A. Situation d’étude ......................................................................................................... 69

2B. Exposé théorique ......................................................................................................... 69

2C. Traitement des données .............................................................................................. 70

Chapitre 4 Décrire simultanément deux variables 1. Décrire simultanément deux variables qualitatives ................................................. 71

1A. Situation d’étude ......................................................................................................... 71

1B. Exposé théorique ......................................................................................................... 72

1C. Traitement des données .............................................................................................. 73

2. La notion fondamentale d’indépendance statistique ............................................... 74

2A. Exposé théorique ........................................................................................................ 74

2B. Traitement des données ............................................................................................... 74

3. Une mesure d’association : le χ² dit d’écart à l’indépendance ............................... 78

3A. Situation d’étude ......................................................................................................... 78

3B. Exposé théorique ......................................................................................................... 78

3C. Traitement des données .............................................................................................. 79

4. Le test du χ² d’indépendance de deux variables qualitatives ................................. 80

4A. Situation d’étude ......................................................................................................... 80

4B. Exposé théorique ......................................................................................................... 80

4C. Traitement des données .............................................................................................. 83

5. Étude simultanée de deux variables quantitatives ................................................... 85

5A. Situation d’étude ......................................................................................................... 85

5B. Exposé théorique ......................................................................................................... 86

5C. Traitement des données .............................................................................................. 90

Exercices .......................................................................................................................... 97

Corrigés ......................................................................................................................... 102

8 7007 TG WB 00

Page 5: Methodologie_quantitatives_2010(1)

8 7007 TG WB 00

Page 6: Methodologie_quantitatives_2010(1)

Présentation des auteurs

Carole DAVERNE Maître de conférences à l’Université de Nantes et sociologue de l’éducation au Centre de recherche en éducation de Nantes (CREN EA 2661). Docteur en sciences du langage.

(2008). « Une jeune élite lycéenne. Comment se préparer pour un monde incertain ? » (avec Yves Dutercq), Les sciences de l’éducation. pour l’ère nouvelle (à paraître).

(2006). « Les apports de la statistique textuelle face à un corpus hétérogène : le lo-giciel ALCESTE confronté à l’héritage social et culturel », in Léglise I., Canut E., Desmet I., Garric N. (dir.) Applications et implications en sciences du langage, L’Harmattan, Paris, p.151-175.

Danièle TRANCART Maître de conférences à l'Université de Rouen. Département des Sciences de l’Education. Docteur en Statistiques mathématiques.

(2006). Fragmentations territoriales et inégalités scolaires : des relations complexes entre la distribution spatiale, les conditions de scolarisation et la réussite des élèves, Éducation & formations, n° 74.

(2006). Les inégalités régionales en éducation : capital social et performance insti-tutionnelle, in Bevort, Lallement, Le capital social, La Découverte Mauss, 2006.

Ce cours porte sur le thème des méthodes quantitatives et prend appui sur l’approche statistique en apportant les notions et les outils nécessaires à la com-préhension de ces méthodes dans une perspective à dominante technique.

L'objectif global de ce cours est de fournir aux étudiants les outils nécessaires à l’élaboration, dans le cadre d’une recherche, d’une démarche de terrain et de son analyse.

La réalisation de cet objectif passe par la familiarisation avec certains outils et avec certaines techniques d’analyse.

Tout d’abord des informations et conseils aux étudiants.

Le premier chapitre traite de la production de données.

Le deuxième chapitre traite de la description statistique de tableaux à une variable.

Le troisième chapitre est relatif à l’échantillon aléatoire : intervalle de confiance d’une proportion et d’une moyenne.

Le quatrième chapitre traite de la description statistique de tableaux à 2 variables.

8 7007 TG WB 00

Page 7: Methodologie_quantitatives_2010(1)

Enfin, des exercices de synthèse accompagnés de leurs corrigés sont proposés.

Informations et conseils aux étudiants

Objectifs et contenu

Objectifs Contenu

Expliciter les questions d’une problématique dont les réponses relèvent d’une approche sta-tistique.

Décrire, traiter, analyser des données de manière pertinente dans le cadre d’une étude en particu-lier dans le domaine éducatif.

Lire avec un regard critique et distancié, les conclusions de diverses études statistiques apparaissant dans des rapports de recherche en Sciences de l’Éducation,

Exploiter des notions et des démarches mathé-matiques à des fins d’outils, et de ce fait modi-fier dans un sens positif le rapport souvent négatif que nombre entretient avec cette science.

S’exercer à un raisonnement intégrant l’idée de « risque d’erreur » dans l’énoncé de ses conclu-sions.

S’exercer à l’interprétation de phénomènes éducatifs sur la base de données statistiques sur des “faits éducatifs” et sur des relations entre ces « faits ».

Des éléments théoriques pour : – modéliser des situations d’étude :

– population, – échantillon, – unités statistiques, – variables statistiques ;

– recueillir/produire/construire des don-nées pertinentes pour l’étude :

– recensement, – sondage, – représentativité, – enquête par questionnaire ;

– décrire les données produites : – tableaux statistiques, – graphiques statistiques, – mode, quartiles, moyenne, – variance, écart-type ;

– estimer des paramètres inconnus : – estimation d’une moyenne, – estimation de proportion ;

– tester des hypothèses ; – établir des liaisons entre des variables.

8 7007 TG WB 00

Page 8: Methodologie_quantitatives_2010(1)

S’exercer à la communication des résultats des analyses des données en distinguant clairement le modèle utilisé, de la réalité qu’il est supposé représenter, en séparant bien les traitements menés à l’intérieur du modèle, des interpréta-tions reformulées dans le contexte du problème.

Comment travailler ce cours ?

Nous vous invitons à prendre d'abord connaissance des objectifs que nous avons fixés puis nous vous conseillons de lire l'ensemble du chapitre, non en détail, mais afin de vous approprier son organisation générale dans une perspective de compré-hension de la matière. Notre but n’est pas de vous conduire à une formation de sta-tisticien professionnel. Les situations-problèmes proposées offrent une approche que nous considérons comme transférable à de nombreuses problématiques plus réelles abordées dans des recherches en éducation.

Il convient également de tenter de résoudre par vous-même les situations-problèmes proposées, avant d’aller vous investir dans le traitement qui vous est suggéré. Par ailleurs, nous vous invitons aussi à aborder chaque problème par les deux questions :

De quoi s’agit-il ?

Quel traitement peut-on faire ? Dans quel but ?

Après avoir travaillé ce que nous proposons, nous vous incitons à compléter votre formation en résolvant quelques autres situations problèmes que vous trouverez dans les ouvrages cités en bibliographie de base.

En ce qui concerne les traitements numériques, nous vous conseillons l'usage d'une calculatrice avec les fonctions statistiques de base (moyenne, écart-type). Cet usage sera d'ailleurs requis pour l'épreuve d'examen afin de réduire le temps des calculs.

Quelle organisation du temps ?

Bien que les rythmes et les styles d’apprentissage comportent des caractéristiques très personnelles dans le cadre d’un travail en autonomie, chaque activité exige un certain nombre d'heures de travail que nous estimons de la sorte :

Étude des séquences proposées avec les exercices : total = 24 h ainsi réparties

Production des données : 2 heures.

Ce chapitre ne fera pas l’objet d’interrogation à l’examen mais il s’agit, d’une part, de se familiariser avec le vocabulaire de la statistique et d’autre part de

8 7007 TG WB 00

Page 9: Methodologie_quantitatives_2010(1)

fournir un panorama complet de cette question qui pourra être retravaillé lors de l’année de M1, en cas de besoin.

Description statistique de tableaux à une variable : 8 heures

Echantillon aléatoire : intervalle de confiance d’une proportion et d’une moyenne : 4 heures

Description statistique de tableaux à 2 variables : 6 heures

Exercices de synthèse : 4 heures

Bibliographie de base conseillée

Niveau de lecture N :

1 Documentation de base pour une première approche

2 Pour aller plus loin

3 Pour approfondir et étayer une réflexion déjà engagée

N Références

1 Gueguen N. (1998) Manuel de statistique pour psychologues, Paris, Dunod, 294 p.

1 Langouet G., Porlier J.C. (1989) Mesure et statistique en milieu éducatif, Paris : ESF éditeur (3ème édition) 201 p.

1 Mialaret G. (1991) Statistiques appliquées aux sciences humaines, PUF, 412 p.

2 Martin L., Baillargeon G. (1989) Statistique appliquée à la psychologie Les éditions SMG (2ème édi-tion) 799 p.

3 Saporta G. (1990) Probabilités, Analyse des données et Statistique, Éditions Technip (1ère édition) 493 p.

1 Berthier N. (1998) Les techniques d’enquête, Armand Colin, 254 p.

8 7007 TG WB 00

Page 10: Methodologie_quantitatives_2010(1)

8 7007 TG WB 00

Quelques sites à titre indicatif

http://www.insee.fr/

Site de l’institut National de la Statistique et des Etudes Economiques

http://www.cnam.agropolis.fr/

Il s’agit d’un site du CNAM Région Languedoc Roussillon dans lequel vous trouverez un cours de statistiques

http://www.cereq.fr/

Site du Centre d’Etudes et de Recherches sur les Qualifications.

http://centre.quetelet.fr

Ressources statistiques

http://www.penombre.org

http://www.image.cict.fr/

Site d’ingénierie textuelle (traitement de données textuelles)

Page 11: Methodologie_quantitatives_2010(1)

Chapitre 1 Production de données Si nous considérons que l'objet principal de la statistique est l'interprétation de données après leur traitement, il est clair que cet objet doit aussi intégrer la question de la production des données. Produire, traiter et interpréter constituent trois activités du chercheur en sciences de l'éducation qui recourt à un modèle statistique pour mettre à l'épreuve ses hypo-thèses.

Rappelons ici les principales phases d’une recherche

La première phase est relative à la conception, c’est à dire à la définition de l’objet en fonction des hypothèses de recherche.

La deuxième phase est relative au choix de la méthode d’enquête qui s’appuie sur l’entretien ou le questionnaire, et à sa planification. Par planifier l’enquête, nous entendons organiser le déroulement, déterminer la population susceptible d’être interrogée, puis consti-tuer l’échantillon de taille fixée, enfin expliciter la façon de conduire les interrogations en fonction des diverses contraintes.

La troisième phase concerne la fabrication de l’instrument de mesure. Dans le cas du questionnaire, il s’agit alors de le construire selon des règles propres que nous expliciterons, et de le tester auprès d’un sous échantillon afin de vérifier la compréhension des questions, les nomenclatures utilisées, les réactions de rejet, etc.

La quatrième phase porte sur le recueil des données en fonction de l’échantillon retenu et du mode d’administration associé.

La cinquième phase porte sur l’analyse des données après préparation de celles-ci sous forme spécifique.

La sixième phase est relative à l’étape de rédaction du rapport final.

Cette partie est consacrée à la question de la production des données replacée dans un cadre théorique empruntant partiellement au domaine de la statistique mathématique.

1. Mise en œuvre des notions fondamentales de la statistique

1A. Population, individu L’ensemble des objets concrets ou conventionnels observables sur lesquels porte l’étude détermine une population. Cette population est constituée d’éléments appelés individus ou unités statistiques. La délimitation de la population doit être la plus précise possible.

Une population peut être définie par l’ensemble : – des sortants du système éducatif en 1998 ; – des élèves de CM2 scolarisés dans l’académie de Rouen ou celle de Lyon ; – des lycéens des classes de seconde d’établissements français métropolitains ; –des candidats au baccalauréat en 1999 toutes séries confondues (France entière) ; – des départements de France métropolitaine.

Les individus ou unités statistiques correspondants à ces exemples, sont respectivement : un élève de CM2 scolarisé dans l'académie de Rouen ou de Lyon, un lycéen de classe de seconde, un candidat au baccalauréat en 1999, un département de France métropolitaine, etc.

8 7007 TG WB 00

Page 12: Methodologie_quantitatives_2010(1)

Chapitre 1 : Production de données

1B. Recensement et sondage Si la collecte des informations concerne l’ensemble de tous les individus d’une population, on parle alors de recensement. La collecte est dite exhaustive. Le recensement national or-ganisé par l’INSEE en est un exemple. On peut également citer les statistiques du ministère du Travail et de l’Emploi concernant les chômeurs ou encore les statistiques du ministère de l’Éducation nationale qui permettent la gestion du nombre d’élèves, d’enseignants ou d’établissements. Les statistiques électorales ou le référendum font partie des recense-ments.

Dans le recensement de l’INSEE, il faut noter que des erreurs sont toujours possibles : per-sonnes comptées deux fois, personnes sans domicile fixe échappant à toute possibilité d’être enquêtée, personnes temporairement absentes de leur domicile et voyageant hors de la France. Empiriquement cette erreur de mesure est estimée à environ 0,5%.

Si la collecte n’est que partielle, on parle alors de sondage. Toutefois, des conditions fon-dées sur des règles explicites précises sont requises pour déterminer l’échantillon sur lequel est effectuée la collecte. La collecte partielle est imposée par diverses contraintes.

Économiquement un recensement peut être très onéreux. La collecte partielle est alors moins coûteuse.

Pratiquement un recensement peut être impossible. C’est le cas si nous envisageons l’étude de la fabrication mécanisée d’une pièce métallique devant avoir des dimensions très précises. A priori la machine peut produire une infinité de pièces, c’est à dire que l’univers statistique est un ensemble infini inaccessible au recensement.

Pratiquement un recensement peut être inadapté. C’est le cas des études de contrôle de fabrication qui vont nécessiter la destruction de l’objet, unité statistique comme par exemple l’étude de la durée de vie d’une ampoule électrique.

Des questions émergent auxquelles nous tenterons de répondre dans ce cours.

Comment constituer un échantillon ?

Que veut dire représentatif ?

Quelle crédibilité peut-on accorder à un sondage ?

1C. Représentativité En quel sens pouvons-nous utiliser le qualificatif représentatif pour un échantillon d’une po-pulation (parente) ? ...dans le sens d’un fragment de cette population nous permettant d’obtenir une information la plus proche possible de celle que nous obtiendrions par recen-sement. De là nous pouvons y voir l’idée d’un modèle réduit. Une autre façon d’envisager cette notion de représentativité est de considérer la probabilité d’appartenance d’une unité statistique à l’échantillon. Ainsi en nous rattachant aux idées d’équité et de compensation, une « certaine » représentativité de l’échantillon paraît être recevable si nous respectons la condition suivante : chaque unité statistique a la même chance d’appartenir à l’échantillon.

1D. Caractères ou variables statistiques Chaque individu d’une population possède des caractéristiques propres ou partagées par d’autres individus. L’étude porte sur ces caractéristiques vues au niveau de la population et non pas au niveau de l’individu. Derrière cette perspective, se profile un concept clé de la statistique : la variabilité.

Par exemple pour chaque élève de CM2, on peut analyser : – son niveau de réussite à une épreuve dans une discipline ; – le temps mis pour réaliser l’épreuve à laquelle il est soumis ; – son appartenance ou pas à un club sportif ;

8 7007 TG WB 00

Page 13: Methodologie_quantitatives_2010(1)

Chapitre 1 : Production de données

– la couleur de ses yeux ; – son poids ou sa taille ; – ses préférences sur les matières enseignées.

Pour faire le relevé de chaque caractéristique, il faut définir un instrument de mesure qui peut être soit du type de ceux des mesures physiques comme ceux obtenus avec un chro-nomètre, une balance, une toise, un ampèremètre, un pluviomètre, un compteur de passage à une entrée, etc., soit prendre la forme d’un questionnaire, d’un entretien, ou d’un enregis-trement audiovisuel, etc. Ainsi, à chaque caractéristique, on associe par l’intermédiaire d’un caractère ou variable statistique qui modélise celle-ci, le résultat de sa mesure.

Par exemple, ces résultats peuvent être : – les notes entières de 0 à 20 ; – les durées en minutes ; – les réponses oui ou non à une question posée dans un questionnaire ; – les couleurs des yeux ; – les masses en kg ; – les tailles en cm ; – le rang des préférences des matières enseignées.

Les variables statistiques représentant ce qui est mesuré sur les individus d’une population ou d’un échantillon, sont classées de la façon suivante.

Les variables (qualitatives) nominales

Les résultats sont de nature qualitative. L’ensemble des résultats possibles, que nous nom-mons modalités, ne possède pas de structure ayant des propriétés mathématiques remar-quables habituelles autorisant l’usage de la comparaison ou de la grandeur. Les modalités sont codées à l’aide de mots ou d’expressions courtes ou parfois à l’aide de nombres qui n’autorisent cependant aucunement une interprétation en termes de grandeur. Par exemple la variable « genre » possède deux modalités « Masculin » et « Féminin », codées respecti-vement « 1 » et « 2 ». Cela ne signifie nullement que masculin vient avant féminin ni que féminin est le double de masculin. On pourrait citer encore les départements français et leur codage numérique.

Les variables (qualitatives) ordinales

Les résultats sont encore de nature qualitative. Mais l’ensemble des résultats possibles pos-sède une structure d’ordre autorisant l’usage de la comparaison Les modalités sont codées à l’aide de mots ou d’expressions courtes marquant une gradation ou parfois à l’aide de nombres. Dans ce dernier cas, l’ordre des nombres traduit la gradation.

8 7007 TG WB 00

Page 14: Methodologie_quantitatives_2010(1)

Chapitre 1 : Production de données

Par exemple la variable goût pour la statistique peut être modélisée avec les modalités sui-vantes :

Expression verbale Je n’aime pas du tout J’aime un peu J’aime beaucoup J’aime à la folie

Expression numérique 1 2 3 4

Pour ces variables, les analyses statistiques doivent prendre en compte l’ordre des modali-tés.

Les variables quantitatives discrètes ou continues

Les résultats sont alors de nature quantitative. L’ensemble des résultats possibles, que nous nommons valeurs, est un ensemble de nombres qui possède une structure ayant des pro-priétés mathématiques remarquables habituelles autorisant l’usage de la comparaison, de la grandeur et des opérations arithmétiques ou algébriques. Ce que nous nommons variable quantitative est aussi désigné par variable numérique.

Nous distinguons deux types :

Les variables quantitatives discrètes correspondent à un ensemble fini ou dénombrable de résultats. Intuitivement chaque résultat est isolable. Par exemple, les variables statistiques suivantes :

– nombre d’enfants par famille ; – nombre d’élèves par classe de seconde ; – nombre de réussites à un QCM ; –proportion des filles par classe de terminale scientifique.

Les variables quantitatives continues sont celles qui ne sont pas discrètes. L’ensemble des résultats possibles est l’ensemble des nombres réels ou un sous-ensemble. L’usage de ces variables nécessite des outils mathématiques plus élaborés que pour les variables quantita-tives discrètes. Une approche mathématique consiste à faire usage des intervalles pour ca-ractériser les résultats. Cela revient à passer par l’intermédiaire de modalités. Nous verrons sur des cas particuliers comment nous prenons en considération cette propriété.

Les variables textuelles

De nombreuses méthodes ont été mises au point grâce au développement d’outils informa-tiques qui ont apporté un soutien formidable. Le traitement de ce type de variable est abordé dans le cours de méthodes qualitatives.

2. Présentation approfondie d’un outil : le questionnaire L’enquête par questionnaire est une méthode complémentaire de l’enquête par entretiens. En effet, avoir recours à un questionnaire suppose que l’on sache précisément quelles ques-tions poser. La préparation d’un questionnaire va nécessiter, la plupart du temps, d’avoir ef-fectué et analysé quelques entretiens non directifs préalables. Il y a donc complémentarité entre les approches qualitatives et les approches quantitatives.

Les enquêtes par questionnaire développées ici, permettent de recueillir, de traiter et d'inter-préter des données. Elles constituent un outil essentiel de la perception du réel et de l'élabo-ration de modèles permettant d'accéder à la compréhension de phénomènes complexes. Leurs résultats sont utilisés pour la gestion de la société dans les domaines dépendant des développements industriels, agricoles, économiques et sociaux, médicaux, environnemen-

8 7007 TG WB 00

Page 15: Methodologie_quantitatives_2010(1)

Chapitre 1 : Production de données

taux, etc. C'est un outil de communication pour informer les citoyens, les acteurs sociaux ou les clients.

2A. Qu’est-ce qu’un questionnaire ? Un questionnaire est une suite organisée de questions intentionnellement conçues pour être posées à un individu enquêté dans une situation particulière. Son but est de recueillir systé-matiquement des informations, de nature parfois très diverse, qui doivent pouvoir être exploi-tables.

Le questionnaire est un outil fréquemment utilisé en sciences humaines et sociales pour re-cueillir des informations qui seront analysées à l'aide des méthodes quantitatives. Entretien et questionnaire sont deux outils complémentaires. L’entretien est un instrument particuliè-rement bien adapté à une approche compréhensive des phénomènes humains, alors que le questionnaire s'avère être plus efficace pour expliciter les lois statistiques qui régissent les phénomènes étudiés et pour fonder une approche explicative. Les enquêtes par question-naire apparaissent dès la fin du 19e siècle, précédant ainsi l’avènement des théories des sondages développées au 20e siècle.

Dans le domaine des enquêtes économiques et sociales, le recours à cet outil de production de l’information est nécessaire pour se doter d’une bonne représentation de la réalité. C’est une forme d’information standardisée sur des comportements, des opinions ou des attitudes. Les phénomènes étudiés sont divers : rubriques préférées des lecteurs de tel magazine, modes de consommation ou modes de vie privilégiés, trajectoires d’insertion des jeunes sur le marché du travail...

Une enquête par questionnaire requiert quelques règles techniques qui reposent, bien en-tendu, sur une réflexion théorique liée à l’objet étudié. Selon les phases de l’enquête, les sa-voirs mis en œuvre sont différents.

2B. À propos de la fabrication du questionnaire Le plus souvent, un questionnaire est composé de deux parties. L’une est relative à l’objet de l’enquête proprement dit et l’autre aux variables sociodémographiques ou signalétiques. Les questions sur l’objet de l’enquête se présentent sous la forme de faits, d’opinions, d’attitudes, de représentations, ou de connaissances. Les questions de signalétique portent, pour la plupart, sur le sexe, l’âge, la catégorie socioprofessionnelle, la situation de famille, le type d’habitat, etc.

Les réponses fournies par les personnes interrogées ne sont que des « discours » sur des pratiques ou des représentations. Cette mise en garde explique pourquoi il ne faut pas se contenter d’une seule mesure ou d’une seule question pour appréhender un phénomène. Il faut multiplier les indicateurs afin de réduire l’imprécision de la mesure unique.

2C. Classification des questions selon la nature des variables étudiées Les variables étudiées sont, nous l’avons vu, soit nominales, ordinales, textuelles ou numé-riques. Par extension les questions posées seront du même type.

Les questions à réponses nominales

Nous donnerons trois exemples selon la nature des réponses possibles :

Lorsque la question proposée ne possède que deux modalités nominales de réponses, on dit que les réponses sont dichotomiques.

Exemple 1 : Envisagez-vous de suivre des études supérieures ?

Oui

Non

8 7007 TG WB 00

Page 16: Methodologie_quantitatives_2010(1)

Chapitre 1 : Production de données

Lorsque la question proposée présente plus de deux modalités de réponses, on dit que les réponses sont à plusieurs modalités.

Exemple 2 : Quelle est votre situation de famille ?

Marié

Célibataire

Divorcé

Veuf

Lorsque l’on propose un ensemble de modalités et que la personne enquêtée peut choisir plusieurs réponses, on dit que la question est à choix multiples. On peut préciser le nombre de réponses à choisir.

Exemple 3 : Après la formation que vous suivez actuellement, qu’envisagez-vous de faire ? Vous choisirez deux modalités.

Chercher du travail

Continuer une formation

Voyager, visiter le monde

Fonder une famille

Partir travailler à l’étranger

Autres. Préciser ……………..

La modalité « autres » permet à la personne interrogée de proposer de nouvelles possibilités qui pourront être analysées grâce à une grille de post-codification élaborée a posteriori en dépouillant une partie des questionnaires.

Les questions ordinales

Dans les trois exemples donnés ci-dessous, les réponses sont toutes ordonnées selon une gradation.

Exemple 1 : Le métier d’enseignant comporte un certain nombre de taches différentes. Toutes ne sont pas perçues comme d’égale importance. Par exemple, choisir et mettre en œuvre les méthodes pédagogiques les mieux adaptées aux objectifs poursuivis. Est-ce :

1 Très peu important

2 Peu important

3 Moyennement important

4 Important

5 Très important

Cette échelle de réponses possibles pourrait ne comporter que 4 échelons en supprimant l’échelon moyen, en forçant ainsi l’enquêté à se positionner. On peut également le remplacer par l’item « indécis » ou « ne sait pas », sachant que les experts ne sont pas tous d’accord sur le bien fondé de cette rubrique.

Exemple 2 : Comment voyez-vous votre avenir ? Répondez à la question posée en notant une croix sur chacune des échelles proposées comme dans l’exemple suivant :

Gai X Triste Je vois mon avenir très gai

Gai X Triste Je vois mon avenir plutôt triste

Gai X Triste Je vois mon avenir ni triste ni gai

8 7007 TG WB 00

Page 17: Methodologie_quantitatives_2010(1)

Chapitre 1 : Production de données

Plus la réponse est portée près d’un des deux pôles, plus ce pôle caractérise le sentiment ou la représentation.

Gai X Triste

Agréable X Désagréable

Plein X Vide

Beau Laid

Exemple 3 : Étant donnée une série de propositions, 5 par exemple, les classer selon l’ordre de préférence. La proposition préférée reçoit le rang 1, et ainsi de suite jusqu’à 5.

Dans une étude portant sur des points de vue relatifs à l’apport d’une formation en géronto-logie, il a été demandé de ranger les items suivants :

Rang proposé Énoncés des items

Actualiser ses connaissances théoriques professionnelles

Sortir de la routine quotidienne

Mieux comprendre la relation avec les personnes âgées

Se confronter à des situations de formation

Compléter sa formation

Espérer une meilleure reconnaissance professionnelle

Là de nombreux traitements, plus ou moins complexes, existent mettant en œuvre ce qui est dénommé les statistiques de rang.

Les questions à réponses numériques ou quantitatives

Les réponses aux questions posées se présentent alors sous la forme d’un nombre : un re-venu ou un salaire en euros, un poids en kg, une taille en cm, un temps passé à étudier telle matière durant une semaine en heures, etc.

Elles renvoient aux variables quantitatives discrètes ou continues selon le cas.

2D. Quand le questionnaire est rédigé Une fois le questionnaire rédigé, il faut le tester auprès d’un sous-échantillon et éventuellement le corriger en fonction des résultats obtenus et des critiques expri-mées relativement à la pertinence et à la clarté des questions. Le questionnaire dé-finitif peut alors être administré selon un protocole de passation précis auprès d’un échantillon. Celui-ci sera choisi selon un plan préétabli au sein de la population dé-limitée concernée par l’étude. La taille de l’échantillon tient compte tant de critères économiques et scientifiques que des contraintes de la réalité du terrain et du mode de passation.

Exercice

Recherchez dans des journaux, des revues ou des livres que vous avez consultés pour vos études en licence, ou même dans votre vie quotidienne, des exemples de questionnaires. Analysez-les.

8 7007 TG WB 00

Page 18: Methodologie_quantitatives_2010(1)

Chapitre 1 : Production de données

3. Choix d’un échantillon : notions élémentaires sur les sondages Les méthodes de sondage diffèrent par la manière de prélever l’échantillon d’individus à ob-server. Pour que l’information recueillie auprès d’un échantillon de n personnes puisse s’étendre de manière pertinente et avec un risque minimal à la population parente, il faut respecter des règles précises de choix.

Un échantillon peut être obtenu selon l'une des quatre modalités générales suivantes :

Tirage avec remise Tirage sans remise

Méthode aléatoire A_R A_nR

Méthode empirique (non alétoire) nA_R nA_nR

Si une population est composée de N individus, nous appelons le rapport Nn

: le taux de

sondage.

Par exemple : on extrait 10 jetons d'un sac contenant 100 jetons distinctement numérotés : – le tirage peut s'effectuer sans remise ce qui signifie que l'on tire les jetons du sac les uns à la suite des autres ou encore que l'on tire les 10 jetons simultanément ; – le tirage peut s'effectuer avec remise, dans ce cas on tire un jeton. On note l'informa-tion recherchée, le numéro, puis on le remet dans le sac pour à nouveau tirer un jeton. On répète cette manipulation 10 fois.

Le calcul des probabilités correspondant est plus simple dans le cas de tirage avec remise et l'on admet couramment que lorsque la population concernée est d'effectif important le tirage d'un échantillon effectué sans remise est assimilé à un tirage avec remise. En effet il est très peu probable de tirer plusieurs fois le même individu !

3A. Méthodes empiriques de sondage Il s'agit des procédures nA_R ou nA_nR du tableau précédent. Elles sont les plus connues du grand public et les plus utilisées par les instituts de sondages d’opinion.

Méthode des quotas ou sondage « raisonné »

L’enquêteur prélève librement son échantillon à condition de respecter une composition donnée à l’avance : sexe, âge, catégorie professionnelle. Cette méthode est facile à mettre en œuvre et ne nécessite pas de liste de la population à étudier et suppose implicitement que les catégories retenues pour la détermination des quotas sont pertinentes quant à l’objet d’étude, ce qui est bien difficile à établir. Puisqu’on ne possède pas de liste de personnes susceptibles d’être interrogées, la probabilité pour qu’un individu de la population figure dans l’échantillon, reste a priori inconnue. Mais on procède par choix raisonné, en supposant que si l’échantillon reproduit fidèlement certaines caractéristiques (dites variables de contrôle) de la population étudiée, alors il sera bon (on dit parfois représentatif par abus de langage) pour d’autres caractéristiques à étudier. Ainsi, si la population se compose de 50% d’hommes, on imposera à l’enquêteur chargé de réaliser 10 interviews, un quota de 5 hommes pour 10 personnes enquêtées. Puis si la même population compte 10% d’agriculteurs, il devra y avoir une et une seule interview d’agriculteurs. Pour réaliser cette maquette à échelle réduite de la population, un recensement antérieur est nécessaire.

Cette méthode est utilisée par la plupart des instituts de sondage, qui ont depuis peu l’obligation de citer la méthode utilisée pour réaliser leur plan de sondage. Par exemple, on pourra lire que telle enquête menée par la SOFRES a été réalisée du 15 au 22 mars 2008 auprès d’un échantillon de 1 100 personnes en utilisant la méthode des quotas par sexe, âge et catégorie socioprofessionnelle. Ces quotas sont le plus souvent utilisés dans les

8 7007 TG WB 00

Page 19: Methodologie_quantitatives_2010(1)

Chapitre 1 : Production de données

études en sciences humaines, on peut également ajouter à cette liste le lieu d’habitation, dans sa composante rurale ou urbaine.

Le choix des individus est laissé à l’enquêteur à qui on impose quelques restrictions : dis-persion géographique, interdiction d’interroger des personnes se connaissant entre elles et connaissant l’enquêteur, interdiction d’interroger des passants dans la rue sans respecter quelques règles etc. Si au retour des enquêteurs, les quotas ne sont pas respectés, on peut procéder à un redressement en pondérant les individus.

B Méthode des unités types

On choisit des unités d’individus que l’on considère comme fortement représentatives de certaines catégories de la population.

Exemples :

– les cantons-types utilisés par l’INSEE pour étudier les régions agricoles : les cantons dé-terminés dans chaque région par des spécialistes ;

– les bureaux de vote pilotes pour des élections : bureaux de vote dont les résultats vérifiés sur de longues périodes figurent les résultats définitifs d’une ville, d’une région, etc.

Cette méthode repose sur une bonne connaissance préalable de ce qui caractérise l’objet à étudier, et elle a tendance à augmenter les contrastes.

Il existe d’autres méthodes empiriques mais aucune n’est réellement scientifique.

Elles rassemblent bon nombre de méthodes mises en œuvre intuitivement dans diverses études.

3B. Méthodes aléatoires de sondage Elles reposent sur le tirage au hasard des échantillons et le calcul des probabilités. Il s'agit des procédures A_R ou A_nR du tableau précédent. Simples ou stratifiées, elles nécessitent la connaissance d’une liste de noms ou d’adresses de toutes les personnes à interroger. Cette liste est appelée base de sondage.

Sondages aléatoires simples

La méthode consiste à tirer au hasard, à l’aide d’une table de nombres au hasard ou avec le générateur de nombres pseudo-aléatoires d’un tableur, n individus dans une population de taille N. Ce sondage peut être avec ou sans remise. Dans les deux cas, chaque individu a la probabilité 1/N d’être tiré. On dit alors que l’échantillon est représentatif de la population étu-diée en ce sens que tous les individus ont la même probabilité de figurer dans l’échantillon. Cette procédure est équivalente à un tirage dans une urne, où chaque individu possède un numéro de 1 à N. À chaque tirage dit avec remise1 toutes les boules ont la même probabilité ou la même chance d’être tirées. Pratiquement, il existe des procédés de tirage automatique en utilisant des programmes de génération de nombres aléatoires ou des tables de nombres au hasard. Les individus sont alors désignés par le sort, contactés (courrier, visite, appel té-léphonique…) et l’enquêteur ne peut en aucun cas remplacer une personne par une autre de sa propre initiative. Dans le cas d’un tirage sans remise, le choix de l’échantillon prend en

compte le taux de sondage Nn

.

Exemple : si une entreprise désire mener une enquête auprès de ses clients, elle peut utili-ser son fichier de la clientèle. Ainsi, La Redoute procède souvent à ce type d’enquête auprès de tous ses clients. On compte près d’un ménage sur deux qui aurait au moins une fois pro-cédé à un achat par correspondance auprès de La Redoute, soit près de 10 millions

1 Lorsque la taille de la population est très importante par rapport à la taille de l’échantillon, tirage avec remise ou sans remise sont équivalents du point de vue d’un certain nombre de traitement mathématiques.

8 7007 TG WB 00

Page 20: Methodologie_quantitatives_2010(1)

Chapitre 1 : Production de données

d’individus au sens statistique. Le Ministère de l’Éducation Nationale gère également des fi-chiers d’élèves, comme ceux des candidats à divers examens et concours ou ceux des éta-blissements (écoles, collèges, lycées). Des enquêtes par sondage aléatoire sont souvent menées selon ce principe de construction.

Ces méthodes aléatoires simples permettent, par l’intermédiaire du calcul des probabilités, de donner, comme on le verra, un degré de confiance des résultats obtenus pour une pro-portion ou une moyenne dans l’estimation par intervalle de confiance ou d’appliquer des tests statistiques d’hypothèses.

Sondages aléatoires stratifiés

L’idée consiste à prélever l’échantillon dans des groupes homogènes de la population ou strates. Cette méthode permet d’améliorer considérablement la précision des estimations. Les strates étant fixées, on peut chercher le nombre optimal d’individus à tirer dans chaque strate, ou inversement trouver les meilleures strates possibles. Ainsi l’utilisation de la stratifi-cation vise le plus souvent à améliorer la qualité de l’information apportée par l’échantillon et ainsi agir sur la précision des résultats obtenus. Dans ce cas, la définition du plan de son-dage prend en compte une information supplémentaire caractérisée par une variable de con-trôle. Cette variable connue pour tous les individus de la population permet de réaliser une partition de cette population. On découpe alors la population en strates Ci d’effectif Ni, puis on considère chaque strate comme un univers particulier dans lequel on effectue un son-dage aléatoire simple en tirant un échantillon de taille ni. On pourra choisir un taux de son-dage proportionnel permettant d’éviter les redressements.

On peut démontrer mathématiquement que la stratification est une méthode plus précise que le sondage aléatoire simple ou élémentaire, au sens de l’estimation des résultats.

Sondages systématiques

Ils consistent à prendre non pas des individus au hasard sur une liste mais des individus ré-gulièrement espacés sur la liste. La valeur de l’espace est obtenue aléatoirement. Si le cri-tère de classement des individus sur la liste est indépendant du caractère étudié; cette méthode est équivalente au sondage simple.

Sondages par grappes

On tire au hasard des grappes ou familles d’individus et on examine tous les individus de la grappe.

Exemple : on tire des immeubles puis on interroge tous les habitants des immeubles tirés. Son avantage est la simplicité et son faible coût, la méthode est d’autant meilleure que les grappes se ressemblent plus entre elles et que les individus d’une même grappe sont plus différents contrairement à la stratification. Le sondage en grappes est utilisé très souvent par l’INSEE qui procède en trois étapes : regroupement de la population en grappes selon un critère (îlots d’immeubles ou grappes de ménages), tirage de certaines grappes aléatoire-ment et examen de tous les individus des grappes tirées.

Sondages à probabilités inégales

Si les unités sont de taille très variable comme des agglomérations, on tire avec des proba-bilités proportionnelles au nombre d’habitants ou à tout autre caractère déterminant.

Sondages à plusieurs degrés

C’est un tirage en cascade : on tire au hasard d’abord des villes, puis dans les villes tirées, des quartiers au hasard, puis des immeubles, puis des habitants.

3C. Les panels Lorsque l’on désire étudier l’évolution d’un phénomène au cours du temps, il est possible de construire un panel, c’est à dire un échantillon permanent qui sera interrogé périodiquement.

8 7007 TG WB 00

Page 21: Methodologie_quantitatives_2010(1)

Chapitre 1 : Production de données

8 7007 TG WB 00

Les panels de consommation permettent d’analyser les comportements d’achat des con-sommateurs. L’INSEE et de nombreuses sociétés spécialisées dans ces domaines utilisent cette technique. Il existe également des panels d’audience radio ou télévision. Afin de ne pas introduire de biais systématique lié à l’appartenance au panel, un renouvellement d’une partie des individus s’impose après 3 ou 4 interrogations.

Le Ministère de l’Éducation Nationale gère également des panels. En particulier, tous les 10 à 12 ans, un nouveau panel de suivi des scolarités des entrants en classe de 6e ou en Sec-tion d’Éducation Spécialisée (SES) est lancé. Par exemple, en 1989, près de 27 000 élèves étaient suivis tout au long de leur scolarité ; ils représentent les 1/30e d’une génération. Il s’agit d’un échantillon aléatoire où figurent tous les élèves nés le 5 de chaque mois (soit près de 1/30). L’enquête comprend une prise d’information annuelle auprès des chefs d’établissement. Les cheminements des élèves sont observés au fur et à mesure de leur dé-roulement (accès à la classe supérieure, redoublement, sortie du système éducatif, choix d’options ou de filières). On dispose ainsi, d’une reconstitution des scolarités de l’enseignement élémentaire à la fin de la scolarité secondaire. De nombreuses études statis-tiques prennent pour base ce panel : parcours scolaires et effets des variables telles que l’origine sociale, le sexe, l’âge, la zone d’habitation, etc.

Exercice

Dans les exemples que vous avez rencontrés dans vos diverses lectures, identifiez com-ment l’échantillon a été obtenu.

Page 22: Methodologie_quantitatives_2010(1)

Chapitre 2 Description statistique de tableaux à une variable L'information recueillie et transcrite dans le tableau des données est soumise à un traitement par analyse, synthèse et interprétation. Une première forme de traitement consiste à étudier chaque colonne du tableau en réalisant une description des données. C'est l'objet du traite-ment statistique à une variable. Nous apportons des outils pour la description de cinq types de variables statistiques : les variables qualitatives nominales, les variables qualitatives ordi-nales, les variables qualitatives textuelles, les variables quantitatives discrètes et les va-riables quantitatives continues. Les outils développés dans ce chapitre consistent à décrire et à résumer l’information, afin de la communiquer plus aisément. Dans le cadre de ce chapitre, aucune différence ne sera faite entre les notions d’échantillon et de population. Nous travaillerons généralement à partir d’échantillons.

1. Situation générale d’étude Les données de l’enquête rétrospective « Génération 98 » du CEREQ (voir site internet : http://www.cereq.fr/) permettent de suivre pendant trois ans le parcours professionnel d’une cohorte de débutants sortant du système éducatif en 1998. Près de 57 000 jeunes ont été in-terrogés de manière rétrospective en 2001. Cet échantillon, qui couvre la quasi-totalité des sortants (à l’exclusion de quelques professions médicales), a une large représentativité. Outre la description des séquences professionnelles mensuelles, figurent des données sur le cursus de formation initiale, sur la famille d’origine et des questions d’opinion sur l’attitude des enquêtés à l’égard de l’emploi. Les données de la Haute-Normandie constituent le fil conducteur de ce cours. L’échantillon est constitué de 1352 individus. Une sélection de quelques variables a été effectuée. Il s’agit : – de variables socio-démographiques et scolaires : âge en 1998 (V01), département (V02), origine étrangère (V03), sexe (V04), retard en sixième (V05), niveau scolaire atteint en 1998 (V06), catégorie sociale des parents (V07) ; – de variables de parcours : emploi (V08), temps d’accès au premier emploi (V09), situa-tion professionnelle du jeune en janvier 1999 (V10) et avril 2001 (V11). Ces variables sont décrites succinctement dans le tableau suivant.

8 7007 TG WB 00

Page 23: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Tableau des variables de l’enquête CEREQ

Code de la variable Descriptif succinct et types de réponse (avec codage)

V01 Âge en 1998 (en années) (entre 16 et 35 ans)

V02 Département 27 = Eure 76 = Seine-Maritime

V03 Origine étrangère (au moins un des deux parents) O = Oui N = Non

V04 Sexe 1 = Homme 2 = Femme

V05 Retard en sixième O = Oui N = Non

V06 Niveau scolaire atteint en 1998 (Nomenclature INSEE des niveaux – avec ou sans le di-plôme correspondant) NIV II et I = Niveau supérieur à bac+2 NIV III = Niveau bac+2 NIV IV = Niveau bac (avec ou sans le bac) NIV V = Niveau CAP ou BEP NIV VI = Sortie sans qualification

V07 Catégorie sociale des parents CD = Catégorie défavorisée (employé, ouvrier, chômeur) CF = Catégorie favorisée

V08 Trouve un emploi ou non sur la période 1998-2001 O = Oui N = Non

V09 Temps d’accès au premier emploi (en mois) (entre 0 et 35 mois)

V10 Situation professionnelle du jeune en janvier 1999 CH = Chômage IN = Inactivité RE = Reprise d’études SN = Service national CPI = Cadre ou profession intermédiaire ENQ = Employé non qualifié EQ = Employé qualifié OQ = Ouvrier qualifié ONQ = Ouvrier non qualifié

8 7007 TG WB 00

Page 24: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

V11 Situation professionnelle du jeune en avril 2001 CH = Chômage IN = Inactivité RE = Reprise d’études SN = Service national CPI = Cadre ou profession intermédiaire ENQ = Employé non qualifié EQ = Employé qualifié OQ = Ouvrier qualifié ONQ = Ouvrier non qualifié

Exercice 1

Dans cette étude, repérez la population et l’échantillon. Précisez s’il s’agit de variables quali-tatives (nominales, ordinales ou textuelles) ou quantitatives (discrètes ou continues).

Corrigé 1

Les variables V01 « âge » et V09 « temps d’accès au premier emploi » sont des variables quantitatives discrètes. Ces deux variables peuvent aisément se transformer en variables quantitatives continues, dès lors que l’on recoure à des intervalles.

Les variables V02 « département », V03 « origine étrangère », V04 « sexe », V05 « retard en sixième », V07 « catégorie sociale des parents », V08 « trouvé un emploi sur la période 1998-2001 », V10 « situation professionnelle du jeune en janvier 1999 » et V11 « situation professionnelle du jeune en avril 2001 » sont des variables qualitatives nominales.

La variable V06 « niveau scolaire atteint en 1998 » est une variable qualitative ordinale.

2. Traitement des données qualitatives nominales La première étape est relative à la statistique descriptive de variables qualitatives nominales.

2A. Situation d’étude La variable V08 « trouvé un emploi ou non sur la période 1998-2001 » est une variable sta-tistique nominale, dont les modalités sont O (oui) et N (non). Le tableau statistique de cette variable est le suivant :

Tableau statistique de la variable V08

Modalités de V08 Effectifs

Oui 1 277

Non 75

Effectif total 1 352

8 7007 TG WB 00

Page 25: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

2B. Exposé théorique X est une variable statistique qualitative nominale, définie sur une population statistique d’effectif total N et étudiée sur un échantillon de taille n. N où n désigne le nombre de moda-lités.

La somme des effectifs ni est égale à l’effectif total de l’échantillon étudié. On la note n sur un échantillon (N sur une population).

Cette somme se note également à l’aide de la lettre grecque ∑ « sigma » : n = ∑=

=

pi

iin

1

On désigne la fréquence par fi = nni .

Cette fréquence est souvent ramenée en pourcentage, en multipliant fi par 100.

La somme des fréquences, exprimées en pourcentage, est égale à 100.

Représentations graphiques usuelles

Les représentations graphiques des variables qualitatives nominales sont : – le diagramme en bâtons ; – le diagramme circulaire.

Diagramme en bâtons

Cette représentation graphique fournit une visualisation de la distribution des fréquences ou des effectifs. On fait figurer sur un axe (généralement en abscisse) les différentes modalités et sur l’autre axe (généralement en ordonnée) les effectifs ou les fréquences relatives. La gradation de l’axe des modalités ne traduit ni un ordre, ni une quantité, tandis que celles des fréquences ou des effectifs est graduée quantitativement.

Diagramme circulaire

Cette représentation graphique fournit une autre visualisation de la distribution des fré-quences ou des effectifs, mais en restituant l’importance de chaque modalité relativement à l’ensemble des résultats. On obtient une telle représentation en établissant une correspon-dance entre la mesure en degré des angles et la valeur des effectifs ou des fréquences.

On partage un disque en secteurs, dont les aires sont proportionnelles aux effectifs ou aux fréquences données.

Le calcul des angles correspondant à chacune des modalités se fait ainsi : 100

%360 if×

Définition des caractéristiques usuelles

Le mode est la valeur de la variable correspondant à l’effectif (ou la fréquence) le plus élevé. Dit autrement, c’est la valeur de la variable qui revient le plus souvent à l’occasion des ob-servations faites.

Ainsi, le sexe modal de la population française est « féminin » (car il y a plus de femmes que d’hommes), l’origine sociale modale des étudiants est « professions libérales et cadres su-périeurs »

8 7007 TG WB 00

Page 26: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

2C. Traitement des données Variable V08 « trouvé un emploi ou non sur la période 1998-2001 »

Modalités de V08 Effectifs ni Fréquences fi Fréquences en pourcentage fi %

Oui 1277 0,945 94,5%

Non 75 0,055 5,5%

Effectif total n 1352 1 100%

À l’aide du tableau ci-dessus, on apprend que 1277 individus ont trouvé un emploi sur la pé-riode 1998-2001 et 75 individus n’en ont pas trouvé. La somme des effectifs ni est égale à l’effectif total de l’échantillon étudié, soit : n = n1 + n2 = 1277 + 75 = 1352 La fréquence associée à la modalité « oui » est :

f1 =nn1 =

13521277

= 0.9445, soit 94,45% (que l’on peut arrondir à 94,5%).

Diagramme en bâtons - Trouvé un emploi ou non

0

200

400

600

800

1000

1200

1400

Oui Non

Effe

ctifs

Pour construire le diagramme circulaire, il faut au préalable calculer l’angle en degrés cor-

respondant chaque modalité, soit pour la modalité « Non » : 100

5,5360×= 19,8°

8 7007 TG WB 00

Page 27: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Diagramme circulaire - Trouvé un emploi ou non

Non 5,5%

Oui 94,5%

Le mode de la variable V08 est la réponse « oui », c’est-à-dire « trouvé un emploi ». Il cor-respond au bâton du diagramme en bâtons (ou au secteur du diagramme circulaire) le plus grand.

Exercice 2

Soit le tableau statistique suivant :

Origine socioprofessionnelle des étudiants français dans les universités en 2000-2001 (France métropolitaine)

Origine socioprofessionnelle Effectifs

Agriculteurs 27 150

Artisans, commerçants, chefs d’entreprise 88 300

Professions libérales, cadres supérieurs 413 967

Professions intermédiaires 207 988

Employés 160 170

Ouvriers 138 202

Retraités, inactifs 128 139

Indéterminés 100 573

Ensemble 1 264 489

Source : Repères et références statistiques sur les enseignements, la formation et la recherche, 2001, DPD.

Question 1 Calculez les fréquences en pourcentage. Question 2 Faites deux représentations graphiques. Question 3 Déterminez le mode.

8 7007 TG WB 00

Page 28: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Corrigé 2

Réponse 1

Origine socioprofessionnelle Effectifs Fréquence en %

Agriculteurs 27 150 2,1

Artisans, commerçants, chefs d’entreprise 88 300 7,0

Professions libérales, cadres supérieurs 413 967 32,7

Professions intermédiaires 207 988 16,4

Employés 160 170 12,7

Ouvriers 138 202 10,9

Retraités, inactifs 128 139 10,1

Indéterminés 100 573 8,0

Ensemble 1 264 489 100

Réponse 2

Diagramme en bâtons - Origine socioprofessionnelle

050000

100000150000200000250000300000350000400000450000

Agriculteurs

Artisans, commerçants, chefs d’en...

Professions libérales, cadres supér...

Professions intermédiaires

Employés

Ouvriers

Retraités, inactifs

Indéterminés

Catégories socioprofessionnelles

Effe

ctifs

8 7007 TG WB 00

Page 29: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Diagramme circulaire - Origine socioprofessionnelle

Retraités, inactifs 10,1%

Agriculteurs 2,1%

Ouvriers 10,9%

Employés 12,7% Professions intermédiaires

16,4%

Professionslibérales, cadres

supérieurs 32,7%

Artisans, commerçants,

chefs d’entreprise 7,0%

Indéterminés 8,0%

Réponse 3 Le mode est « professions libérales, cadres supérieurs ».

3. Traitement des variables qualitatives ordinales 3A. Situation d’étude La variable V06 « niveau scolaire atteint en 1998 » est une variable statistique ordinale, dont les modalités sont NIV II et I, NIV III, NIV IV, NIV V et NIV VI. Le tableau statistique de cette variable est le suivant :

Tableau statistique de la variable V06

Modalités de V06 Effectifs NIV II et I 273 NIV III 290 NIV IV 342 NIV V 316 NIV VI 131 Effectif total 1 352

3B. Exposé théorique X est une variable statistique qualitative ordinale définie sur une population statistique d’effectif total N et étudiée sur un échantillon de taille n.

Tableau statistique En ce qui concerne le tableau statistique, il n’y a aucune différence de forme mis à part le fait que les modalités sont ordonnées et que cette propriété doit être maintenue dans celui-ci.

8 7007 TG WB 00

Page 30: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Représentations graphiques usuelles Le recours aux représentations graphiques est identique à celui mis en œuvre dans le trai-tement des variables nominales. Toutefois, ces graphiques se doivent de préserver la struc-ture d’ordre des modalités. Ainsi, dans le diagramme en bâtons, les modalités doivent être placées sur l’axe des modalités selon l’ordre qui les qualifie. De même, cet ordre se retrouve sur le diagramme circulaire.

Définition des caractéristiques usuelles Le mode, c’est la modalité ou les modalités de la variable d’effectif maximum ou de fré-quence maximum. L’étendue, c’est l’intervalle dont la borne inférieure est la modalité de rang 1 prise par X et la borne supérieure est la modalité de rang p prise par X, c’est-à-dire [x1 ; xp]. La médiane Q2 est la modalité qui permet le partage de la population ou de l'échantillon, ordonné(e) de façon croissante, en deux parties de même effectif. On repère la médiane Q2 de la façon suivante :

– on divise le nombre N ou n d’observations par 2 : le reste de la division peut être 0 ou 1 ; – on procède à un rangement des n ou N individus dans l’ordre des modalités crois-santes, c’est-à-dire qu’on ordonne les valeurs ; – on calcule les effectifs cumulés : l’effectif cumulé jusqu’à la valeur i est la somme des effectifs des valeurs inférieures ou égales à i ; – on applique les règles de détermination ci-après.

N ou n parité reste Médiane Q2

2q pair 0 entre la modalité de rang q et celle de rang q+1

2q + 1 impair 1 la modalité de rang q+1

La médiane d'une variable X sur une population sur un échantillon une caractéristique de position ou de tendance centrale. Elle présente l’avantage de ne pas être influencée par des valeurs extrêmes. Par exemple, en matière de revenus, on préfère parler de revenu médian que de revenu moyen, car les salaires très élevés « tirent » la moyenne vers le haut, de sorte qu’elle n’est pas représentative de la tendance générale.

3C. Traitement des données Variable V06 « niveau scolaire atteint en 1998 »

Modalités de V06 Effectifs ni Fréquences fi Fréquences en pourcentage fi

%

NIV II et I 273 0,202 20,2%

NIV III 290 0,214 21,4%

NIV IV 342 0,253 25,3%

NIV V 316 0,234 23,4%

NIV VI 131 0,097 9,7%

Effectif total n 1352 1 100%

À l’aide du tableau ci-dessus, on dénombre les individus qui ont la même modalité. Ainsi, 273 individus ont un niveau supérieur à bac+2, 290 individus ont un niveau bac+2, 342 indi-vidus ont un niveau bac…

8 7007 TG WB 00

Page 31: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

La somme des effectifs ni est égale à l’effectif total de l’échantillon étudié, soit :

n = 273 + 290 + 342 + 316 + 131 = 1352.

La fréquence associée à la modalité « NIV II et I » est :

= 1352273

= 0.2019, soit 20,19% (que l’on peut arrondir à 20,2%). nn1f1 =

Diagramme en bâtons - Niveau scolaire

050

100150200

250300

350400

NIV II et I NIV III NIV IV NIV V NIV VI

Effe

ctifs

Pour construire le diagramme circulaire, il faut au préalable calculer l’angle en degrés cor-

respondant à chaque modalité, soit pour la modalité « NIV II et I » : 100

2,20360×= 72,72°

Diagramme circulaire - Niveau scolaire

NIV II et I 20,20%

NIV III 21,40%

NIV IV 25,30%

NIV V 23,40%

NIV VI 9,70%

Le mode de la variable V06 est le « NIV IV », c’est-à-dire le niveau baccalauréat. Il corres-pond au bâton du diagramme en bâtons (ou au secteur du diagramme circulaire) le plus grand.

L’étendue est [NIV II et I ; NIV VI].

La médiane se détermine de la manière suivante :

8 7007 TG WB 00

Page 32: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

n = 1352, d’où 2

1352= 676. Le reste de la division est 0, ce qui correspond à une modalité

comprise entre la modalité de rang 676 et celle de rang 677.

Pour obtenir la modalité de rang 676 et celle de rang 677, on procède au calcul des effectifs cumulés. Les 273 premiers individus ont un niveau supérieur à bac+2, les 290 suivants ont un niveau bac+2 (c’est-à-dire que 273 + 290 = 563 individus ont au moins un niveau bac+2)…

Modalités de V06 Effectifs ni Fréquences fi

NIV II et I 273 0,202

NIV III 290 0,214

NIV IV 342 0,253

NIV V 316 0,234

NIV VI 131 0,097

Effectif total n 1 352 1

La modalité de rang 676 est la modalité NIV IV et celle de rang 677 est également la modali-té NIV IV. Ainsi, la modalité médiane est celle qui correspond à un niveau baccalauréat.

On peut aussi vérifier que la modalité de rang 1221 est la modalité NIV V, tandis que celle de rang 1222 est la modalité NIV VI.

Exercice 3

En 1980, la population américaine comportait environ 100 millions d’adultes (25 ans et plus) qui se répartissaient de la façon suivante en fonction du niveau d’instruction et du sexe.

Niveau d’instruction

Établissements d’enseignement fréquentés jusqu’au bout Effectifs

Hommes Femmes

Aucun 4 000 000 5 000 000

Primaire 10 000 000 12 000 000

Secondaire 23 000 000 29 000 000

Collège 10 000 000 7 000 000

Source : U.S. Current Population Reports, Series P.20, n°390, mars 1981 et 1980.

Question 1

Faites deux représentations graphiques, pour le sexe masculin uniquement.

Question 2

Déterminez le mode chacun des deux sexes.

Question 3

Déterminez la médiane pour chacun des deux sexes.

Corrigé 3

8 7007 TG WB 00

Page 33: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Réponse 1

Diagramme en bâtons - Niveau d'instruction

0

5000000

10000000

15000000

20000000

25000000

Aucun Primaire Secondaire Collège

Niveaux

Effe

ctifs

Diagramme circulaire - Niveau d'instruction

Secondaire49%

Collège21%

Aucun9%

Primaire21%

Réponse 2

Le niveau d’instruction modal des hommes est « secondaire ». Celui des femmes est éga-lement « secondaire ».

Réponse 3

Pour les hommes, la médiane se détermine de la manière suivante :

n = 47 000 000, d’où 2

47000000= 23 500 000. Le reste de la division est 0, ce qui corres-

pond à une modalité comprise entre la modalité de rang 23 500 000 et celle de rang 23 500 001. Pour obtenir la modalité de rang 23 500 000 et celle de rang 23 500 001, on procède au cal-cul des effectifs cumulés.

Etablissements d’enseignement fréquentés jusqu’au bout

Effectifs

Hommes Effectifs cumulés hommes Femmes Effectifs cumulés

femmes

Aucun 4 000 000 4 000 000 5 000 000 5 000 000

8 7007 TG WB 00

Page 34: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Primaire 10 000 000 14 000 000 12 000 000 17 000 000

Secondaire 23 000 000 37 000 000 29 000 000 46 000 000

Collège 10 000 000 47 000 000 7 000 000 53 000 000

La modalité de rang 23 500 000 est la modalité « secondaire » et celle de rang 23 500 001 est également la modalité « secondaire ». Ainsi, la modalité médiane est celle qui corres-pond à un niveau d’instruction secondaire.

Pour les femmes, on procède de manière identique.

n = 53 000 000, d’où 2

53000000= 26 500 000. Le reste de la division est 0, ce qui corres-

pond à une modalité comprise entre la modalité de rang 26 500 000 et celle de rang 26 500 001. La modalité médiane est également celle qui correspond à un niveau d’instruction secondaire.

4. Traitement de variables qualitatives textuelles X est une variable statistique qualitative textuelle définie sur une population statistique d’effectif total N et étudiée sur un échantillon de taille n.

Dans ce cas, les résultats sont d’un type plus complexe dans la mesure où il s’agit de phrases « énoncées par un individu dans le contexte particulier de l’observation ». Mathé-matiquement, cela correspond à une variable qualitative dont l’espace des résultats est qua-si-infini. De nombreuses méthodes ont été mises au point auxquelles les outils informatiques ont apporté un soutien formidable. Le traitement de ce type de variable est abordé dans le cours de méthodes qualitatives.

5. Traitement des variables quantitatives discrètes Nous allons maintenant développer quelques traitements relatifs aux variables quantitatives discrètes. Notons tout d’abord que les outils explicités pour les traitements des variables qualitatives se transportent sans obstacle à ceux des variables quantitatives. Ainsi, ce qui suit sera un enrichissement de cette panoplie.

Dans le cas des variables qualitatives, la seule information de nature quantitative est fournie par les effectifs. Dans celui des variables quantitatives, nous pouvons prendre aussi en compte la nature quantitative des résultats eux-mêmes.

5A. Situation d’étude La variable V01 « âge en 1998 » est une variable statistique quantitative discrète.

8 7007 TG WB 00

Page 35: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Le tableau statistique de cette variable est le suivant :

Tableau statistique de la variable V01

Modalités de V01 Effectifs

16 19

17 48

18 153

19 168

20 173

21 178

22 150

23 115

24 119

25 79

26 48

27 26

28 14

29 28

30 12

31 6

32 6

33 2

34 2

35 6

Effectif total 1352

5B. Exposé théorique X est une variable statistique quantitative discrète définie sur une population statistique d’effectif total N et étudiée sur un échantillon de taille n.

Représentations graphiques usuelles

On recourt aux deux représentations exposées précédemment, c’est-à-dire aux diagrammes en bâtons et aux diagrammes circulaires. La différence fondamentale avec le cas des va-riables qualitatives tient au fait que l’axe des abscisses, qui représente l’axe des valeurs de la variable, est un axe gradué. L’échelle est quantitativement interprétable.

Définition des caractéristiques usuelles

Deux types de paramètres permettent de caractériser une distribution : les caractéristiques de position (ou de tendance centrale) et les caractéristiques de dispersion.

Les caractéristiques que nous allons d’abord étudier – le mode, la médiane et la moyenne – sont des caractéristiques de position ou de tendance centrale.

8 7007 TG WB 00

Page 36: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Le mode est la valeur de la variable d’effectif maximum ou de fréquence maximum.

La médiane Q2 est la valeur qui partage la population ou l’échantillon en deux parties de même effectif.

On repère la médiane Q2 de la façon suivante : – on divise le nombre N ou n d’observations par 2, comme précédemment : le reste de la division peut être 0 ou 1. – on procède à un rangement des N ou n individus dans l’ordre des valeurs croissantes, c’est-à-dire qu’on ordonne les valeurs. – on calcule les effectifs cumulés. – on applique les règles de détermination ci-après.

N ou n parité reste Médiane Q2

2q pair 0 Entre la valeur Vq de rang q et celle Vq+1 de rang q+1

22 1++= qq VV

Q

2q + 1 impair 1 La valeur Q2 = Vq+1

Du point de vue interprétatif, la médiane d'une variable X sur une population ou sur un échantillon est une caractéristique de position ou de tendance centrale.

La moyenne est la valeur de la variable X obtenue par l’une des trois procédures de calcul suivante :

Le premier calcul consiste à effectuer la somme de toutes les valeurs obtenues, puis à divi-ser le résultat par l’effectif total. Ce calcul, qui correspond à la moyenne arithmétique, est souvent long à conduire, si bien que l’on privilégie l’une des deux autres méthodes.

∑=

=

=ni

iio

nm

1

1

Dans le second calcul, on additionne les produits des différentes valeurs xk par l’effectif cor-respondant nk. Le résultat obtenu est divisé par l’effectif total.

∑=

=

=pk

kkk xn

nm

1

1

Dans la troisième expression, on additionne les produits des valeurs nk par les fréquences fk correspondantes.

∑=

=

=pk

kkk xfm

1

Les deux derniers calculs correspondent à ce que nous désignons par la moyenne pondé-rée.

Du point de vue interprétatif, la moyenne d'une variable X sur une population ou sur un échantillon est une caractéristique de tendance centrale

Les caractéristiques que nous allons maintenant étudier - l’étendue, la variance, l’écart-type et le coefficient de variation - sont des caractéristiques de dispersion.

L’étendue, c’est l’intervalle dont la borne inférieure est la valeur la plus faible prise par X et la borne supérieure est la valeur la plus forte prise par X, c’est-à-dire [x1 ; xp].

8 7007 TG WB 00

Page 37: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Du point de vue interprétatif, l'étendue d'une variable X sur une population ou sur un échan-tillon est une caractéristique de dispersion. Cependant sa faiblesse réside dans le fait qu'elle demeure trop sensible aux données extrêmes et aberrantes.

L’amplitude de cet intervalle est mesurable et se calcule par la différence xp -x1.

La varianceou moment centré d’ordre 2 d’une variable quantitative discrète est la valeur obtenue par l’une des deux procédures de calcul suivantes :

Selon la première formule, la variance est la moyenne pondérée des carrés des écarts des valeurs à leur moyenne.

∑=

=

−=pk

kkkech mxn

n 1

² )²(1σ

La seconde procédure correspond à une démarche simplifiée, par laquelle la variance est le résultat de la différence entre la moyenne pondérée des carrés des valeurs et le carré de la moyenne de ces valeurs.

∑=

=

−=pk

kkkech mxn

n 1

²² ²1σ

L’écart-type est la racine carrée de la variance. Il indique la dispersion des valeurs de la va-riable par rapport à la moyenne de la série statistique.

∑=

=

−=pk

kkkech mxn

n 1

)²(1σ ou ∑=

=

−=pk

kkkech mxn

n 1

² ²1σ

Du point de vue interprétatif, la variance et l'écart-type d'une variable X sur une population ou sur un échantillon sont des caractéristiques de dispersion. Notons que l'écart-type est exprimé avec la même unité que les valeurs de la variable, alors que la variance est expri-mée en unité au carré. La variance est d’autant plus faible – donc aussi l’écart-type – que les données sont regroupées à proximité de la moyenne. Dit autrement, plus l’écart-type de la série est faible, plus la dispersion des valeurs par rapport à la moyenne est faible.

Mais pour comparer deux distributions dont les moyennes sont différentes, nous sommes amenés à calculer le coefficient de variation qui ne dépend plus des unités de mesure.

Le coefficient de variation est obtenu en calculant le rapport de l'écart-type à la moyenne.

moyennetypeécartCV −

=

Il est parfois exprimé en % :

100% ×−

=moyenne

typeécartCV

Le coefficient de variation permet, nous l’avons indiqué, de s'affranchir des unités de mesure et des ordres de grandeur de la variable. Il permet ainsi de comparer plusieurs distributions de variables exprimées avec des unités différentes ou dont les moyennes sont différentes.

Plus le coefficient de variation a un faible pourcentage, moins la série est dispersée.

Remarque 1

Les paramètres de position ou de tendance centrale sont le mode, la moyenne et la mé-diane. Ils permettent de situer la valeur centrale dans la suite de nombre. La notion de posi-tion se rapporte à la situation de la valeur centrale. Ces paramètres de position ne suffisent pas, la plupart du temps, pour rendre compte d’une série de valeurs. Par exemple, deux sé-ries statistiques peuvent avoir une moyenne identique, mais l’une peut être caractérisée par

8 7007 TG WB 00

Page 38: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

une distribution homogène et l’autre par une distribution hétérogène. Il convient donc d’utiliser des indicateurs de dispersion, comme l’étendue, la variance, l’écart-type et le coefficient de variation.

Remarque 2

Il existe des cas où les trois paramètres de position (mode, moyenne et médiane) sont sem-blables : la distribution est alors symétrique et unimodale. La loi normale vérifie ces proprié-tés.

Remarque 3

Les trois paramètres de position présentent des avantages et des inconvénients :

Le mode représente le plus grand nombre d’individus ; la valeur correspondante est toujours une valeur vraie (alors que la médiane et la moyenne peuvent correspondre à des valeurs absentes des données) ; il s’applique à des données nominales (ce qui n’est évidemment pas le cas de la médiane ou de la moyenne). Son inconvénient principal est qu’il n’est pas toujours représentatif de l’ensemble des données et dépend de la manière dont les observa-tions sont regroupées.

La médiane présente le principal avantage de ne pas être influencée par des valeurs ex-trêmes, mais elle ne se prête pas directement aux équations.

La moyenne permet de réaliser de nombreux calculs, mais elle est influencée par des va-leurs « aberrantes ».

8 7007 TG WB 00

Page 39: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

5C. Traitement des données Variable V01 « âge en 1998 »

Modalités de V01 Effectifs Effectifs cumulés

16 19 19

17 48 67

18 153 220

19 168 388

20 173 561

21 178 739

22 150 889

23 115 1004

24 119 1123

25 79 1202

26 48 1250

27 26 1276

28 14 1290

29 28 1318

30 12 1330

31 6 1336

32 6 1342

33 2 1344

34 2 1346

35 6 1352

Effectif total 1352

Diagramme en bâtons - Age en 1998

0

50

100

150

200

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Ages

Effe

ctifs

8 7007 TG WB 00

Page 40: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

L’étendue de la série statique est [16 ; 35].

L’âge modal est 21 ans.

Le nombre d’observations divisé par 2 est 676. Le reste de la division étant zéro, la médiane correspond à la moyenne de la valeur de rang 676 et celle de rang 677, soit :

Valeur de rang 676 21

Valeur de rang 677 21

Médiane 21

Pour obtenir la valeur de rang 676 et celle de rang 677, on a procédé au calcul des effectifs cumulés de la façon suivante : 19 + 48 + 153 + 168 + 173 = 561. Ainsi, la 561ème observation correspond à la valeur 20.

Le nombre d'individus ayant un résultat inférieur à 21 est de 561 + 178 = 739. Ainsi, l'indivi-du de rang 676 et celui de rang 677 ont un âge de 21 ans.

L’âge médian est donc de 21 ans.

Le détail des algorithmes de calcul de la moyenne, de la variance et de l’écart type est pré-senté dans le tableau suivant :

Modalités de V01 xk Effectifs nk nk xk nk (xk – m)²16 19 304 606,5317 48 816 1 037,8818 153 2 754 2 038,3419 168 3 192 1 179,7820 173 3 460 470,99

21 (mode) 178 3 738 75,2022 150 3 300 18,3823 115 2 645 209,5924 119 2 856 657,1825 79 1 975 886,5826 48 1 248 908,2827 26 702 744,1928 14 392 564,5229 28 812 1 512,6330 12 360 836,6731 6 186 524,5432 6 192 642,7433 2 66 257,6534 2 68 305,0535 6 210 1 069,34

Effectif total : 1352 Somme : 29276 Somme : 14546,02 Moyenne : 21,65 Variance : 10,76 Écart-type : 3,28

Détail des calculs1 de la première ligne :

1 Les calculs peuvent être effectués avec une calculatrice programmable de type simple.

8 7007 TG WB 00

Page 41: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

nk xk = 16 x 19 = 304

nk (xk – m)² = 19 (16 – 21,65)² = 19 (-5,65)² = 19 x 31,9225 = 606,53

Détail du calcul de la moyenne : m = 65,21135229276

=

Détail du calcul de la variance : 76,101352

02,14546² ==echσ

Détail du calcul de l’écart-type : 28,376,10 ==echσ

Le coefficient de variation est :

15,065,2128,3

==CV

%15% =CV

Nous obtenons donc un âge moyen de 21,65 ans, avec un écart-type de 3,28. Le mode et la médiane ont une valeur de 21 ans. Le coefficient de variation vaut 15%, ce qui correspond à une assez faible dispersion des âges autour de la moyenne.

Exercice 4

Deux groupes d’étudiants ont passé la même épreuve de statistiques. Les enseignants qui ont corrigé l’épreuve du 1er groupe l’ont notée sur 100, alors que ceux du 2e groupe ont été notés sur 20. Les résultats des deux groupes sont les suivants :

Moyenne et écart-type des notes obtenues à une épreuve de statistiques

Moyenne Écart-type

Groupe 1 60 15

Groupe 2 13 5

Qu’en déduisez-vous ?

Corrigé 4

Le calcul du coefficient de variation permet d’affirmer que par rapport au groupe 2, les notes du groupe 1 sont plus homogènes.

Moyenne Écart-type Coefficient de variation en %

Groupe 1 60 15 25 %

Groupe 2 13 5 38,5 %

25,06015

1 ==groupeCV

8 7007 TG WB 00

Page 42: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

3846,0135

2 ==groupeCV

Exercice 5

Soit la distribution statistique des notes de 50 élèves de 3e, obtenues à une épreuve de fran-çais :

Notes obtenues à une épreuve de français Notes Effectifs

2 1 3 2 4 2 5 2 6 2 7 3 8 5 9 7

10 6 11 4 12 4 13 3 14 2 15 2 16 2 17 1 18 2

Question 1

Faites une représentation graphique de la série statistique.

Question 2

Calculez les paramètres de tendance centrale : mode, moyenne et médiane.

Question 3

Calculez les paramètres de dispersion : étendue, variance et écart-type.

8 7007 TG WB 00

Page 43: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Corrigé 5

Réponse 1

Diagramme en bâtons - Notes

012345678

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Notes

Effe

ctifs

Réponse 2

La note modale est 9.

La note moyenne est 9,92.

Le nombre d’observations divisé par 2 est 25. Le reste de la division étant zéro, la médiane correspond à la moyenne de la valeur de rang 25 et celle de rang 26, soit :

Valeur de rang 25 10 Valeur de rang 26 10 Médiane 10

La note médiane est donc 10.

Réponse 3

L’étendue de la série statique est [2 ; 18].

La variance est 14,95 et l’écart-type 3,87.

Le détail des algorithmes de calcul de la moyenne, de la variance et de l’écart type est pré-senté dans le tableau suivant :

Notes xk Effectifs nk Effectifs cumulés nk xk nk (xk – m)²

2 1 1 2 62,7264

3 2 3 6 95,7728

4 2 5 8 70,0928

5 2 7 10 48,4128

6 2 9 12 30,7328

7 3 12 21 25,5792

8 5 17 40 18,4320

9 (mode) 7 24 63 5,9248

8 7007 TG WB 00

Page 44: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

10 6 30 60 0,0384

11 4 34 44 4,6656

12 4 38 48 17,3056

13 3 41 39 28,4592

14 2 43 28 33,2928

15 2 45 30 51,6128

16 2 47 32 73,9328

17 1 48 17 50,1264

18 2 50 36 130,5728

Effectif total : 50 Somme : 496 Somme : 747,68

Moyenne : 9,92 Variance : 14,95

Ecart-type : 3,87

Exercice 6

Soit le nombre d’élèves par classe dans les établissements : 22 ; 24 ; 25 ; 29 ; 30 ; 31 ; 32 ; 33 ; 34 ; 35 ; 36 Calculez la médiane.

Corrigé 6

Le nombre d’établissements est impair (11). Le reste de la division par 2 étant 1, la médiane correspond à la valeur de rang 6. Le nombre d’élèves médian par classe est donc 31.

6. Traitement des variables quantitatives continues 6A. Situation d’étude La variable V09 « temps d’accès au premier emploi (en mois) » est une variable statistique quantitative continue, ce qui signifie que l’ensemble des valeurs de la variable n’est pas dé-nombrable. Dit autrement, la variable V09 peut prendre non seulement des valeurs entières, mais aussi n’importe quelle valeur intermédiaire.

Le tableau statistique de cette variable est le suivant :

8 7007 TG WB 00

Page 45: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Tableau statistique de la variable V09

Modalités de V09 Effectifs [0 ; 5[ 926

[5 ; 10[ 153[10 ; 15[ 88[15 ; 20[ 43[20 ; 25[ 29[25 ; 30[ 26[30 ; 35] 12

Effectif total 1 277

L’effectif total est ici de 1277 (et non plus 1352) ; il correspond aux individus qui ont trouvé un emploi.

De nombreuses approches requièrent un regroupement des données en classes détermi-nées par des intervalles pouvant être d’amplitudes égales ou inégales. Etudier une variable quantitative continue telle que l’âge (la variable V01 étudiée précédemment aurait pu être transformée en une variable quantitative continue), le revenu, le poids, la consommation d'eau, la distance parcourue, etc., consiste à :

– analyser le tableau statistique de la distribution des effectifs ou des fréquences des classes, – représenter cette distribution par un graphique appelé histogramme, – calculer les caractéristiques usuelles telles que mode, étendue, médiane et plus géné-ralement fractiles, moyenne, variance et écart-type.

6B. Exposé théorique X est une variable statistique quantitative continue définie sur une population statistique d’effectif total N et étudiée sur un échantillon de taille n.

Nous disposons de la série statistique (i ; oi ) avec i = 1,..., N sur la population ou i = 1,…, n sur l’échantillon, des résultats rangés dans l’ordre du recueil. Pour construire le tableau sta-tistique de la distribution des effectifs et des fréquences de la variable X, la procédure con-siste à d’abord regrouper les individus en catégories définies par l’intervalle auquel appartient la valeur obtenue, puis à dénombrer ces individus. Pour chaque intervalle, ceci nous donne l’effectif des individus relatif à celui-ci.

Nous supposons que l’espace des résultats de la variable X peut être découpé en p inter-valles que nous noterons [x1,x2[, [x2,x3[,…, [xp,xp+1[. Il se peut aussi que soit utilisée la demi-droite]-∞ ; x1[ ou [xp+1 ; +∞[.

Il faut remarquer que l’intervalle [x1,x2[ contient la valeur x1 mais ne contient pas x2.

De la même manière, nous noterons n1,n2,…, np les effectifs correspondant.

L’effectif total est : ∑=

=

=pk

kknn

1

La fréquence est :nnf k

k =

Cette fréquence est souvent ramenée en pourcentage en multipliant fk par 100.

Travailler à partir de variables quantitatives continues nécessite de déterminer le centre de chaque intervalle de type [a ; b[. Ce calcul se fonde sur un présupposé théorique : nous fai-

8 7007 TG WB 00

Page 46: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

sons l’hypothèse que tous les résultats sur cet intervalle ont « potentiellement la même fré-quence d’apparition » en tant que résultat exact.

Le centre de l’intervalle [a ; b[ est : 2

bac +=

Représentations graphiques usuelles

Pour représenter d’une autre manière l’information contenue dans le tableau statistique, on recourt habituellement à deux représentations graphiques : l’histogramme et la courbe cu-mulative croissante. Evidemment, il est possible de recourir à une multitude d’autres repré-sentations graphiques plus ou moins illustratives ou figuratives.

Histogramme et densité de fréquence

Dans un histogramme, chaque classe est représentée par un rectangle de surface propor-tionnelle à la fréquence (ou l’effectif). Deux cas de figure sont à envisager :

1er cas : Les classes d’intervalles sont d’amplitudes égales

La hauteur des rectangles peut être choisie égale à la fréquence (ou l’effectif). La base est égale à l’amplitude de la classe.

2e cas : Les classes d’intervalles sont d’amplitudes inégales

Il faut rectifier la hauteur du rectangle, afin que sa surface soit proportionnelle à l’effectif ou à la fréquence. Par exemple, si une classe est deux fois plus étendue que les autres, alors il faudra diviser par 2 le pourcentage et l’effectif pour que la surface respecte le principe géné-ral de la construction : la proportionnalité des aires aux effectifs.

Dans certains cas, pour visualiser correctement le tableau des données, il convient d'utiliser la notion de densité de fréquence ou de densité d’effectif de la variable sur chaque intervalle. Dans les cas étudiés ici, le calcul de cette densité s'obtient de la manière suivante :

Densité de fréquence : i

ii a

fd = avec ai l’amplitude de l’intervalle.

Densité d’effectif : i

ii a

nd = avec ai l’amplitude de l’intervalle.

Pour diverses raisons qui pourraient être discutées, nous considérons que sur un intervalle toutes les valeurs ont la même chance d’être le résultat d’une mesure. Ceci se traduit par le fait que la densité de fréquence est constante sur un intervalle. Le graphique ci-dessous tra-duit cette idée.

L'aire du rectangle ABCD représente alors la fré-quence fi. Le calcul de l’aire du rectangle ABCD revient à écrire la relation :

(xi+1 - xi ) di = fi = nni

de laquelle nous déduisons :

)( 11 ii

i

ii

ii x

d =xxn

nx

f−

=− ++

d i = f(x)

x i xi+1

A B

C D

8 7007 TG WB 00

Page 47: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Lorsque les classes d’intervalles sont d’amplitudes inégales, la hauteur des rectangles peut être choisie égale à la densité de fréquence (ou densité d’effectif). La base est égale à l’amplitude de la classe. Ainsi, un histogramme a l’allure suivante :

d 1 d 3

d 2

x xxx 2 431

d 5

d 4

x5 x6

Courbe cumulative croissante

On peut aussi estimer la fréquence des mesures inférieures à une valeur fixée quelconque. On représente pour cela une fonction cumulative croissante, de la manière suivante :

– en abscisse : on indique les classes

– en ordonnée : on indique la valeur de la fréquence cumulée croissante associée à la borne supérieure de chacune des classes (à l’exception du 1er point, dont l’ordonnée = 0 et l’abscisse = borne inférieure de la 1re classe).

La courbe est celle d’une fonction croissante affine par intervalle2 du type :

Fréquences cumulées

1

La fréquence cumulée associée à une valeur x est le % d’observations dont la valeur est in-férieure à x.

Cette courbe permet de déterminer graphiquement la médiane et d’autres fractiles (voir ci-après). La médiane est à la valeur de la variable qui correspond à 0,5 (50%) sur la courbe des fréquences cumulées.

2 Une fonction affine est représentée par une droite d'équation y=ax+b. Ici la représentation graphique est compo-sée de morceaux de droites : la fonction est appelée affine par morceaux ou affine par intervalles.

x 1 x 2 x4x 3 0 x5 x

F(x)

Classes x 6

8 7007 TG WB 00

Page 48: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Fréquences cumulées Courbe des fréquences cumulées

croissantes d’une variable

85.80.75.70.0

0,10,20,30,40,5

35. 40. 45. 50. 55. 60. 65.

médiane

0,60,70,80,9

1quantitative continue

Classes

Définition des caractéristiques usuelles

Nous allons étudier successivement les caractéristiques de tendance et celles de dispersion.

Parmi les caractéristiques de tendance, il y a le mode, les fractiles et la moyenne.

La classe modale : C’est la valeur de la variable de densité de fréquence (ou d’effectif) maximale.

Les fractiles sont les quartiles Q1, Q2 et Q3 (en fait, le 2ème quartile coïncide avec la mé-diane).

D’une façon générale, on peut définir les fractiles de la manière suivante : il s’agit de valeurs de la distribution qui partagent la série statistique en parties d’effectifs égaux. Ainsi, la mé-diane Q2 partage la série en deux parties d’effectifs égaux. Les quartiles (Q1, Q2, Q3) par-tagent la série en 4 parties d’effectifs égaux.

Q1, Q2, Q3 sont trois valeurs de la variable X qui vérifient les propriétés suivantes :

Concernant Q1 : Prop ({X ≤Q1}) = 0,25 et Prop ({X ≥Q1}) = 0,75

Cela signifie que deux conditions sont satisfaites par Q1 : la proportion des individus ayant un résultat inférieur ou égal à la valeur Q1 est égale à 25% ; celle des individus ayant un ré-sultat supérieur ou égal à la valeur Q1 est égale à 75%.

Concernant Q2, de manière similaire : Prop ({X ≤Q2}) = 0,5 et Prop ({X ≥Q2}) = 0,5

La proportion des individus ayant un résultat inférieur ou égal à la valeur Q2 est égale à 50% ; celle des individus ayant un résultat supérieur ou égal à la valeur Q2 est égale à 50%.

Concernant Q3, toujours de manière similaire : Prop ({X ≤Q3}) = 0,75 et Prop ({X ≥Q3}) = 0,25

La proportion des individus ayant un résultat inférieur ou égal à la valeur Q3 est égale à 75% ; celle des individus ayant un résultat supérieur ou égal à la valeur Q3 est égale à 25%.

On peut utiliser la courbe des fréquences cumulées croissantes pour déterminer graphique-ment la médiane Q2, les autres quartiles Q1 et Q3. La procédure correspondante pour la médiane est de rechercher la valeur de variable dont l'image (c’est-à-dire la fréquence cu-mulée) est 0.5. Pour Q1 il convient de prendre la valeur 0.25 et pour Q3 la valeur 0.75

Le graphique ci-dessous indique que la médiane se situe dans la classe [60 ; 65[ et corres-pond à une valeur approximative de 62,5.

8 7007 TG WB 00

Page 49: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Fréquences cumulées Courbe des fréquences cumulées

croissantes d’une variable

Il convient maintenant de déterminer de manière précise les fractiles. La procédure algé-brique sous-jacente n'est autre que de l'interpolation linéaire et utilise le raisonnement selon lequel pour tout point de coordonnées (x ; y) situé sur la courbe (assimilée à une ligne bri-sée), on peut écrire par application du théorème de Thalès :

xbyd

axcy

abcd

−−=

−−=

−−

Avec, dans le cas de la médiane : a et b : les bornes de la classe médiane x : la médiane Q2 y = l’effectif total divisé par 2 (ou 0,5) c et d : les effectifs cumulés croissants (ou les fréquences cumulées croissantes)

Précisons le calcul de la médiane Q2. Celui-ci s’effectue de la façon suivante :

– on divise l’effectif total par 2, soit 2n

si on travaille sur un échantillon.

– on procède à un rangement de tous les individus dans l’ordre des valeurs croissantes, c’est-à-dire qu’on ordonne les valeurs.

– on calcule les effectifs cumulés croissants (ou les fréquences cumulées croissantes).

– on repère à quelle classe appartient la médiane : la médiane appartient à la première

classe dont l’effectif cumulé croissant est supérieur à 2n

(ou dont la fréquence cumulée

croissante est supérieure à 0,5).

– on applique la formule générale suivante :

)2

(2 1inf −−+= ii

nnn

amplBQ

Avec Binf : Borne inférieure de la classe qui contient la médiane, c’est-à-dire borne inférieure de la classe

a

A c

bx

y

d B

M

quantitative continue

00,10,20,30,40,50,60,70,80,9

1

35. 40. 45. 50. 55. 60. 65.Classes

70. 75. 80. 85.

médiane

8 7007 TG WB 00

Page 50: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

médiane (sur la graphique : a) ampl : Amplitude de la classe médiane (sur le graphique : b-a) ni : Nombre d’observations contenues dans la classe médiane (sur le graphique : d-c)

2n

: Effectif total divisé par 2

ni-1 : Nombre d’observations situées avant la classe médiane (sur le graphique : c)

De façon analogue, le calcul de Q1 s’effectue de la manière suivante :

– on divise l’effectif total par 4, soit 4n

si on travaille sur un échantillon,

– on procède à un rangement de tous les individus dans l’ordre des valeurs croissantes, c’est-à-dire qu’on ordonne les valeurs ; – on calcule les effectifs cumulés croissants (ou les fréquences cumulées croissantes). – on repère à quelle classe appartient le 1er quartile : Q1 appartient à la première classe

dont l’effectif cumulé croissant est supérieur à 4n

(ou la fréquence cumulée croissante

supérieure est à 0,25) ; – on applique la formule générale suivante :

)4

(1 1inf −−+= ii

nnn

amplBQ

Avec Binf : Borne inférieure de la classe qui contient le 1er quartile

ampl : Amplitude de la classe qui contient le 1er quartile

ni : Nombre d’observations contenues dans la classe qui contient le 1er quartile

4n

: Effectif total divisé par 4

ni-1 : Nombre d’observations situées avant la classe qui contient le 1er quartile

Pour le calcul de Q3, il faudra diviser l’effectif total par 43

, soit 43n

si on travaille sur un

échantillon.

Pour le calcul de D1, il faudra diviser l’effectif total par 10, soit 10n

si on travaille sur un

échantillon…

En raison du point de vue adopté, le calcul de la moyenne se réalise à partir des centres des intervalles bornés (il en sera de même pour les calculs de la variance et de l’écart-type). Les formules sont analogues à celles définies précédemment pour les variables quantita-tives discrètes, dans lesquelles on remplace les xk par des ck.

La moyenne est la valeur de la variable X obtenue par l’une des deux procédures de calcul suivantes :

∑=

=

=pk

kkkcn

nm

1

1 ou ∑

=

=

=pk

kkkcfm

1

8 7007 TG WB 00

Page 51: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Parmi les caractéristiques de dispersion, il y a l’étendue, l’intervalle interquartile, la variance et l’écart-type.

L’étendue est l’intervalle dont la borne inférieure est la valeur la plus faible prise par X et la borne supérieure la valeur la plus forte prise par X, c’est-à-dire [x1 ; xp+1] ou ]-∞ ; xp+1[ ou [x1 ; +∞[.

L’amplitude de cet intervalle est mesurable et vaut (xp+1 - x1) dans le premier cas ou l’infini dans les deux autres cas.

Du point de vue interprétatif, l'étendue d'une variable X sur une population ou sur un échan-tillon est une caractéristique de dispersion. Cependant, sa faiblesse réside dans le fait qu'elle demeure trop sensible aux données extrêmes et aberrantes. De plus, dans le cas in-fini, elle n'apporte pas d'information intéressante.

L’intervalle interquartile est la valeur (Q3 - Q1). Il représente théoriquement les 50% des résultats qui encadrent la médiane Q2. Son amplitude (Q3 - Q1) est une mesure de disper-sion autour de la médiane Q2.

La variance ou moment centré d’ordre 2 d’une variable quantitative continue est la valeur obtenue par l’une des deux procédures de calcul suivante :

∑=

=

−=pk

kkkech mcn

n 1

² )²(1σ ou ∑=

=

−=pk

kkkech mcn

n 1

²² ²1σ

L’écart-type est la racine carrée de la variance :

∑=

=

−=pk

kkkech mcn

n 1

)²(1σ ou ∑=

=

−=pk

kkkech mcn

n 1

² ²1σ

Il est à noter qu'en ce qui concerne la moyenne, la variance et l'écart-type, le traitement utili-sé est celui décrit à propos des variables quantitatives discrètes. Les remarques que nous y avons faites demeurent valables dans le cas des variables quantitatives continues.

Le coefficient de variation est obtenu en calculant le rapport de l'écart-type à la moyenne. Il permet de s'affranchir des unités de mesure et des ordres de grandeur de la variable ; il permet ainsi de comparer plusieurs distributions de variables.

moyennetypeécartCV −

=

Il est parfois exprimé en %.

100% ×−

=moyenne

typeécartCV

6C. Traitement des données Variable V09 « temps d’accès au premier emploi (en mois) »

Modalités de V09 Centres d’intervalle

Effectifs Effectifs cumulés

Fréquences Fréquences cumulées

Fréquences en %

[0 ; 5[ 2,5 926 926 0,7251 0,7251 72,51%

[5 ; 10[ 7,5 153 1 079 0,1198 0,8449 11,98%

[10 ; 15[ 12,5 88 1 167 0,0689 0,9139 6,89%

[15 ; 20[ 17,5 43 1 210 0,0337 0,9475 3,37%

8 7007 TG WB 00

Page 52: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

[20 ; 25[ 22,5 29 1 239 0,0227 0,9702 2,27%

[25 ; 30[ 27,5 26 1 265 0,0204 0,9906 2,04%

[30 ; 35] 32,5 12 1 277 0,0094 1 0,94%

Effectif total 1277 1 100%

Les amplitudes de classes étant constantes, le calcul des densités de fréquence ou d’effectif est inutile. L’histogramme se construit de la manière suivante :

– en abscisse : les classes, qui correspondent au temps d’accès au 1er emploi ;

– en ordonnée : les effectifs ou les fréquences de chaque intervalle de classe.

Histogramme - Temps d'accès au premier emploi

0

200

400

600

800

1000

0 5 .10 .15 .20 .25 .30 .35

Mois

Effe

ctifs

La courbe cumulative croissante se construit de la manière suivante :

– en abscisse : on indique les classes ; – en ordonnée : le 1er point est (0 ; 0), le 2nd point est (5 ; 0,7251), le 3e point est (10 ; 0,8449), le 4e point est (15 ; 0,9139) etc.

8 7007 TG WB 00

Page 53: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Courbe cumulative croissante - Temps d'accès au premier emploi

0

0,2

0,4

0,6

0,8

1

1,2

0 5 10 15 20 25 30 35

Mois

Fréq

uenc

es c

umul

ées

La classe modale de la série statistique est [0 ; 5[. Il n’est pas nécessaire de calculer les densités de fréquence ou d’effectif, car les amplitudes de classe sont constantes.

La médiane appartient à la classe [0 ; 5[. En effet, 2n

= 638,5 et le 1er effectif cumulé crois-

sant supérieur à 638,5 est l’effectif cumulé 926 ; celui-ci correspond à la classe [0 ; 5[. Un raisonnement similaire peut être réalisé à l’aide des fréquences cumulées : la 1re fréquence cumulée croissante supérieure à 0,5 est la fréquence cumulée 0,7251 ; celle-ci correspond bien à la classe [0 ; 5[.

8 7007 TG WB 00

Page 54: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

On applique la formule générale suivante :

45,3)05,638(926

50)2

(2 1inf =−+=−+= −ii

nnn

amplBQ (pour simplifier, on arrondit à 3

mois et demi)

Ainsi, la moitié des jeunes interrogés met moins de 3 mois et demi à trouver un 1er emploi, tandis que l’autre moitié des jeunes interrogés met plus de 3 mois et demi à trouver un 1er emploi.

Le premier quartile appartient à la classe [0 ; 5[. En effet, 4n

= 319,25 et le 1er effectif cumulé

croissant supérieur à 319,25 est l’effectif cumulé 926 ; celui-ci correspond à la classe [0 ; 5[. Un raisonnement similaire peut être réalisé à l’aide des fréquences cumulées : la 1ère fré-quence cumulée croissante supérieure à 0,25 est la fréquence cumulée 0,7251 ; celle-ci cor-respond bien à la classe [0 ; 5[.

On applique la formule générale suivante :

72,1)025,319(926

50)4

(1 1inf =−+=−+= −ii

nnn

amplBQ (pour simplifier, on arrondit à 2

mois)

Ainsi, un quart des jeunes interrogés met moins de 2 mois à trouver un 1er emploi, tandis que trois quarts des jeunes interrogés mettent plus de 2 mois à trouver un 1er emploi.

Le troisième quartile appartient à la classe [5 ; 10[. En effet, 43n

= 957,75 et le 1er effectif

cumulé croissant supérieur à 957,75 est l’effectif cumulé 1079 ; celui-ci correspond à la classe [5 ; 10[. Un raisonnement similaire peut être réalisé à l’aide des fréquences cumu-lées : la 1ère fréquence cumulée croissante supérieure à 0,75 est la fréquence cumulée 0,8449 ; celle-ci correspond bien à la classe [0 ; 5[.

On applique la formule générale suivante :

04,6)92675,957(153

55)4

3(3 1inf =−+=−+= −ii

nnn

amplBQ

Ainsi, trois quarts des jeunes interrogés mettent moins de 6 mois à trouver un 1er emploi, tandis que un quart des jeunes interrogés met plus de 6 mois à trouver un 1er emploi.

La moyenne vaut 54,51277

5,7072=

Nous constatons que les valeurs s'étendent de 0 à 35, c'est-à-dire que l’étendue est [0 ; 35] et son amplitude vaut 35. En d’autres termes, les jeunes interrogés mettent entre 0 et 35 mois pour trouver un 1er emploi.

L’intervalle interquartile vaut Q3 - Q1 = 6,63 - 1,72 = 4,91

Ainsi, 50% des observations qui encadrent la médiane se situe dans un intervalle de presque 5 mois.

La variance vaut 5,381277

12,49161=

L’écart-type vaut 2,65,38 =

8 7007 TG WB 00

Page 55: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Le nombre de mois moyen pour accéder à un 1er emploi est de 5 mois et demi, avec un écart-type de 6 mois.

Le coefficient de variation est de 12,154,5

=2,6

ce qui signifie que la série est assez disper-

sée.

Dans le tableau suivant, nous présentons le détail des algorithmes de calcul de la moyenne, de la variance et de l’écart-type de la variable V09

Modalités de V09

Centres d’intervalle Effectifs nk ck nk (ck – m)²

[0 ; 5[ 2,5 926 2315 8557,72

[5 ; 10[ 7,5 153 1147,5 587,76

[10 ; 15[ 12,5 88 1100 4262,86

[15 ; 20[ 17,5 43 752,5 6150,79

[20 ; 25[ 22,5 29 652,5 8341,61

[25 ; 30[ 27,5 26 715 12538,28

[30 ; 35] 32,5 12 390 8722,10

Effectif total : 1277 Somme : 7072,5 Somme : 49161,12

Moyenne : 5,54 Variance : 38,5

Ecart-type : 6,2

Exercice 7

Une enquête « vie universitaire » a été menée auprès d’un échantillon d’étudiants. Ces der-niers ont dû noter, pendant une semaine, le temps qu’ils consacraient à différentes activités (détente, travail universitaire, transport…). Dans le tableau ci-dessous, les informations re-cueillies sont relatives au nombre d’heures consacrées aux études.

Nombre d’heures consacrées aux études

Modalités (temps en heures) Effectifs (nombre d’étudiants)

[30 ; 32[ 19

[32 ; 35[ 24

[35 ; 38[ 58

[38 ; 40[ 24

[40 ; 42] 35

8 7007 TG WB 00

Page 56: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Question 1 : Décrivez la variable étudiée. Question 2 : Indiquez la classe modale et l’étendue de la série statistique. Question 3 : Calculez la moyenne et l’écart-type (avec 2 formules différentes) de cette distribution. Question 4 : Déterminez par le calcul la valeur médiane du temps consacré aux études. Vérifiez graphiquement votre résultat. Question 5 : Déterminez l’intervalle interquartile. Question 6 : Calculez le coefficient de variation. Question 7 : Déterminez la proportion d’étudiants travaillant plus de 39 heures. Question 8 : Faites une représentation graphique.

Corrigé 7

Réponse 1 La variable étudiée est une variable quantitative continue. L’échantillon est constitué de 160 individus. Réponse 2 Pour déterminer la classe modale, il est nécessaire de calculer les densités de fréquence ou d’effectif (car les amplitudes de classe ne sont pas constantes).

Modalités Effectifs Amplitude Densité d’effectif

[30 ; 32[ 19 2 9,5

[32 ; 35[ 24 3 8

[35 ; 38[ 58 3 19,33

[38 ; 40[ 24 2 12

[40 ; 42] 35 2 17,5

La classe modale est la classe [35 ; 38[car la densité de fréquence maximale est 19,33.

L’étendue de la série statistique est [30 ; 42].

8 7007 TG WB 00

Page 57: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Réponse 3

Modalités Centres d’intervalle

Effectifs nk ck nk (ck – m)² nici²

[30 ; 32[ 31 19 589 630,37 18259

[32 ; 35[ 33,5 24 804 255,06 26934

[35 ; 38[ 36,5 58 2117 3,92 77271

[38 ; 40[ 39 24 936 120,42 36504

[40 ; 42] 41 35 1435 629,22 58835

Effectif total : 160 Somme : 5 881 Somme : 1 639 Somme : 217 803

Moyenne : 36,76 Variance : 10,24 Variance : 10,24

Ecart-type : 3,2 Ecart-type : 3,2

Le nombre d’heures moyen consacrées aux études est de 36 h 46 mn, avec un écart-type de 3 h 12 mn. Réponse 4

Modalités Effectifs Effectifs cumulés

[30 ; 32[ 19 19

[32 ; 35[ 24 43

[35 ; 38[ 58 101

[38 ; 40[ 24 125

[40 ; 42] 35 160

2n

= 80 et le 1er effectif cumulé croissant supérieur à 80 est l’effectif cumulé 101 ; celui-ci

correspond à la classe [35 ; 38[.

91,36)4380(583352 =−+=Q

Ainsi, la moitié des jeunes interrogés consacre moins de 36h55mn aux études, tandis que l’autre moitié des jeunes interrogés consacre plus de 36h55mn aux études.

8 7007 TG WB 00

Page 58: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Courbe cumulative croissante - Nombre d'heures consacrées aux études

0

50

100

150

200

30 32 35 38 40 42

Heures

Effe

ctifs

cum

ulés

Réponse 5

Pour déterminer l’intervalle interquartile, il est nécessaire de calculer Q1 et Q3.

4n

= 40 et le 1er effectif cumulé croissant supérieur à 40 est l’effectif cumulé 43 ; celui-ci cor-

respond à la classe [32 ; 35[.

63,34)1940(243321 =−+=Q

43n

= 120 et le 1er effectif cumulé croissant supérieur à 120 est l’effectif cumulé 125 ; celui-ci

correspond à la classe [38 ; 40[.

58,39)101120(242383 =−+=Q

L’intervalle interquartile est donc 39,58-34,63 = 4,95. Cela signifie que 50% des observa-tions situées autour de la médiane se répartissent dans un intervalle de 4h57mn.

Réponse 6

Le coefficient de variation est 087,076,362,3

= soit 8,7%

Réponse 7

La proportion d’étudiants travaillant plus de 39h est : 2938,0160

3512=

+soit 29,38%.

8 7007 TG WB 00

Page 59: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Réponse 8

Histogramme - Nombre d'heures consacrées aux études

0

5

10

15

20

25

Heures

Dens

ité d

'effe

ctifs

Exercice 8

Le tableau ci-dessous indique les résultats à une épreuve de français de deux classes d’élèves (A et B) considérées comme des échantillons.

Résultats à une épreuve de français

Classes de notes

Nombre d’observations dans la classe A

Nombre d’observations dans la classe B

[0-4[ 1 0

[4-8[ 6 8

[8-12[ 8 6

[12-16[ 10 3

[16-20] 16 9

Question 1

Calculez la médiane et l’écart interquartile de la distribution des notes de la classe A, puis de la classe B. Interprétez les résultats.

Question 2

Calculez la moyenne et l’écart type de la distribution des notes de la classe A, puis de la classe B.

8 7007 TG WB 00

Page 60: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Question 3

En faisant l’hypothèse d’une équirépartition des résultats des élèves dans chaque classe, quelle est la proportion d’élèves qui obtient une note inférieure à 11 dans la classe A ? Dans la classe B ?

Définition de l’équirépartition : répartition régulière des individus sur toute l’étendue de la classe.

Question 4

Faites une représentation graphique de chacune des deux classes.

Question 5

À l’issue de ces calculs, comparez les deux classes.

Corrigé 8

Réponse 1

Classes de notes Effectifs classe A Effectifs cumulés classe A Effectifs classe B Effectifs cumulés

classe B

[0-4[ 1 1 0 0

[4-8[ 6 7 8 8

[8-12[ 8 15 6 14

[12-16[ 10 25 3 17

[16-20] 16 41 9 26

41 26

Commençons par calculer la médiane et les quartiles de la classe A.

2n

= 20,5 et le 1er effectif cumulé croissant supérieur à 20,5 est l’effectif cumulé 25 ; celui-ci

correspond à la classe [12 ; 16[.

2,14)155,20(104122 =−+=Q

Ainsi, la moitié des élèves de la classe A a obtenu une note inférieure à 14,2 à l’épreuve de français, tandis que l’autre moitié des élèves a obtenu une note supérieure à 14,2.

4n

= 10,25 si bien que le 1er quartile se situe dans la classe [8 ; 12[.

63,9)725,10(8481 =−+=Q

43n

= 30,75 si bien que le 3e quartile se situe dans la classe [16 ; 20[.

44,17)2575,30(164163 =−+=Q

8 7007 TG WB 00

Page 61: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

L’intervalle interquartile de la classe A est donc 17,44-9,63 = 7,81. Cela signifie que 50% des observations situées autour de la médiane se répartissent dans un intervalle de 7,81.

Calculons maintenant la médiane et les quartiles de la classe B.

2n

= 13 et le 1er effectif cumulé croissant supérieur à 13 est l’effectif cumulé 14 ; celui-ci cor-

respond à la classe [8 ; 12[.

33,11)813(6482 =−+=Q

Ainsi, la moitié des élèves de la classe B a obtenu une note inférieure à 11,33 à l’épreuve de français, tandis que l’autre moitié des élèves a obtenu une note supérieure à 11,33.

4n

= 6,5 si bien que le 1er quartile se situe dans la classe [4 ; 8[.

25,7)05,6(8441 =−+=Q

43n

= 19,5 si bien que le 3e quartile se situe dans la classe [16 ; 20[.

1,17)175,19(94163 =−+=Q

L’intervalle interquartile est donc 17,1-7,25 = 9,85. Cela signifie que 50% des observations situées autour de la médiane se répartissent dans un intervalle de 9,85.

Réponse 2

À nouveau, commençons par la classe A.

Classes de notes

Centres d’intervalle Effectifs classe A nk ck nk (ck – m)²

[0-4[ 2 1 2 128,14

[4-8[ 6 6 36 321,49

[8-12[ 10 8 80 88,18

[12-16[ 14 10 140 4,62

[16-20] 18 16 288 350,44

41 Somme : 546 Somme : 892,87

Moyenne : 13,32 Variance : 21,78

Ecart-type : 4,67

La note moyenne des élèves de la classe A est 13,32 avec un écart-type de 4,67.

8 7007 TG WB 00

Page 62: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

Continuons par la classe B.

Classes de notes Centres d’intervalle Effectifs classe B nk ck nk (ck – m)²

[0-4[ 2 0 0 0

[4-8[ 6 8 48 288

[8-12[ 10 6 60 24

[12-16[ 14 3 42 12

[16-20] 18 9 162 324

26 Somme : 312 Somme : 648

Moyenne : 12 Variance : 24.92

Ecart-type : 4.99

La note moyenne des élèves de la classe B est 12 avec un écart-type de 6,81.

Réponse 3

La proportion d’élèves qui obtient une note inférieure à 11 dans la classe A est

3170,041

661=

++, soit 31,7% des élèves.

La proportion d’élèves qui obtient une note inférieure à 11 dans la classe B est

4808,026

5,480=

++, soit 48,08% des élèves.

Réponse 4

Histogramme - Résultats de la classe A

0

2

4

6

8

10

12

14

16

18

0 4 .8 .12 .16 .20

Notes

Effe

ctifs

8 7007 TG WB 00

Page 63: Methodologie_quantitatives_2010(1)

Chapitre 2 : Description statistique de tableaux à une variable

8 7007 TG WB 00

Histogramme - Résultats de la classe B

0

1

2

3

4

5

6

7

8

9

10

0 4 .8 .12 .16 .20

Notes

Effe

ctifs

Réponse 5

Autour d’une moyenne relativement proche dans les classes A et B, les élèves se répartis-sent différemment : en effet, les valeurs de l’écart interquartile et l’écart-type de la classe A sont plus faibles que celles de la classe B, ce qui indique une plus faible dispersion des notes des élèves de la classe A autour de la moyenne. Les représentations graphiques illus-trent d’ailleurs ce résultat.

Page 64: Methodologie_quantitatives_2010(1)

Chapitre 3 Échantillon aléatoire : intervalle de confiance d’une proportion ou d’une moyenne La description statistique ne constitue que la première étape de l'analyse des don-nées en rapportant un ensemble d'informations synthétiques relatives à un échan-tillon extrait d'une population. L'intérêt de l'approche statistique est de fournir des outils permettant une extension contrôlée des propriétés observées sur l'échantil-lon, à l'ensemble de la population parente. Cette extrapolation est instrumentée par les concepts, techniques et méthodes de la statistique dite inférentielle. Estimer des paramètres de variables relatives à une population et tester des hypothèses consti-tuent les principaux outils d’aide à la décision développés dans les chapitres sui-vants.

De façon générale, lorsque l’on ne dispose pas d’informations complètes sur une population et que l’on désire connaître la valeur de certains paramètres, on effectue un sondage aléatoire. Schématiquement, un sondage aléatoire repose sur l’interrogation d’un échantillon aléatoire de taille n extrait d’une population de taille N. Les individus sont décrits par des variables qualitatives (sexe, niveau de diplôme, département, diplômé ou non, etc.) ou quantitatives (âge, temps d’accès au premier emploi). A l’échantillon aléatoire extrait à partir d’une population, on peut associer des caractéristiques telles que fréquence ou proportion d'une modalité pour une va-riable qualitative ou moyenne ou écart-type pour une variable quantitative.

1. Intervalle de confiance d’une proportion

1A. Situation d’étude

À partir de l’enquête G98 réalisée sur un échantillon de 1352 sortants du système éducatif en Haute-Normandie, on se propose de déterminer la proportion de sor-tants ayant atteint au moins le niveau du baccalauréat (niveau I, II, III ou IV avec ou sans le diplôme correspondant), Cette proportion nous est inconnue1 sur l’ensemble de la population (tous les sortants de l’année 1998, en Haute Normandie) et il s’agit de l’estimer. Rappelons que dans notre échantillon, 273 personnes sortent du sys-tème éducatif avec un niveau I ou II, 290 avec un niveau III et 342 avec un niveau IV ; soit un total de 905 personnes sur 1352 avec un niveau au moins égal au bac-calauréat, c'est-à-dire 66,9%. Avec un autre échantillon de sortants, nous aurions

1 Un recensement de l’ensemble des élèves de cette génération de sortants nous permettrait d’obtenir la valeur exacte de ces proportions mais il s’agit alors d’interroger près de 800 000 personnes !

8 7007 TG WB 00

Page 65: Methodologie_quantitatives_2010(1)

Chapitre 3 : Échantillon aléatoire : intervalle de confiance d’une proportion ou d’une moyenne

très probablement obtenu des résultats différents. Comment peut-on alors estimer la valeur réelle dans la population, à partir de ces éléments ?

1B. Exposé théorique

Un exemple d'estimation très connu du grand public est fourni par les fourchettes de pourcentages données les soirs de scrutins nationaux. Estimer la valeur incon-nue d’un pourcentage ou d’une proportion, c’est chercher à attribuer une valeur numérique approximative à ce paramètre. La valeur obtenue est une estimation ponctuelle. A cette estimation ponctuelle, il convient également d’associer un inter-valle de confiance afin de prendre en compte la variabilité des résultats obtenus d’un échantillon à l’autre. En effet, lorsque l'on extrait indépendamment deux échantillons de la population des électeurs, il est clair que l'on a peu de chance d'obtenir exactement la même proportion de personnes favorables à un des candi-dats, A par exemple. De même, on peut aussi s'attendre à trouver une valeur diffé-rente de celle relative à la population entière. Cependant la théorie mathématique montre que si l’on prenait tous les échantillons possibles de taille n (avec remise) et que sur chacun d'eux on calcule la proportion des électeurs favorables à A puis que l'on établisse le tableau statistique de la distribution des fréquences et enfin que l'on construise le diagramme en bâtons, ce dernier aurait une forme proche de celle-ci-dessous (densité de la loi normale, centrée sur la vraie valeur inconnue).

Cette ressemblance sera d'autant plus forte que n sera grand.

Le même constat pourrait être fait avec une variable quantitative en étudiant la dis-tribution des moyennes obtenues sur l’ensemble des échantillons.

Cette courbe est mathématiquement bien connue. Elle n'est autre que l'histo-gramme d'une variable elle-même bien connue : la variable de Laplace-Gauss. La courbe porte divers noms : courbe de Gauss, courbe en cloche, courbe de la loi normale. Ses principales propriétés sont : sa symétrie par rapport à l’axe vertical, sa moyenne est égale à sa médiane et à son mode.

De nombreux phénomènes donnant lieu à des mesures de grandeur peuvent être modélisés statistiquement par cette distribution de fréquences ; en particulier des mesures physiques, économiques, biologiques, des relevés de tests ou de notes etc.

8 7007 TG WB 00

Page 66: Methodologie_quantitatives_2010(1)

Chapitre 3 : Échantillon aléatoire : intervalle de confiance d’une proportion ou d’une moyenne

C’est à partir des propriétés de cette courbe que l’on peut calculer les intervalles de confiance.

Conditions d’utilisation

La proportion p d’une caractéristique déterminée par une variable X sur la popula-tion est inconnue (on note f la proportion calculée sur l’échantillon).

L’échantillon est obtenu par n tirages aléatoires

– avec remise dans une population de taille finie N ;

– sans remise dans une population de taille finie N si le taux de sondage est tel

que Nn < 0,1.

Pour des conditions optimales, la taille n de l’échantillon devrait être supérieure à 50 et l’estimation ponctuelle devrait être comprise entre 0,1 et 0,9, sinon il con-viendrait de consulter des documents de statistique précisant d’autres conditions.

Estimation ponctuelle de la proportion inconnue d’une caractéristique sur la popu-lation

Elle est tout simplement obtenue à partir de la proportion calculée avec les valeurs observées sur l’échantillon. On dit que f fréquence ou proportion obtenue sur l’échantillon est une estimation ponctuelle de p.

Estimation de la proportion par intervalle de confiance bilatéral symétrique

Il s’agit cette fois de proposer une procédure permettant d’obtenir une fourchette d’estimation de la proportion p affectée d’un niveau de confiance.

On démontre (à partir des propriétés de la Loi Normale précédente) que pour un ni-veau de confiance de 95% (risque de confiance ou risque de se tromper de 5%), la proportion p est comprise dans l’intervalle :

[f – e ; f + e] où f désigne la fréquence dans l’échantillon et e l’erreur d’échantillonnage qui vaut approximativement :

⎥⎦

⎤⎢⎣

⎡ −n

ff )1(

2 2 e=

Interprétation : Il y a 95 chances sur 100 pour que la valeur réelle p dans la popu-lation soit comprise entre f-e et f+e.

2 La valeur réelle de e égale à ⎥⎦

⎤⎢⎣

⎡ −

n

ff )1(96,1 . Pour un risque plus faible, 1% par exemple, il faut remplacer

1,96 par 2,57. Ces valeurs se lisent dans une table de la Loi Normale.

8 7007 TG WB 00

Page 67: Methodologie_quantitatives_2010(1)

Chapitre 3 : Échantillon aléatoire : intervalle de confiance d’une proportion ou d’une moyenne

Le tableau ci-dessous permet de mesurer les marges d’erreur dans les résultats des sondages effectués selon la méthode aléatoire, pour une proportion. C’est la seule méthode qui permette de mesurer ces marges. Or, pour des raisons pratiques, la très grande majorité des sondages est réalisée par la méthode des quotas. Dans ce cadre, la marge d’erreur ne peut pas être calculée avec précision. Mais, pratique-ment on considère que ces marges d’erreur sont du même ordre dans les deux mé-thodes.

Marge d’erreur pour un sondage aléatoire

f en %Echantillon (taille)

5% ou 95%

10% ou 90%

15% ou 85%

20% ou 80%

25% ou 75%

30% ou 70%

35% ou 65%

40% ou 60%

45% ou 55%

50%

50 6,2 8,5 10,2 11,3 12,2 13 13,3 13,9 14,1 14,1

100 4,4 6 7,2 8 8,6 9,2 9,6 9,8 10 10

200 3,1 4,3 5,1 5,7 6,1 6,5 6,8 6,9 7,1 7,1

300 2,8 3,8 4,5 5 5,4 5,8 6 6,2 6,3 6,3

500 2 2,7 3,2 3,6 3,9 4,1 4,3 4,4 4,5 4,5

1000 1,4 1,8 2,2 2,5 2,6 2,8 3 3 3,1 3,1

2000 1 1,3 1,6 1,8 1,9 2,1 2,1 2,2 2,2 2,3

Note de lecture : La marge d’erreur d’un sondage réalisée selon la méthode aléa-toire est déterminée par la taille de l’échantillon et la fréquence obtenue pour la modalité considérée dans l’échantillon. Ainsi, pour un échantillon de 100 personnes et une fréquence de 25%, la marge d’erreur est de 8,6%. Le pourcentage dans la po-pulation répondant à la question posée est donc compris dans l’intervalle 25-8,6=16,4% et 25+8,6=33,6% (les chiffres de ce tableau sont calculés avec un risque consenti de 5%, à partir de la formule donnée ci-dessus).

8 7007 TG WB 00

Page 68: Methodologie_quantitatives_2010(1)

Chapitre 3 : Échantillon aléatoire : intervalle de confiance d’une proportion ou d’une moyenne

1C. Traitement des données

Reprenons les données présentées dans la situation d’étude.

Pour estimer la proportion de sortants avec un niveau au moins égal au baccalau-réat, on a :

n= 1352 (taille de l’échantillon)

f =0,669 (66,9%)

L’estimation ponctuelle de p est donc de 0,669 (66,9%).

Avec un risque de confiance de 5%, on peut calculer l’intervalle de confiance de la façon suivante :

[f – e ; f + e ] où e désigne l’erreur d’échantillonnage et vaut approximativement :

026,01352

)669,01(669,02)1(2 =−

=⎥⎦

⎤⎢⎣

⎡ −=

nffe

Ainsi, il y a 95 chances sur 100 pour que la proportion p dans la population soit comprise entre 0,643 et 0,695 soit 64,3% et 69,5%.

Exercice

Déterminer l’estimation ponctuelle de la proportion de sortants sans qualification (niveau V bis et VI).

Corrigé

Pour estimer la proportion de sortants sans qualification, on a :

n= 1352 (taille de l’échantillon)

f =131 / 1352 = 0,097 soit 9,7%

L’estimation ponctuelle de p est donc de 0,097 soit 9,7%.

Avec un risque de confiance de 5%, on peut calculer l’intervalle de confiance de la façon suivante :

[f – e ; f + e] où e désigne l’erreur d’échantillonnage et vaut approximativement :

8 7007 TG WB 00

Page 69: Methodologie_quantitatives_2010(1)

Chapitre 3 : Échantillon aléatoire : intervalle de confiance d’une proportion ou d’une moyenne

016,01352

)097,01(097,02)1(2 =−

=⎥⎦

⎤⎢⎣

⎡ −=

nffe

Ainsi, il y a 95 chances sur 100 pour que la proportion p de sortants sans qualifica-tion dans la population soit comprise entre 0,081 et 0,113 soit 8,1% et 11,3%.

2. Intervalle de confiance d’une moyenne

2A. Situation d’étude

À partir de l’enquête G98 réalisée sur un échantillon de 1352 sortants du système éducatif en Haute-Normandie, on se propose d’estimer l’âge moyen de sortie du système éducatif.

2B. Exposé théorique

Conditions d’utilisation

La moyenne μ de la variable X sur la population est inconnue

La variance σ2 de la variable X sur la population est inconnue

L’échantillon est obtenu par n tirages aléatoires avec remise dans une population de taille finie N

La taille n de l’échantillon est supérieure à 50 (dans certains ouvrages, n>30 ou 80…)

Estimation ponctuelle de la moyenne inconnue d’une caractéristique sur la popula-tion

Elle est le résultat d’une réalisation de la moyenne empirique sur l’échantillon choi-si. Elle est tout simplement obtenue à partir de la moyenne m calculée avec les va-leurs observées sur l’échantillon :

m = ∑=

=

pk

kkk xn

n 1

1

Si l’on prend comme estimation ponctuelle de la variance de X sur la population, la valeur de la variance de l’échantillon, la théorie des estimateurs montre que cette valeur conduit à une estimation dite « biaisée » de la variance. Finalement la valeur retenue est tout simplement obtenue à partir de la variance calculée avec les valeurs

8 7007 TG WB 00

Page 70: Methodologie_quantitatives_2010(1)

Chapitre 3 : Échantillon aléatoire : intervalle de confiance d’une proportion ou d’une moyenne

observées sur l’échantillon à laquelle on applique le coefficient multiplicateur

1−nn

corrigeant le biais

s²= 2

1

)(1

1 ∑=

=

−−

pi

iii mxn

n= 2

1 nechantillonn σ−

s² est appelée la variance corrigée. s désigne donc l’écart-type corrigé. Lorsque n est « assez grand », les valeurs de s² ou sont approximativement égales. 2

nechantilloσ

Estimation de la moyenne par intervalle de confiance bilatéral symétrique

Il s’agit cette fois de proposer une procédure qui permette d’obtenir une fourchette d’estimation affectée d’un niveau de confiance.

On démontre également que pour un niveau de confiance de 95%, la moyenne μ est comprise dans l’intervalle :

[m – e ; m + e] où e désigne l’erreur d’échantillonnage et vaut e= ⎥⎦

⎤⎢⎣

⎡ns2

2C. Traitement des données

Statistiques descriptives

n Minimum Maximum Moyenne Ecart-type corrigé

Age en 98 (année de sortie) 1352 16,00 35,00 21,65 3,28

L’âge moyen de l’échantillon de 1352 personnes est approximativement de 21,65 ans. Ce chiffre constitue une estimation ponctuelle de la moyenne inconnue. L’écart-type corrigé de l’échantillon est de 3,28 ans.

A partir de ces informations, nous pouvons déterminer l’intervalle de confiance de l’âge moyen pour un risque de confiance de 5%.

Remarque : l’écart-type corrigé ou non corrigé sont sensiblement égaux car la taille de l’échantillon est grande.

L’erreur d’échantillonnage vaut :

e= ⎥⎦

⎤⎢⎣

⎡ns2 = 0,18 ans

Il y a donc 95 chances sur 100 pour que l’âge moyen de sortie soit compris entre 21,47 ans et 21,83 ans (environ entre 21,5 ans et 22 ans).

8 7007 TG WB 00

Page 71: Methodologie_quantitatives_2010(1)

Chapitre 3 : Échantillon aléatoire : intervalle de confiance d’une proportion ou d’une moyenne

Exercice

Une enquête auprès d’un échantillon de 176 étudiants d’une filière de second cycle universitaire. Deux groupes d’étudiants sont interrogés : ceux ayant suivi une for-mation par alternance et les autres.

Une des questions porte sur le degré d’optimisme qu’ils déclarent en songeant à leur avenir. La répartition (en effectifs) des étudiants est donnée ci-après :

1= très inquiet 2= inquiet 3= optimiste 4= très optimiste

Non alternance 12 30 38 6

Alternance 4 22 50 14

On suppose que l’on peut calculer un score moyen d’optimisme dans les deux groupes, score noté de 1 à 4 comme indiqué

1 Calculer ce score moyen dans les deux groupes (vous vérifierez que ces scores moyens sont bien compris entre 1 et 4).

2 Calculer l’écart type corrigé dans les deux groupes.

3 Donner l’intervalle de confiance de ce score dans les deux groupes, au risque de 5%. Conclure.

8 7007 TG WB 00

Page 72: Methodologie_quantitatives_2010(1)

Chapitre 3 : Échantillon aléatoire : intervalle de confiance d’une proportion ou d’une moyenne

8 7007 TG WB 00

Corrigé

Notations :

n1 et n2 désignent les tailles respectives des deux échantillons

m1 et m2 désignent les moyennes observées

s1 et s2 les écarts-types corrigés des échantillons

Calculs :

m1=2,44 ; s1= 0,82 ; e1=0,18

m2=2,82 ; s2= 0,74 ; e2= 0,16

Il suffit de conclure :

Il y a 95 chances sur 100 pour que le score moyen d’optimisme des étudiants « non alternance » soit compris entre 2,26 et 2,62 et que le score moyen des étudiants « en alternance » soit compris entre 2,66 et 2,98. La formation par alternance semble donc avoir un impact positif sur la perception que les étudiants ont de l’avenir (les intervalles de confiance sont disjoints et celui relatif aux étudiants par alternance contient des valeurs de moyennes supérieures).

Page 73: Methodologie_quantitatives_2010(1)

Chapitre 4 Décrire simultanément deux variables Dans une enquête par questionnaire, la première étape du traitement des données consiste à effectuer une analyse dite « univariée » des caractères qualitatifs et quantitatifs fondée sur la description des données (tris à plat, analyses des ten-dances et de la dispersion) en procédant question par question.

Ensuite l’exploitation des résultats permet de répondre à des interrogations mettant en œuvre des procédures d’estimation ou des tests statistiques d’hypothèses mais en ne prenant en considération qu’une seule question à la fois.

Mais il est aussi très intéressant d’aborder des analyses qui vont tenir compte de l’étude conjointe de deux variables. Dans cette perspective nous allons aborder les questions suivantes :

Comment peut-on analyser simultanément les réponses à deux questions qualita-tives ? Peut-on ou non établir une dépendance entre les réponses fournies à deux questions qualitatives fermées ? Comment tester les hypothèses de dépen-dance/indépendance ? Ceci est l’objet de la partie traitant du tableau croisé et du

test d’indépendance par la méthode du Khi-deux (χ²) Comment peut-on analyser simultanément les réponses à deux questions quantita-tives?1 Ceci est l’objet de la partie traitant de l’étude de 2 variables quantitatives (coefficient de corrélation et analyse de la régression linéaire).

1. Décrire simultanément deux variables qualitatives

1A. Situation d’étude

Dans cette partie, il s’agit, en particulier, d’analyser conjointement les réponses à deux questions qualitatives. Pour cela, nous sommes amenés à procéder à un « tri croisé », à construire ce que nous appelons un « tableau croisé » qui constitue un outil très efficace.

Par exemple, supposons que l’objectif soit d’analyser la relation entre le niveau de sortie du système éducatif et le sexe, il convient de croiser les deux variables :

VA désignant le niveau de sortie dont les modalités sont :

1 Le cas d’une variable qualitative et d’une variable quantitative sera traité dans le cours de Master 1.

8 7007 TG WB 00

Page 74: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

(A1, A2, A3, A4, A5)= (niveau supérieur à Bac + 2, Niveau Bac +2, Niveau Bac, Niveau CAP ou BEP, Sans qualification)

VB désignant la variable sexe dont les modalités sont :

(B1, B2)= (Garçon, Fille).

8 7007 TG WB 00

Page 75: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Supposons que le « tableau croisé » obtenu soit le suivant :

VB : Sexe VA : Niveau de sortie

Garçon Fille Total

Supérieur à Bac + 2 134 139 273

Bac + 2 130 160 290

Bac 174 168 342

CAP ou BEP 188 128 316

Sans qualification 76 55 131

Total 702 650 1352

1B. Exposé théorique

Le tableau croisé

Considérons les N individus interrogés qui ont répondu à tout un ensemble de questions. Supposons que l’on souhaite étudier simultanément 2 caractères (ou va-riables) nominaux ou qualitatifs2. Rappelons que le tri à plat donne la répartition des individus interrogés selon toutes les modalités de chaque caractère.

Soit VA et VB les deux variables à étudier ayant respectivement L et C modalités. Ainsi, (A1, A2, …..Al) sont les modalités de VA et (B1, B2, …..BC) sont les modalités de VB.

Le tri croisé est l’opération qui consiste à dénombrer les individus relatifs à tous les croisements. Le nombre de croisements est L x C (tableau à L lignes et C colonnes).

Généralisons maintenant la notation à une situation quelconque en recourant à l’usage de double indice, pour repérer la ligne et la colonne :

VB

VA B1 B2 ……. Bj ……. Bc Total

A1 N 11 N 12 N 1j N 1C N 1.

A2 N 21 N 22 N 2J N 2C N 2.

Ai N i1 N i2 N i j N iC N i.

2 On peut également étudier 2 caractères numériques découpés en classes ou bien encore un caractère numérique découpé en classes et un caractère qualitatif

8 7007 TG WB 00

Page 76: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

……

AL NL1 N L2 N Lj N LC N c.

Total N .1 N. 2 N. j N. c N

Pour lire le tableau, il faut donc savoir que :

N i j désigne l’effectif de la case (i, j), situé sur la ie ligne et sur la je colonne ;

N.j désigne l’effectif de la colonne j, C'est la somme des effectifs situés dans la co-lonne j, située sur la dernière ligne et dans la je colonne ;

N i désigne l’effectif de la ligne i, située sur la dernière colonne et dans la ire ligne.

Transformations du tableau croisé

Afin d’analyser les éléments remarquables de ce tableau, une transformation est nécessaire. Selon le type d’information recherché, on peut soit le remplacer par un tableau de pourcentage, en divisant tous les nombres par l’effectif total N et en multipliant par 100, ou bien, le plus souvent, calculer des pourcentages lignes ou des pourcentages colonnes.

Dans le cas des pourcentages lignes (profils lignes), à la modalité Ai, on associe la suite des pourcentages, selon la variable VB des N i. individus qui possèdent la mo-dalité Ai. Sur la ligne « total », on calcule également des pourcentages correspon-dant aux pourcentages moyens (profil moyen), ce sont les pourcentages de la répartition des modalités de la variable B (voir exemple ci-après).

Dans le cas des pourcentages colonnes (profils colonnes), à la modalité Bj, on asso-cie la suite des pourcentages, selon la variable VA des N. j individus qui possèdent la modalité B j. Sur la colonne total, on calcule également des pourcentages corres-pondant aux pourcentages moyens, ce sont les pourcentages de la répartition des modalités de la variable VA

1C. Traitement des données

Pour la situation d’étude précédente, on peut construire les profils lignes puis les profils colonnes.

Tableau des profils lignes : répartition des garçons et des filles selon le niveau de sortie

VB : Sexe VA : Niveau de sortie

Garçon Fille Total

Supérieur à Bac + 2 49,1% 50,9% 100%

Bac + 2 44,8% 55,2% 100%

8 7007 TG WB 00

Page 77: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Bac 50,9% 49,1% 100%

CAP ou BEP 59,9% 40,5% 100%

Sans qualification 58,0% 42,0% 100%

Profil moyen 51,9% 48,1% 100%

(*) le pourcentage de 49,1% est obtenu par le quotient de N11 par N1. :

491,0273134

.1

11 ≈=NN

Interprétation de ces résultats

Parmi, les sortants de niveau Bac +2 et plus, on compte 49,1% de garçons et 50,9% de filles. Parmi les sortants Sans qualification, on compte 58% de garçons et 50,9% de filles. Par ailleurs, la répartition des garçons et des filles, indépendamment de la connaissance de leur niveau de sortie est la suivante : 51,9% de garçons et 48,1% de filles. Ce résultat illustre la meilleure réussite scolaire des filles.

On peut de même déterminer le tableau des profils colonnes qui s’intitulera : ta-bleau des profils colonnes : répartition des niveaux de sortie selon le sexe.

2. La notion fondamentale d’indépendance statistique

2A. Exposé théorique

Caractérisation de l’indépendance

Dans l’échantillon, si les deux variables VA et VB sont indépendantes, tous les profils lignes sont alors égaux entre eux et égaux au profil-ligne moyen. Les profils-colonnes vérifient également cette propriété (égaux entre eux et égaux au profil co-lonne moyen). On peut alors déterminer les effectifs correspondant à cette hypo-thèse d’indépendance. Ces effectifs sont appelés effectifs théoriques.

L’effectif théorique de la case (i, j) correspondant à l’hypothèse d’indépendance est égal à :

N i. x N. j / N (Produit des marges divisé par l’effectif total)

N i. désignant le total de la ligne i

N. j désignant le total de la colonne j

N désignant l’effectif total

8 7007 TG WB 00

Page 78: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

2B. Traitement des données

Le tableau suivant (obtenu par EXCEL) correspond aux effectifs théoriques associé au tableau observé. Les marges des 2 tableaux doivent être identiques (effectifs to-taux).

Tableau des effectifs théoriques

VB : Sexe VA : Niveau de sortie

Garçon Fille Total

Supérieur à Bac + 2 141,75 131,25 273

Bac + 2 150,576923 139,423077 290

Bac 177,576923 164,423077 342

CAP ou BEP 164,076923 151.923077 316

Sans qualification 68,0192308 62,9807692 131

Total 702 650 1352

Remarque : ce tableau obtenu par EXCEL donne les valeurs exactes des effectifs théoriques. 141,75=273 * 702/1352 ; 150,576923..=290 * 702 / 1352 etc….

Dans ce tableau la distribution des niveaux de sortie ne dépend pas du sexe et in-versement. On dit que les deux variables sont indépendantes.

On peut également calculer les profils lignes et vérifier qu’ils sont tous égaux au profil moyen.

Même remarque pour les profils colonnes.

3. Une mesure d’association : le χ² dit d’écart à l’indépendance

3A. Situation d’étude

On peut reprendre le tableau observé et le tableau théorique calculé à partir de la formule précédente (produit des marges divisé par l’effectif total).

3B. Exposé théorique

Afin de comparer les effectifs observés lors du sondage aux effectifs théoriques de l’hypothèse d’indépendance, on utilise un indice baptisé le χ² (à prononcer Khi-deux 22e lettre de l’alphabet grec) construit à partir des écarts entre le tableau croi-sé des effectifs observés que nous rebaptiserons [O ; O comme observé] et le ta-bleau croisé des effectifs théoriques que nous appellerons [T ; T comme théorique].

8 7007 TG WB 00

Page 79: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Pour chaque case (i, j) on calcule l’écart : Oij - Tij puis on élève cet écart au carré et enfin on le divise par l’effectif théorique T i j .

On calcule ensuite le χ² en sommant sur toutes les cases du tableau. La formule qui

décrit l’opération précédente, s’écrit : χ² = ∑−

ij ij

ijji

TTO )²(

Cette expression, établie par le statisticien Pearson, exprime l’importance de l’écart entre une distribution observée et une distribution théorique.

Il faut associer à cette valeur de χ² un nombre de degrés de liberté qui dépend de la taille du tableau. Ce nombre noté ddl est calculé par : ddl = (L-1) * (C-1) ; où L désigne le nombre de lignes et C le nombre de colonnes du tableau.

Ensuite, il faut comparer cette valeur associée à son ddl à des valeurs critiques théoriques fournies par des tables statistiques.

Ainsi dans notre exemple L=5 ; C=2, donc ddl= (5-1) *( 2-1) = 4. On peut remar-quer que le chiffre 4 correspond exactement au nombre de cases pour lesquelles il a fallu calculer les effectifs théoriques, les autres se déduisant en référence aux marges du tableau.

Remarques et conditions d’utilisation :

L’indice du χ² est toujours positif ou nul. S’il est nul, les deux variables VA et VB sont strictement indépendantes

Les valeurs du χ² sont d’autant plus grandes que les écarts entre effectifs observés et effectifs théoriques sont grands

L’usage du χ² pour tester l’hypothèse d’indépendance avec un risque contrôlé n’est pertinent que si tous les effectifs théoriques sont supérieurs ou égaux à 5. Dans le cas contraire, il faut procéder à des regroupements de modalités selon le sens des données.

Si on multiplie tous les effectifs du tableau observé par un nombre k, le χ² calculé est alors multiplié par k.

3C. Traitement des données

Dans l’exemple que nous avons proposé sur le croisement des deux variables, la valeur du χ² = 16,1 (obtenu par Excel). Cette valeur est obtenue en effectuant la somme de tous les éléments du tableau suivant. En particulier 0,45761905 s’obtient de la manière suivante : (139-131,25)² /131,25.

Tableau des (Oij – Tij)2 / Tij :

VB : Sexe VA : Niveau de sortie

Garçon Fille

8 7007 TG WB 00

Page 80: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Supérieur à Bac + 2 0,42372134 0,45761905

Bac + 2 2,81191669 3,03687003

Bac 0,07204978 0,07781377

CAP ou BEP 3,48808107 3,76712756

Sans qualification 0,93639221 1,01130358

4. Le test du χ² d’indépendance de deux variables qualitatives

4A. Situation d’étude

On peut reprendre le tableau observé et le tableau théorique étudiés

Et χ² = 16,1

4B. Exposé théorique

La démarche du test du χ²

Nous y repérons quatre grandes étapes comme dans la plupart des tests statis-tiques :

Étape 1 : formulation d’hypothèses

Comme pour tout test statistique, deux hypothèses contradictoires sont à prendre en compte : l’hypothèse dite « nulle » notée H0 et une hypothèse alternative dite « expérimentale » notée H1

Par exemple, voici trois formulations équivalentes en ce qui concerne la propriété qui nous intéresse ici

H0 : Il n’y a pas de différence entre la répartition des effectifs observés et la réparti-tion des effectifs théoriques

H1 : Il y a une différence entre la répartition des effectifs observés et la répartition des effectifs théoriques

Ou bien :

H0 : Il n’y a pas de liaison entre les variables VA et VB

H1 : Il y a une liaison entre les variables VA et VB

Ou encore :

H0 : les variables VA et VB sont indépendantes

H1 : les variables VA et VB sont dépendantes

8 7007 TG WB 00

Page 81: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Étape 2 : calcul du χ² et du nombre de degrés de liberté ddl

Le calcul du χ² est établi à partir des effectifs observés et des effectifs théoriques, comme il a été indiqué précédemment. C’est la statistique du test. On calcule éga-lement le nombre de degrés de liberté associé. Ici, dans l’exemple, rappelons que χ²=16,1 et ddl = 4 (5-1)*(2-1) ; On vérifie également que les effectifs théoriques sont bien supérieurs ou égaux à 5

Étape 3 : lecture du χ² théorique pour un risque α donné

Dans la table statistique du χ², sur la ligne ddl = 4, on peut lire (table en annexe et extrait ci-dessous) que pour un risque α donné de 0,05 (5%), le χ² théorique ou lu, noté χ²t, est égal à 9,49. C’est à dire qu’il n’y a que 5 chances sur 100 pour que la statistique du χ² dépasse cette valeur de 9,49, sous l’hypothèse de l’indépendance entre les 2 variables.

Extrait de la table du χ² pour les risques α=0,05 ou α=0,01

α = 0,01 α = 0,05

ddl

1 6,6349 3,8415

2 9,2104 5,9915

3 11,3449 7,8147

4 13,2767 9,4877

5 15,0863 11,0705

6 16,8119 12,5916

7 18,4753 14,0671

8 20,0902 15,5073

Étape 4 : décision statistique

Si χ² > χ²t on rejette H0 avec un risque α

Si la valeur du χ² calculé est supérieure au χ² théorique, alors on rejette l’hypothèse nulle H0 pour le risque donné.

La différence entre les effectifs observés et les effectifs théoriques est trop grande, elle ne peut donc pas résulter du hasard ou des seules fluctuations d’échantillonnage. Au risque α près, les deux variables VA et VB sont statistiquement dépendantes ou liées, l’hypothèse H1 est retenue. L’analyse des profils lignes ou colonnes ou bien l’analyse des effectifs théoriques et observés nous permet d’interpréter le sens de ce lien qu’il faut se garder de considérer d’emblée comme un lien causal.

8 7007 TG WB 00

Page 82: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Si χ² < χ²t on conserve H0

Dans le cas contraire, si la valeur du χ² calculé est inférieure ou égale au χ² théo-rique alors la différence entre les effectifs observés et les effectifs théoriques n’est pas significative, elle résulte des seules fluctuations d’échantillonnage. On retient donc H0.

Remarquons, pour terminer, que le test du χ² n’a de sens que si l’on étudie un re-cueil de données à partir d’un échantillon. Dans le cas d’un recensement, il servira seulement comme mesure d’association entre variables. Il pourra servir, par exemple, à la recherche des caractères les plus liés à un caractère donné.

8 7007 TG WB 00

Page 83: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

4C. Traitement des données

Revenons à l’exemple du croisement des variables Sexe et Niveau de sortie

Il s’agit de tester l’hypothèse H0 contre H1 :

Étape 1 : formulation d’hypothèses

H0 : les variables Sexe et Niveau de sortie sont indépendantes (pas de lien entre les 2 variables)

H1 : les variables Sexe et Niveau sont dépendantes (Lien entre les deux variables)

Étape 2 : Calcul du χ² et du nombre de degrés de liberté ddl

χ² = 16,1 avec 4 degrés de libertés (d.d.l)

Étape 3 : Lecture du χ² théorique pour un risque α donné

Le χ²t (valeur théorique ou lue dans la table) vaut 9,49 pour un risque de 5% (0,05) ou 13,28 pour un risque de 1% (0,01)

Étape 4 : Décision statistique

La valeur observée 16,1 étant plus grande que la valeur théorique au risque de 5% (risque le plus souvent accepté), on décide de rejeter l’hypothèse H0 au risque de 5% (risque de se tromper). Le résultat est le même avec un risque de 1%. Les va-riables sexe et niveau de sortie sont donc dépendantes.

Pour conclure, il est nécessaire d’interpréter le sens de la liaison entre les variables Sexe et niveau de sortie. On peut utiliser les profils-lignes ou colonnes ou bien les tableaux observés et théoriques. Dans ce dernier cas, on observe une sous repré-sentation des filles par rapport à la moyenne dans les sorties sans qualification (ou une sur représentation des garçons) et une sur représentation aux niveaux supé-rieurs au bac. Ce résultat est conforme aux données nationales qui montrent la plus grande réussite scolaire des filles.

Ainsi, les différences observées au niveau de l’échantillon sont significatives statis-tiquement, c'est-à-dire qu’elles sont extrapolables à l’ensemble de la population.

8 7007 TG WB 00

Page 84: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Exercice

Un échantillon de salariés est composé de 300 hommes et 200 femmes de niveau de diplôme comparable. On compte également 150 personnes occupant un emploi non qualifié, le reste occupant un emploi qualifié.

1. Construire le tableau d'effectifs théoriques sous l'hypothèse d'indépendance des caractères "sexe" et "situation d’emploi résumée". Quelle est précisément sa signifi-cation ?

2. On compte parmi les femmes de l’échantillon, 40% d’emploi non qualifiés. Cons-truire le tableau des effectifs observés croisant les deux caractères.

3. Y a t-il une relation entre les deux caractères (risque de 5%) ?

Corrigé

1. Tableau des effectifs théoriques

Hommes Femmes Total

Emploi Qualifié 210 = 350 x300

/500 140 350

Emploi Non Qualifié 90 60 150

Total 300 200 500

Ce tableau correspond à une situation d’étude dans laquelle les deux variables sont statistiquement indépendantes, c’est à dire que la distribution des emplois ne dé-pend pas du sexe. On peut vérifier que les profils lignes (ou colonnes) sont égaux aux profils marginaux moyens.

2. Tableau des effectifs observés

Hommes Femmes Total

Emploi Qualifié 230 120 350

Emploi Non Qualifié 70 80 = 200 x 40/100 150

Total 300 200 500

3. Test du χ²

Étape 1 : formulation d’hypothèses

H0 : Il n’y a pas de liaison entre les variables statut de l’emploi et sexe

8 7007 TG WB 00

Page 85: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

H1 : Il y a une liaison entre les variables statut de l’emploi et sexe

Soumettons H0 à l’épreuve des faits

Étape 2 : calcul du χ² et du nombre de degrés de liberté ddl

Le calcul du χ² est fait à partir des effectifs observés et des effectifs théoriques, comme il a été indiqué précédemment. C’est la statistique du test. On calcule éga-lement le nombre de degrés de liberté associé. Ici, dans l’exemple, χ²=15,87 et ddl = 1 ; On vérifie également que les effectifs théoriques sont bien supérieurs ou égaux à 5.

En effet 60

)6080(90

)9070(140

)140120(210

)210230( 2222 −+

−+

−+

− = 15,87

Étape 3 : lecture du χ² théorique pour un risque α donné

Dans la table statistique du χ², sur la ligne ddl=1, on peut lire que pour un risque de première espèce α donné de 0,05 (5%), le χ² théorique ou lu, noté χ²t, est égal à 3,84. C’est à dire qu’il n’y a que 5 chances sur 100 pour que la statistique du χ² dépasse cette valeur de 3,84. Pour un risque de 0,01 (1%), on lit une valeur de 6,63

Étape 4 : décision statistique

Pour un risque α de 5%, 15,87 > 3,84 donc on peut rejeter l’hypothèse H0 et ad-mettre une dépendance entre les 2 caractères, avec un risque α=5%.

L’analyse des effectifs théoriques et observés montre que l’on peut retenir l’hypothèse avec un risque de 5% que les femmes dans la population considérée, occupent, moins souvent que les hommes, des emplois qualifiés (120 femmes en emploi qualifié contre 140 théoriquement (on dit aussi en moyenne) ou 230 hommes en emploi qualifié contre 210 en moyenne.

5. Étude simultanée de deux variables quantitatives

5A. Situation d’étude

On a relevé pour 8 départements les effectifs par sexe des centres de formation d’apprentis (CFA) pour l’année 1998. On suppose par ailleurs que cet échantillon est jugé représentatif de la population. A partir de ces données on cherche à esti-mer le nombre de filles dans les CFA (du Rhône), connaissant seulement le nombre de garçons.

Départements Garçons Filles

Calvados 1 894 643

8 7007 TG WB 00

Page 86: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Eure 1 933 643

Manche 1 873 873

Oise 1 664 428

Orne 1 260 398

Seine Maritime 4 480 1 455

Somme 1 451 541

Rhône 12 380 ?

5B. Exposé théorique

Différentes étapes sont nécessaires pour résoudre ce problème. Il faut dans un premier temps se poser la question d’une relation entre les deux séries d’effectifs. Puis, dans l’affirmative, trouver la relation qui relie les deux caractères étudiés, et enfin déterminer la valeur manquante par estimation. On se place donc dans un cadre de statistique explicative.

Pour fixer les idées, nous désignerons par Y la variable à expliquer et par X la va-riable explicative. La question précédente est de savoir si la variable Y est liée ou corrélée à la variable X. Et si oui quelle relation les relie ?

Nuage statistique de points

La représentation graphique des données sous forme de « nuage de points » est in-dispensable à la compréhension des phénomènes. On trace donc dans un plan muni de deux axes orthogonaux, ce nuage statistique. Pour l’ensemble des 7 premiers couples de points :

L’axe horizontal (axe des x) est gradué selon les valeurs de X : effectifs garçons des CFA

L’axe vertical (axe des y) est gradué selon les valeurs de Y : effectifs filles des CFA

8 7007 TG WB 00

Page 87: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Répartition des effectifs des apprenties en fonction des effectifs des apprentis

0

200

400

600

800

1000

1200

1400

1600

0 1000 2000 3000 4000

Effectifs Apprentis (Garçons)

Effe

ctifs

des

App

rent

ies

(Fill

es)

5000

Dans ce graphique, chaque département est représenté par un point admettant pour coordonnées les valeurs des deux variables X et Y. Ainsi, on peut remarquer que plus l’effectif des apprentis (garçons) est important, plus celui des apprenties (filles) l’est également.

Dans certaines études statistiques, l’interprétation peut dégager une relation de « cause à effet » mais il faut beaucoup de prudence. Cette relation causale ne peut en aucun cas être immédiatement déduite du graphique ou du modèle mis en évi-dence. La connaissance approfondie du domaine étudié est requise pour conclure. Dans ce cas, la variable « cause » est la variable dite « explicative ». La variable « effet » est la variable dite « à expliquer » et l’analyse du phénomène est de type « causal ».

Dans notre exemple seul l’aspect « explicatif » est retenu.

Modèle explicatif et Ajustement linéaire

Dans le graphique du nuage de points, on cherche à savoir si les points semblent s’organiser autour d’une courbe mathématique connu donnant la tendance générale du nuage. La courbe la plus simple est la droite. Il est possible de faire appel à des logiciels statistiques ou graphiques pour la tracer, à condition de donner le critère

8 7007 TG WB 00

Page 88: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

d’ajustement. Avant de préciser la méthode d’ajustement retenu, il est utile de dé-finir une mesure de liaison entre deux variables quantitatives, à savoir la covariance.

Covariance entre deux variables quantitatives

La covariance est un indicateur de co-variation entre deux séries numériques X et Y. Rappelons-nous que la variance d’une variable statistique X peut s’exprimer comme la moyenne du carré des écarts à la moyenne. La covariance est définie comme la moyenne du produit des écarts à la moyenne. On peut alors calculer cette cova-riance de la manière suivante :

n

mymxYX i

yixi∑ −−=

))((),cov(

On peut vérifier que cette formule est équivalente à la formule suivante :

yxi

ii

mmn

yxYX −=

∑ .),cov(

Cette expression3 s’interprète comme étant : la moyenne des produits moins le produit des moyennes

La covariance augmente lorsque les deux écarts relatifs à un même individu sont de même signe ; elle diminue sinon. La covariance est d’autant plus élevée qu’il y a beaucoup de couples de points dont les écarts aux moyennes sont de même signe. Mais la valeur de la covariance dépend également des unités dans lesquels sont me-surées les variables X et Y.

Ajustement linéaire par la méthode des moindres carrés

La méthode des moindres carrés permet de déterminer l’équation de la droite d’ajustement reliant les valeurs de X aux valeurs de Y. On suppose qu’il existe deux nombres a et b tels que chaque valeur yi peut s’écrire sous la forme

yi = a xi + b + ei

où ei est une valeur résiduelle non prévisible mais nulle en moyenne, sur l’ensemble des points. Si a et b sont connus, le résidu ei est donc l’écart entre la valeur obser-vée et la valeur prédite de l’ajustement par une droite (ajustement linéaire)

ei = yi - (axi + b)

3 Lorsque les données sont pondérées, on utilise le coefficient de pondération ni/n comme dans le cas du calcul de la moyenne et de l’écart-type d’une variable mais ici, on considère que à chaque couple de points est associé un coefficient de pondération égal à 1/n.

8 7007 TG WB 00

Page 89: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Si l’on trace la droite d’équation y = ax + b, les écarts ou résidus sont représentés par la valeur algébrique des segments de droite verticaux d’abscisse xi

Pour déterminer la droite des moindres carrés, on retient le critère suivant :

Problème posé :

Existe-t-il une droite qui rende minimum la somme des carrés des résidus ?

C’est à dire : minimiser ei ² = ∑i

∑i

(yi - (axi + b)) ²

Mathématiquement, on montre qu'il existe une seule droite appelée droite de ré-gression linéaire de y en x par la méthode des moindres carrés, répondant au pro-blème posé.

On admettra que : Les coefficients a et b se calculent à l'aide des formules sui-vantes.

)(),(

XVarYXCova = et xy ammb −=

Répartition des effectifs des apprenties en fonction des effectifs des apprentis

0

200

400

600

800

1000

1200

1400

1600

0 1000 2000 3000 4000 5000

Effectifs Apprentis (Garçons)

Effe

ctifs

des

App

rent

ies

(Fill

es)

Ainsi, le problème de la prévision de la valeur manquante peut être maintenant ré-solu. Il suffit de remplacer la valeur de x8 dans l’équation de la droite d’ajustement et de calculer la valeur prédite par le modèle

8 7007 TG WB 00

Page 90: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Qualité de l’ajustement et coefficient de corrélation linéaire (coefficient de Bravais-Pearson)

Les calculs précédents permettent toujours de définir une droite d’ajustement li-néaire quelle que soit la forme du nuage de points, même si l’ajustement ne se jus-tifie pas. On mesure donc la qualité d’un ajustement par un coefficient appelé

coefficient de corrélation linéaire noté r. Il est défini par : )().(

)),cov(YX

YXrσσ

= .

On peut montrer que : -1<= r <= 1

Le coefficient de corrélation linéaire est un nombre sans unité ; il permet, contrai-rement à la covariance, de s’affranchir des problèmes d’unité de mesure. Les pro-priétés du coefficient de corrélation linéaire sont données ci-après :

Si r est nul ou proche de zéro, les deux variables étudiées sont non corrélées linéai-rement. Le nuage de points n’a pas de direction privilégiée.

Si r est positif, la droite d’ajustement a une pente positive, ou croissante. Les va-riables X et Y varient dans le même sens.

Si r est négatif, la droite d’ajustement a une pente négative, ou décroissante. Les variables X et Y varient dans le même contraire.

Dans les cas particuliers où r = -1 ou r = 1, la liaison linéaire est parfait et tous les points sont alignés sur une droite.

Remarque : la droite de régression passe par le point moyen de coordonnées yx mm ,

5C. Traitement des données

Covariance entre deux variables quantitatives

En reprenant le tableau précédent relatif aux 7 premiers couples de points, on peut calculer la covariance des deux variables X et Y. Les calculs se présentent de la ma-nière suivante (calcul réalisés avec Excel) :

Départements Garçons xi Filles yi Produit xi yi

Calvados 1 894 643 1 217 842

Eure 1 933 643 1 242 919

Manche 1 873 873 1 635 129

Oise 1 664 428 712 192

Orne 1 260 398 501 480

8 7007 TG WB 00

Page 91: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Seine Maritime 4 480 1 455 6 518 400

Somme 1 451 541 784 991

Totaux 14 555 4 981 12 612 953

De ce tableau et en utilisant la seconde formule, on peut en déduire la valeur de la covariance :

Cov (X,Y) =7

4981*7

145557

12612953− =322 290,13

Ajustement linéaire par la méthode des moindres carrés

Dans notre exemple, l’équation de la droite d’ajustement est la sui-vante 89,5031,0 += xy

Var(X) = 1014306,78 ; )(

),(XVar

YXCova = = 0,318 et xy ammb −= = 50,89

Les éléments de calcul figurent dans le tableau ci-dessous (on pourra réaliser ces calculs avec une calculette programmable) 4:

Départements Garçons Filles xi2 Produit xi yi

Calvados 1 894 643 3 587 236 1 217 842

Eure 1 933 643 3 736 489 1 242 919

Manche 1 873 873 3 508 129 1 635 129

Oise 1 664 428 2 768 896 712 192

Orne 1 260 398 1 587 600 501 480

Seine Maritime 4 480 1 455 20 070 400 6 518 400

Somme 1 451 541 2 105 401 784 991

Totaux 14 555 4 981 37 364 151 12 612 953

On peut alors tracer la droite d’équation : 89,5031,0 += xy

4 Tous ces calculs ne seront pas exigés le jours de l’examen, il faut être en mesure de les comprendre et d’obtenir les résultats principaux (a,b, cov(X,Y)…) à partir de calculs intermédiaires (voir exercices).

8 7007 TG WB 00

Page 92: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Répartition des effectifs des apprenties en fonction des effectifs des apprentis

0

200

400

600

800

1000

1200

1400

1600

0 1000 2000 3000 4000

Effectifs Apprentis (Garçons)

Effe

ctifs

des

App

rent

ies

(Fill

es)

5000

Qualité de l’ajustement et coefficient de corrélation linéaire (coefficient de Bravais- Pearson)

On trouve r = 0,95, qui permet de justifier de la qualité de l'ajustement linéaire choisi.

Départements Garçons Filles xi2 yi2 Produit xi yi

Calvados 1 894 643 3 587 236 413 449 1 217 842

Eure 1 933 643 3 736 489 413 449 1 242 919

Manche 1 873 873 3 508 129 762 129 1 635 129

Oise 1 664 428 2 768 896 183 184 712 192

Orne 1 260 398 1 587 600 158 404 501 480

Seine Maritime 4 480 1 455 20 070 400 2 117 025 6 518 400

Somme 1 451 541 2 105 401 292 681 784 991

Totaux 14 555 4 981 37 364 151 4 340 321 12 612 953

8 7007 TG WB 00

Page 93: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Exercice

On sélectionne 12 personnes à un stage de formation. Avant le début de la forma-tion ces stagiaires subissent une épreuve A notée de 0 à 20 ; à l’issue de ce stage, une épreuve B identique à la première est notée de 0 à 20.

Stagiaires Epreuve A Epreuve B

1 3 8

2 4 9

3 6 10

4 7 13

5 9 15

6 10 14

7 9 13

8 11 16

9 12 13

10 13 19

11 15 6

12 4 19

1. Dessiner le nuage de points représentant les 12 couples de points.

2. Deux stagiaires se distinguent des autres. Avant d’étudier la corrélation entre les 2 caractères statistiques, on élimine de l’étude ces deux candidats qui doivent être étudiés à part. On ne garde donc que 10 stagiaires. Calculer alors les moyennes, variances, écart-types et la covariance des 2 caractères.

3. En déduire le coefficient de corrélation entre les deux séries et l’équation de la droite de régression ajustant au mieux le nuage de points. Tracer cette droite.

8 7007 TG WB 00

Page 94: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

Corrigé

1.

Nuage de points

0

5

10

15

20

0 2 4 6 8 10 12 14 16

X

Y

2.

n=10

Σ xi = 84 Cov (X,Y)= 9

r(X,Y) = 0,9 (valeur arrondie)

a = 0,9 (valeur arrondie)

b = 5,47 (valeur arrondie)

Σ yi = 130

Σ xi² = 806

Σ yi² = 1790

Σ xi yi = 1182

L’équation de la droite de régression : Y= 0,9 X + 5,47.

À partir des résultats résumés dans le tableau précédent on vérifie par exemple que

910

130.1084

101182),cov( =−=YX

1013179 22

2

=−=−=∑

yi

i

mn

yVarY

8 7007 TG WB 00

Page 95: Methodologie_quantitatives_2010(1)

Chapitre 4 : Décrire simultanément deux variables

8 7007 TG WB 00

04,104,86,80 22

2

=−=−=∑

xi

i

mn

xVarX

8964,004,10

9),(===

VarXYXCova

valeur arrondie à 0,9

47,54,8*8964,013 =−=b (valeur arrondie)

9,010.04,10

9)().(

)),cov(===

YXYXr

σσ (valeur arrondie)

3.

Nuage de points données corrigées

0

5

10

15

20

0 2 4 6 8 10 12 14

X

Y

Page 96: Methodologie_quantitatives_2010(1)
Page 97: Methodologie_quantitatives_2010(1)

Exercices de synthèse

Exercice 1

Le terme DEFM ci-dessous désigne les « demandeurs d’emploi en fin de mois de la catégo-rie 1, c’est-à-dire les personnes sans emploi, immédiatement disponibles, à la recherche d’un emploi à durée déterminée à temps plein ».

Une enquête sur les DEFM de Haute-Normandie a été effectuée sur un échantillon de 1345 personnes de cette catégorie. Parmi les relevés effectués sur ces chômeurs, on ne retient ici que les trois critères concernant l’âge, le sexe et le lieu d’habitation selon le département (Eure ou Seine-Maritime).

Le dépouillement de cette enquête a permis d’élaborer le tableau croisé d’ordre 3 suivant :

Inférieur à 25 ans 25 / 50 ans Supérieur à 50 ans

Hommes Femmes Hommes Femmes Hommes Femmes

Seine-Maritime 102 125 220 249 46 37

Eure 66 68 146 222 34 30

Question 1

On ne s’intéresse qu’aux DEFM de la Seine-Maritime et on admet que l’échantillon retenu est représentatif de l’ensemble des DEFM. Peut-on affirmer au vu de cet échantillon que les caractères « âges » et « sexe » sont indépendants ?

Question 2

On s’intéresse aux femmes DEFM de la Seine-Maritime. Calculez la proportion dans l’échantillon de celles qui ont moins de 25 ans.

Exercice 2

Afin de mieux cerner la population lycéenne, une étude quantitative est réalisée auprès de 1000 jeunes. Parmi l’ensemble des questions posées, l’une porte sur le temps de transport entre le domicile et l’établissement scolaire.

Le tableau ci-dessous fournit la répartition des temps consacrés au transport pour un échan-tillon de 150 lycéens. Les temps sont exprimés en minutes et ont été classés en cinq inter-valles.

Temps (en minutes) Nombre de lycéens

[0-15[ 40

[15-25[ 40

[25-35[ 30

[35-55[ 30

[55-80] 10

Question 1

8 7007 TG WB 00

Page 98: Methodologie_quantitatives_2010(1)

Exercices

Caractérisez les éléments de cette étude : population, échantillon, individus et variable.

Question 2

Représentez cette distribution par un histogramme.

Question 3

Calculez la moyenne et l’écart type de cette distribution.

Question 4

Déterminez la médiane.

Question 5

Que pouvez-vous dire des 32% de lycéens qui mettent le moins de temps pour aller au ly-cée ?

Exercice 3

Un questionnaire a été soumis à 132 étudiants ayant passé les épreuves d’évaluation du cours de méthodes quantitatives. 297 étudiants étaient inscrits dans cette licence. 86 étu-diants ont rendu le questionnaire.

Voici un extrait du questionnaire :

Q1. Situation professionnelle actuelle : --------------------------------------------------

Q2. Votre activité professionnelle requière-t-elle des connaissances en statistiques ?

1. Pas du tout 2. Rarement 3. Quelquefois 4. Souvent 5. Très souvent 6. Toujours

Q3. A l’entrée dans cette formation en licence, qu’évoquait pour vous la statistique ?

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Q4. Durée estimée pour la réalisation du dossier de méthodologie qualitative : entre -------- et --------- heures.

Identifiez clairement les éléments de cette étude statistique (population, échantillon, indivi-dus, variables).

8 7007 TG WB 00

Page 99: Methodologie_quantitatives_2010(1)

Exercices

Exercice 4

Pour 10 élèves, on relève le temps (en heures) passé à regarder la télévision et le temps (en heures) consacré à la lecture.

Elèves Télévision Lecture

1 7 5

2 8 3

3 12 2

4 13 1

5 7 8

6 14 1

7 5 9

8 7 7

9 8 3

10 9 1

Faites une étude de ces données, en calculant les indicateurs nécessaires.

Exercice 5

(Une enquête a été réalisée auprès d’un échantillon de 400 salariés d’une entreprise. Dans un premier temps, on s’intéresse à l’ancienneté que l’on appellera X. La répartition pour l’échantillon est donnée dans le tableau ci-dessous.

Ancienneté Effectifs Fréquences en %

[0-4[ 15

[4-6[ 20

[6-8[ 120

[8-10[ 80

[10-14]

Question 1

Complétez le tableau et représentez l’histogramme de cette distribution

Question 2

Déterminez l’ancienneté moyenne, l’ancienneté médiane. Comparez vos résultats.

Question 3

Déterminez l’écart-type et la variance.

8 7007 TG WB 00

Page 100: Methodologie_quantitatives_2010(1)

Exercices

Question 4

Quelle est la proportion de salariés dont l’ancienneté est supérieure à 5 ans ?

Question 5

En supposant que l’échantillon soit représentatif, déterminez l’intervalle de confiance corres-pondant, avec un seuil de confiance de 95% (c’est-à-dire un risque de 5%).

Exercice 6

On extrait par un tirage au hasard 100 individus de la population. On constate que sur ces 100 sujets, 15 sont atteints d’une maladie M.

Donner une estimation ponctuelle. Donner un intervalle de confiance avec un niveau de con-fiance de 95%.

Exercice 7

Soit un échantillon de 250 individus, extrait d’une population de 5000 lycéens. L’enquête porte sur les performances en saut en hauteur, mesurées en cm.

Hauteur du saut Effectifs

[95 ;105[ 20

[105 ;110[ 40

[110 ; 115[ 80

[115 ; 120[ 60

[120 ; 125[ 30

[125 ; 135] 20

250

Estimez ponctuellement la hauteur moyenne du saut, la variance et l’écart-type. Estimez la hauteur moyenne du saut sur la population par une fourchette, avec un niveau de confiance de 95%.

8 7007 TG WB 00

Page 101: Methodologie_quantitatives_2010(1)

Exercices

8 7007 TG WB 00

Annexe : Table des distributions de fréquences des variables du Khi-deux de ddl = 1 à 24.

Variable χ2 (Khi deux) La table a été obtenue à partir de la fonction KHIDEUX.INVERSE du logiciel Microsoft Excel 5. Elle fournit pour 3 valeurs particulières de probabilité, une valeur approchée de la valeur �de la variable telle que Prob ( χ2 > x) = α.

Exemple : Il y n’y a que 1 chance sur 100 (0,01) pour que le χ2 à 1 degré de liberté dépasse 6,6349.

Histogramme de la variable du Khi-deux ddl = 6

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

α = 0,01 α = 0,05 α = 0,10 ddl 1 6,6349 3,8415 2,7055 2 9,2104 5,9915 4,6052 3 11,3449 7,8147 6,2514 4 13,2767 9,4877 7,7794 5 15,0863 11,0705 9,2363 6 16,8119 12,5916 10,6446 7 18,4753 14,0671 12,0170 8 20,0902 15,5073 13,3616 9 21,6660 16,9190 14,6837 10 23,2093 18,3070 15,9872 11 24,7250 19,6752 17,2750 12 26,2170 21,0261 18,5493 13 27,6882 22,3620 19,8119 14 29,1412 23,6848 21,0641 15 30,5780 24,9958 22,3071 16 31,9999 26,2962 23,5418 17 33,4087 27,5871 24,7690 18 34,8052 28,8693 25,9894 19 36,1908 30,1435 27,2036 20 37,5663 31,4104 28,4120 21 38,9322 32,6706 29,6151 22 40,2894 33,9245 30,8133 23 41,6383 35,1725 32,0069 24 42,9798 36,4150 33,1962

Page 102: Methodologie_quantitatives_2010(1)

Corrigé 1

Réponse 1

Il s’agit de faire un test du Khi², en établissant 4 étapes.

Étape 1 : Formulation des hypothèses

H0 : Il n’y a pas de différence entre la répartition des effectifs observés et la répartition des effectifs théoriques, c’est-à-dire que les variables « sexes » et âges » sont indépendantes.

H1 : Il y a une différence entre la répartition des effectifs observés et la répartition des effec-tifs théoriques, c’est-à-dire que les variables « sexes » et « âges » sont dépendantes.

Étape 2 : Calcul du Khi² et du nombre de degré de liberté

Commençons par le calcul les marges :

Inférieur à 25 ans 25 / 50 ans Supérieur à 50 ans Total

Hommes 102 220 46 368

Femmes 125 249 37 411

Total 227 469 83 779

Puis, calculons les valeurs théoriques :

Inférieur à 25 ans 25 / 50 ans Supérieur à 50 ans Total

Hommes 107,23 221,56 39,21 368

Femmes 119,77 247,44 43,79 411

Total 227 469 83 779

Enfin, calculons les écarts entre les effectifs observés et les effectifs théoriques :

Inférieur à 25 ans 25 / 50 ans Supérieur à 50 ans

Hommes - 5,23 - 1,56 -6,79

Femmes 5,23 1,56 - 6,79

Nous pouvons maintenant déterminer la valeur du Khi² :

Khi² = 734,279,43

²79,644,247²56,1

77,119²23,5

21,39²79,6

56,221²56,1

23,107²23,5

=++++−

+− −

Le nombre de degrés de liberté est :

ddl = (2 – 1) (3 – 1) = 2

Étape 3 : Lecture du Khi² théorique pour un risque donné

Avec un seuil de 0.05, le Khi² théorique = 5.991 (lecture dans la table)

8 7007 TG WB 00

Page 103: Methodologie_quantitatives_2010(1)

Corrigés

Étape 4 : Décision statistique

Khi² calculé < Khi² théorique : On conserve H0, ce qui signifie que les caractères « sexes » et « âges » sont indépendants. Dit autrement, il n’y a pas de lien entre le sexe et l’âge des chômeurs. Les écarts de répartition entre les chômeurs selon leur sexe et leur âge ne sont pas significativement différents.

Réponse 2

On ne retient que les femmes de la Seine-Maritime :

Inférieur à 25 ans 25 / 50 ans Supérieur à 50 ans Total

Femmes 125 249 37 411

Fréquences 0,3041 0,6058 0,0900 1

Femmes de la Seine-Maritime de moins de 25 ans = 3041,0125=

37249125 ++ soit 30,41%.

Corrigé 2

Réponse 1

La population est composée de 1000 lycéens, parmi lesquels on extrait un échantillon de 150 lycéens. Un individu correspond à un lycéen. Il s’agit d’une variable quantitative conti-nue.

Réponse 2

Les amplitudes de classes ne sont pas constantes : il est donc nécessaire de calculer les densités de fréquence ou d’effectif.

Temps Effectifs Centres de classe Amplitudes Fréquences Densités

de fréquence Densités de

fréquence en % [0-15[ 40 7,5 15 0,2667 0,0178 1,78

[15-25[ 40 20 10 0,2667 0,0267 2,67 [25-35[ 30 30 10 0,2000 0,0200 2 [35-55[ 30 45 20 0,2000 0,0100 1 [55-80] 10 67,5 25 0,0667 0,0027 0,27

150 1

8 7007 TG WB 00

Page 104: Methodologie_quantitatives_2010(1)

Corrigés

Histogramme - Temps de transport

0

0,005

0,01

0,015

0,02

0,025

0,03

Minutes

Den

sité

de

fréqu

ence

Réponse 3

Temps Effectifs Centres de classe nk ck ci² ni

[0-15[ 40 7,5 300 2 250 [15-25[ 40 20 800 16 000 [25-35[ 30 30 900 27 000 [35-55[ 30 45 1 350 60 750 [55-80] 10 67,5 675 45 562,5

150 Somme : 4 025 Somme : 151 562,5 Moyenne : 26,83 Variance : 290,39 Écart-type : 17,04

Le temps de transport moyen est de presque 27 minutes, avec un écart-type de 17 minutes.

55 80 25 35 15

8 7007 TG WB 00

Page 105: Methodologie_quantitatives_2010(1)

Corrigés

Réponse 4

Temps Effectifs Effectifs cumulés [0-15[ 40 40

[15-25[ 40 80 [25-35[ 30 110 [35-55[ 30 140 [55-80] 10 150

150

2n

= 75 et le 1er effectif cumulé croissant supérieur à 75 est l’effectif cumulé 80 ; celui-ci cor-

respond à la classe [15-25[.

75,23)4075(4010152 =−+=Q

Il y a 50% des lycéens qui consacrent moins de 23 minutes et 45 secondes au transport et 50% des lycéens qui consacrent plus de 23 minutes et 45 secondes au transport.

Réponse 5

Nous pouvons procéder de la même manière que pour le calcul des quartiles :

32% de lycéens correspond à 48 lycéens. Le 1er effectif cumulé croissant supérieur à 48 est l’effectif cumulé 80 ; celui-ci correspond à la classe [15-25[.

17)4048(40101532 =−+=C

Les 32% de lycéens qui mettent le moins de temps pour aller au lycée mettent un temps in-férieur ou égal à 17 minutes.

Corrigé 3

La population est composée de 297 étudiants. On extrait un échantillon de 132 étudiants. Un individu correspond à un étudiant en situation d’évaluation.

Q1 est une variable qualitative nominale.

Q2 est une variable qualitative ordinale

Q3 est une variable qualitative textuelle

Q4 est une variable quantitative continue

Corrigé 4

Il s’agit de savoir si les deux variables étudiées varient ou non en sens contraire. Pour cela, il est nécessaire de calculer la covariance et le coefficient de corrélation linéaire (on pourra au préalable représenter le nuage de points).

8 7007 TG WB 00

Page 106: Methodologie_quantitatives_2010(1)

Corrigés

Elèves Télé ix iy ixLecture ( - y ix iyy ix x iyx iy)² ( - )² ( - )( - )

1 7 5 4 1 -2 35 2 8 3 1 1 1 24 3 12 2 9 4 -6 24 4 13 1 16 9 -12 13 5 7 8 4 16 -8 56 6 14 1 25 9 -15 14 7 5 9 16 25 -20 45 8 7 7 4 9 -6 49 9 8 3 1 1 1 24

10 9 1 0 9 0 9 Somme : 90 Somme : 40 Somme : 80 Somme : 84 Somme : -67 Somme : 293 Moyenne : 9 Moyenne : 4 Variance : 8 Variance : 8,4 Ecart-type : 2,828 Ecart-type : 2,898

La covariance est :

Cov(X,Y) = 7,64910293

−=×−=−∑yx

ii mmn

yx

L’équation de la droite de régression est :

838,08

7,6)(

),(−=

−==

XVarYXCova

542,11)9838,0(4 =×−−=−= xy ammb

542,11838,0 +−= xy

Le coefficient de corrélation linéaire est :

r = 818,0898,2828,2

7,6),(−=

×−

==YX

YXCovrσσ

Les deux variables étudiées varient en sens contraire.

8 7007 TG WB 00

Page 107: Methodologie_quantitatives_2010(1)

Corrigés

Corrigé 5

Réponse 1

Les amplitudes de classes n’étant pas constantes, il est nécessaire de calculer les densités de fréquence (ou d’effectif) avant de construire un histogramme.

Ancienneté Effectifs Fréquences en % Amplitudes Densités de fré-quences en %

[0-4[ 60 15 4 3,75

[4-6[ 80 20 2 10

[6-8[ 120 30 2 15

[8-10[ 80 20 2 10

[10-14] 60 15 4 3,75

400 100

Histogramme - Ancienneté des salariés

0

2

4

6

8

10

12

14

16

Années

Den

sité

de

fréq

uenc

e

4 6 8 14 10 0

8 7007 TG WB 00

Page 108: Methodologie_quantitatives_2010(1)

Corrigés

Réponse 2

Ancienneté Effectifs Centres de classe nk ck Effectifs cumulés nk (ck – m)²

[0-4[ 60 2 120 60 1500

[4-6[ 80 5 400 140 320

[6-8[ 120 7 840 260 0

[8-10[ 80 9 720 340 320

[10-14] 60 12 720 400 1500

400 Somme : 2800 Somme : 3640

Moyenne : 7 Variance : 9,1

Ecart-type : 3,02

L’ancienneté moyenne est de 7 ans.

2n

= 200 si bien que la médiane appartient à la classe [6-8[.

7)140200(120262 =−+=Q .

L’ancienneté médiane est de 7 ans, ce qui signifie que 50% des salariés ont une ancienneté inférieure à 7 ans et 50% des salariés ont une ancienneté supérieure à 7 ans.

Les valeurs de la moyenne et de la médiane sont identiques.

Réponse 3

Les calculs de la variance et de l’écart-type sont indiqués dans le tableau précédent.

Réponse 4

La proportion de salariés dont l’ancienneté est supérieure à 5 ans est :

75,0400

608012040=

+++ soit 75% des salariés.

Réponse 5

Nous connaissons la taille de l’échantillon (400) et la proportion de salariés dont l’ancienneté est supérieure à 5 ans (75%). L’estimation ponctuelle de p est donc 0,75.

Avec un niveau de confiance de 95%, on peut calculer l’intervalle de confiance de la manière suivante :

0433,0400

)75,01(75,02 =⎥⎦

⎤⎢⎣

⎡ −=e

Il y a donc 95 chances sur 100 pour que la proportion p dans la population soit comprise entre (0,75-0,0433) et (0,75+0,0433), c’est-à-dire entre 70,67% et 79,33%.

8 7007 TG WB 00

Page 109: Methodologie_quantitatives_2010(1)

Corrigés

8 7007 TG WB 00

Corrigé 6

Nous connaissons la taille de l’échantillon (100) et la proportion d’individus atteints d’’une maladie (15%). L’estimation ponctuelle de p est donc 0,15.

Avec un niveau de confiance de 95%, on peut calculer l’intervalle de confiance de la manière suivante :

0714,0100

)15,01(15,02 =⎥⎦

⎤⎢⎣

⎡ −=e

Il y a donc 95 chances sur 100 pour que la proportion p dans la population soit comprise entre (0,15-0,0714) et (0,15+0,0714), c’est-à-dire entre 7,86% et 22,14%.

Corrigé 7

Hauteur du saut Effectifs Centres de classe nk ck nk (ck – m)²

[95 ;105[ 20 100 2000 4205

[105 ;110[ 40 107,5 4300 1960

[110 ; 115[ 80 112,5 9000 320

[115 ; 120[ 60 117,5 7050 540

[120 ; 125[ 30 122,5 3675 1920

[125 ; 135] 20 130 2600 4805

Somme : 250 Somme : 28625 Somme : 13750

Moyenne : 114,5 Variance : 55

Ecart-type : 7,42

L’estimation ponctuelle de la hauteur moyenne du saut est 114,5 cm.

La variance corrigée est : 22,5555249250²

1² =×=

−= néchantillon

ns σ

L’écart-type corrigé est : 43,722,55 ==s

Pour un niveau de confiance de 95%, l’erreur d’échantillonnage vaut :

94,0025

43,722 =×=⎥⎦

⎤⎢⎣

⎡ns

Il y a donc 95 chances sur 100 pour que la hauteur moyenne du saut soit comprise entre (114,5-0,94) et (114,5+0,94), c’est-à-dire entre 113,56 cm et 115,44 cm.