45
La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998: Montréal, le 6 février 1998

La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Embed Size (px)

Citation preview

Page 1: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

La nature des données numériques

Sous-groupe de travail sur lesfichiers de données numériques

Richard BoilyAtelier IDD/CREPUQ

Québec, le 5 février 1998: Montréal, le 6 février 1998

Page 2: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

2

Nature des données numériques :de quoi va-t-on parler?

Page 3: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

3

Page 4: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

4

Allez, va !, et ne discute plus!

Page 5: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

5

Snif! Snif!

Page 6: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

6

Page 7: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

7

Page 8: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

8

Page 9: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

9

65467646767649687

Calculs etméthodes statistiques

Formules

Page 10: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

10

Page 11: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

11

Page 12: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

12

Nature des données numériques :de quoi va-t-on parler?

Page 13: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

13

Nature des données numériques

• Ce que sont les données numériques

• La collecte des données

• Les formes et les caractéristiques

• La documentation

• L’Initiative de démocratisation des données (IDD) - Statistique Canada

Page 14: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

14

Les données numériques se situent au cœur du processus d’information.

Nature des données numériques :de quoi parle-t-on?

Information

Production Utilisation

Page 15: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

15

Nature des données numériques :de quoi parle-t-on?

Peu importe le sujet, les données numériques peuvent être associées à différents points de vue ou à diverses approches.

Avortement :• éthique ou religieux• littéraire• médical• scientifique• social

Page 16: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

16

Nature des données numériques :de quoi parle-t-on?

• Les changements climatiques, le tourisme et … le développement régional

• Les médias et le développement social

• Les phénomènes religieux

• La qualification et l’emploi

• La consommation de drogue

• L’union libre

Page 17: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

17

Nature des données numériques :de quoi parle-t-on?

• Une association de protection des consommateurs évalue la durabilité de différentes marques d’ampoules électriques.

• Dans une étude sociologique, on s’intéresse à l’effet des programmes d’information et de sensibilisation aux méthodes de contraception. Pour établir un portrait de la situation, un sondage d’opinion est réalisé parmi les étudiants de l’université sur la question de l’avortement.

• La vie de couple s’est considérablement modifiée au Canada au cours des dernières décennies. Comment le phénomène de l’union libre modifie-t-il les comportements?

Page 18: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

18

Nature des données numériques :de quoi parle-t-on?

Définition :• « La statistique est l’étude des variations observables.

Sans variations, il n’y a pas de statistique et sans observations, encore moins.– Observations :

• de la durée de vie des ampoules (du mouvement des planètes, des espèces vivantes)

• des opinions (sur l’avortement)• des phénomènes sociaux (vie de couple)

Page 19: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

19

Nature des données numériques :de quoi parle-t-on?

Définition :• « La statistique est l’étude des variations observables. Sans

variations, il n’y a pas de statistique et sans observations, encore moins.

• C’est à l’aide d’observations qu’on appréhende le monde qui nous entoure, autant physique et biologique qu’économique et social.

• Et c’est à partir d’observations de phénomènes et de relations entre ces observations que s’élaborent des hypothèses explicatives qui se transforment éventuellement en théories. Le mot théorie ne nous vient-il pas du grec theôrein qui signifie précisément « observer » ».

Page 20: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

20

Nature des données numériques :de quoi parle-t-on?

• « La statistique est l’étude des variations observables. Sans variations, il n’y a pas de statistique et sans observations, encore moins ».

• Le but de toute étude statistique est d’obtenir une information significative à partir de données qui, au premier abord, peuvent sembler disparates.

• La première étape de la recherche d’information est donc la cueillette de données.

Page 21: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

21

La collecte de données

On recueille généralement ces données par le biais :

• d’observations des phénomènes naturels :

– enregistrement quotidien et en plusieurs endroits des données météorologiques.

Page 22: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

22

La collecte de données

On recueille généralement ces données par le biais :

– d’observations des phénomènes naturels

– d’expériences scientifiques :

• en agriculture, évaluation de nouveaux fertilisants

• test de qualité des produits industriels (ampoules électriques)

Page 23: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

23

La collecte de données

On recueille généralement ces données par le biais :• d’observations des phénomènes naturels• d’expériences scientifiques• d’enquêtes et de sondages

– recensements– procédures d’admission– indices boursiers et autres statistiques financières– bilans financiers annuels des entreprises– comptes nationaux des gouvernements– sondages d’opinion (politiques, comportements

personnels, consommation, habitudes sexuelles, physiques, culturelles)

Page 24: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

24

La collecte de données :notion de variable statistique

À chaque mesure que l’on veut prendre, ou à chaque question spécifique que l’on pose, correspond une variable statistique s’il y a effectivement moyen de prendre des mesures ou d’obtenir des réponses, c’est-à-dire de faire des observations.

Page 25: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

25

La collecte de données :notion de variable statistique

Définition :« Une variable statistique est une caractéristique susceptible de

variations observables. »

La mesure d’une caractéristique peut varier :• d’un moment à l’autre;• d’un lieu à l’autre;• d’un objet à l’autre (ampoules).La réponse à une question concernant une caractéristique peut

varier :• d’une personne à une autre (étudiants et étudiantes);• d’un organisme à un autre.

Page 26: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

26

La collecte de données :notion de variable statistique

• S’il y a variations, cela signifie qu’une variable peut prendre plusieurs valeurs.

• On entend explicitement par valeurs les mesures distinctes d’une caractéristique donnée.

• On distingue :– les valeurs possibles d’une variable, i.e. les

résultats possibles a priori, et– les valeurs observées, i.e. les résultats observés

a posteriori.

Page 27: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

27

La collecte de données :notion de variable statistique

Valeurs possibles :• Durées des ampoules électriques : un nombre positif

quelconque.• Opinions sur l’avortement : pour, contre, abstention.• Mode de vie familiale :

– marié, sans enfant– marié, avec enfant(s)– en union libre, sans enfant– en union libre, avec enfant(s)– divorcé et remarié, sans enfant– etc...

Page 28: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

28

La collecte de données :notion de population

Nous avons établi précédemment qu’une variable statistique peut varier d’une personne à une autre, d’un objet à un autre, d’une entreprise à une autre, d’un lieu à un autre, d’un moment à un autre. On dira simplement d’un individu à un autre et, dans nos exemples, un individu sera :

– une ampoule électrique

– un étudiant

– une personne (susceptible de vivre en union)

Page 29: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

29

La collecte de données :notion de population

Dans la définition complète d’une variable statistique, on doit préciser non seulement pour quel type d’individu, mais aussi pour quel groupe d’individus on considère cette variable. L’ensemble des individus considérés pour fins d’observations est appelé une population.– Les ampoules électriques de marque x, y, z ...– Les étudiants de l’Université ...– Les personnes (susceptibles de vivre en union) au

Canada

Page 30: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

30

Formes et caractéristiquesdes données : microdonnées

Données brutes ou microdonnées :

résultats immédiats d’observations de variables statistiques qui n’ont été soumis à aucun traitement, ni à aucune modification.

L’unité d’analyse est alors l’individu.

Page 31: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

31

Formes et caractéristiquesdes données : microdonnées

Durabilité des ampoules électriques (heures)Marque X Marque Y Marque Z

850 1 000 8951 500 1 510 9001 200 1 415 1 500

900 1 100 825825 1 050 950

1 490 1 050 1 0101 000 995 1 3001 510 1 300 1 410

895 1 100 990875 1 200 890

Page 32: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

32

Formes et caractéristiquesdes données : microdonnées

Opinions des étudiants de l’Université …sur la question de l’avortement

Pour, contre, contre, pour, abstention, abstention, abstention, pour, pour,abstention, contre, pour, pour, abstention, contre, abstention, pour, contre,pour, pour, pour, contre, pour, contre, abstention, pour, contre, pour,abstention, contre, pour, pour, pour, contre, abstention, contre, abstention,pour, pour, pour, contre, pour, contre, abstention, pour, contre, pour,abstention, contre, pour, pour, pour, contre, abstention, contre, abstention,abstention, pour, pour, pour, abstention, contre, abstention, pour, contre,pour, pour, pour, contre, pour, contre, abstention, pour, contre, pour,pour, contre, contre, pour, abstention, abstention, abstention, pour, pour, …

Page 33: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

33

Formes et caractéristiquesdes données : microdonnées

000000000111111111122222222223333333333444444444455123456789012345678901234567890123456789012345678901000011111912224442147224069979979979979979979979979000021113011219442077219069979979979979979979979979000031123712293442147293069979979979979979979979979000051112352209442107209069979979979979979979979979000061133862280441047280019999973601999997080080080000071112352209442107209069979979979979979979979979000081143011219442077219069979979979979979979979979000091134862280441047280019999973601999997080080080000101133862280441047280019999973601999997080080080000111113011219442077219069979979979979979979979979000121169712293442147293069979979979979979979979979000131112352209442107209069979979979979979979979979

Source : Enquête sociale générale, 1995, fichier des unions

cliché d'enregistrement

Page 34: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

34

Formes et caractéristiquesmicrodonnées

Question 8. État matrimonialdu répondant avant l’union

Valeurs CodeVEUF (VE) 1DIVORCÉ (E) 2SÉPARÉ (E) 3CÉLIBATAIRE 4UNION LIBRE 5NON DÉCLARÉ 9

Question 9. État matrimonial du (de la)conjoint (e)du répondant avant l’union

Valeurs CodeVEUF (VE) 1DIVORCÉ (E) 2SÉPARÉ (E) 3CÉLIBATAIRE 4UNION LIBRE 5NON DÉCLARÉ 9

000000000123456789000011111000021153000031123000051112000061133000071112000081143000091134000101135000111113000121169000131112

cliché d'enregistrement

Page 35: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

35

La nature des données numériques (rappel et précision)

• La statistique est l’étude des variations observables et mesurables;

• les données représentent des mesures (observations) d’attributs ou de variables (de nature sociale ou économique);

• les données sont codées numériquement, et

• elles sont stockées dans une structure de fichier.

Page 36: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

36

Formes et caractéristiquesmicrodonnées

Question 8. État matrimonialdu répondant avant l’union

Valeurs CodeVEUF (VE) 1DIVORCÉ (E) 2SÉPARÉ (E) 3CÉLIBATAIRE 4UNION LIBRE 5NON DÉCLARÉ 9

Question 9. État matrimonial du (de la)conjoint (e)du répondant avant l’union

Valeurs CodeVEUF (VE) 1DIVORCÉ (E) 2SÉPARÉ (E) 3CÉLIBATAIRE 4UNION LIBRE 5NON DÉCLARÉ 9

000000000123456789000011111000021153000031123000051112000061133000071112000081143000091134000101135000111113000121169000131112

Codage numérique

Structure de fichier

Page 37: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

37

Formes et caractéristiquesdes données : données agrégées

Contrairement aux données brutes, les données agrégées sont présentées après avoir fait l’objet d’un traitement statistique quelconque, du plus simple au plus complexe.

Page 38: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

38

Formes et caractéristiquesdes données : données agrégées

• Les données sont traitées pour permettre :– de repérer un chiffre (une valeur) ou un tableau

pré-généré;– de générer un nouveau tableau ou de procéder à

une analyse (i.e. voir la relation entre différentes variables).

Page 39: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

39

Formes et caractéristiques :données agrégées

Durabilité des ampoules électriques (heures)Marque X Marque Y Marque Z

850 1 000 8951 500 1 510 9001 200 1 415 1 500

900 1 100 825825 1 050 950

1 490 1 050 1 0101 000 995 1 3001 510 1 300 1 410

895 1 100 990875 1 200 890

Durée moyenne1 100 1 170 1 060

X = 1,00 $Y = 2,00 $Z = 1,10 $

Page 40: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

40

Formes et caractéristiques :données agrégées

Québec Rimouski-N. CUQ CUMPopulation 1991 6895963 51290 490271 1775871Tot. familles 1883235 14185 131270 456600Fam. époux-épouses 1614350 12255 110250 372740 Fam. Couple marié 1307445 9600 86905 305375 Fam. Coupe union libre 306910 2660 23345 67360Fam. monoparentales 268885 1925 21020 83865

Source : Recensement 1991

Aggrégation selon desparamètres géographiques

Aggrégationdes variables

Enquête transversale

Page 41: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

41

Formes et caractéristiques :données agrégées

Année Canada Québec1970 29775 48651971 29685 52031972 32389 64261973 36704 80911974 45019 122721975 50611 140931976 54207 151861977 55370 145011978 57155 148651979 59474 143791980 62019 138991981 67671 191931982 70436 185791983 68567 173651984 65172 168451985 61976 158141986 78304 190261987 96200 220981988 83507 203401989 80998 198291990 78463 204741991 77020 202741992 79034 196951993 78226 196621994 78880 182241995 77636 20133

Données sur les divorcesau Canada et au QuébecSource :base de données CANSIM

Séries chronologiques

Page 42: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

42

Évolution des divorcesau Canada et au Québec

Canada

Québec

0

20000

40000

60000

80000

100000

120000

1970

1972

1974

1976

1978

1980

1982

1984

1986

1988

1990

1992

1994

Canada Québec

Source : base de données CANSIM

Page 43: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

43

Typologie des données

• Type d’enquête– enquête transversale (ponctuelle)

– Ex. : enquête. Sur la famille de 1984

– enquête répétée• cyclique (sujet répété / échantillons différents)

– ex. : enquête Sociale générale

• rotative (sujet répété / remplacement partiel de l’échantillon)

• longitudinale (sujet répété sur le même échantillon)– ex. : enquête sur la dynamique du travail et du revenu

Page 44: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

44

Typologie des données

• Type d’enquête

• Format de diffusion– microdonnées– données agrégées

• par lieux géographiques

• par caractéristiques sociales

• dans le temps

Page 45: La nature des données numériques Sous-groupe de travail sur les fichiers de données numériques Richard Boily Atelier IDD/CREPUQ Québec, le 5 février 1998:

Sous-groupe de travail sur les fichiers de données numériques

45

Source pour les conceptssur la statistique

Statistique : concepts et méthodes / Sabin Lessard et Monga. Montréal : Presses de l’Université de Montréal. 1993