Upload
rosine-marcel
View
106
Download
0
Embed Size (px)
Citation preview
Du mauvais usage
des chiffres
"un chiffre ne ment pas !"
"les chiffres, on leur fait dire ce qu'on veut !"
"10% des femmes sont haut fonctionnaires"
"la croissance est en chute libre"
"la majorité des accidentés portaient la ceinture: preuve que c'est dangereux !"
"5 moutons et 6 chèvres à bord: quel est l'age du capitaine ?"
"24 canettes dans un pack de bière, 24h dans une journée: qu'en conclure ?"
Fabrice NEYRET
1.1. SondagesSondagesconnaître une réalité sur une population:
• recensement tous 9 ans. (NB: pas 100.00% fiable).
Ex: élections
• sondage sur population représentativepanel (besoin recensement précédent) / aléatoire / volontairesondage de rue / par téléphone / par Internet
• parfois, ambigu: – soirées électorales:
sonda. intentions / sonda. sortie urnes / dépouil. partiel / résultat
– recensements:Désormais: ts les ans, mais sondage sur 8% !
Sondages
• sondage standard: (1000 personnes)
– 95% de chance que juste a +- 3.1% 95% de chances qu'entre 47 et 53% des français...
• Commentaires scores a 1% d'écart, résultats a virgule, "frémissement de tendance", "signes"...
– danger: sondages à tiroirs (sous catégories) "jeunes filles d'origine immigrée qui ont voté PC au 1er tour"
N << 1000 ! Si 3 personnes: juste à +- 57%
Sondages• Biais de sélection:
- d’après pratiquants, roulette russe pas mortelle !- d’après explorateurs de grottes, aucun dragon- d’après fans conduites a risques, on surestime dangers
panel / aléatoire / volontaire sondage de rue / par téléphone / par Internet
Qui on rate, sous-représente. Corrélations cachées ?- « avez-vous Internet ? » « vote nouvelles 7 merveilles »- correl représentativité - standard de vie, opinion, …- correl maladie/lieu (lignes HT – habitat – sociologie…) - def "foyer/famille" pas SDF, étudiant, célib, retraité
• Fiabilité questions - Fiabilité réponses- Questions inductive ? Fermée ? (liste de mots)- Mots très connus (racisme) / incompris (populisme)- Menteurs ?
pas que technique numérique !
2. hasard, répartitions naturelles2. hasard, répartitions naturelles• « au hasard »: veut rien dire !
- dispositif. - distrib: Bernouilli, binomiale, uniforme, normale (Gauss), logN,
exponentielle, Poisson, a disque...
- déviation autour d'une variable pas aléatoire- variables aléatoires corrélées: taille/poids
• du hasard, y’en a toujours.non-sens:
eau totalement pure, 0 radioactivité, sites parfaitement alignés, ...
hasard, répartitions naturelles• perception du hasard:
- loi des séries (répartition "désordonnée" en x ou t)
- pile ou face de tête équi / biais d'alternance (Sheldrake94)
- indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur.
(c/ sagesse, intuition)
fait ≠ proba : danger "chanceux", "c'était très improbable"... a posteriori.
2 anniv même j / 23 pers: p>50%. que moi: 6%
hasard, répartitions naturelles• perception du hasard:
- loi des séries (répartition "désordonnée" en x ou t)
- pile ou face de tête équi / biais d'alternance (Sheldrake94)
- indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur.
(c/ sagesse, intuition)
fait ≠ proba : danger "chanceux", "c'était très improbable"... a posteriori.
2 anniv même j / 23 pers: p>50%. que moi: 6%
hasard, répartitions naturelles• perception du hasard:
- loi des séries (répartition "désordonnée" en x ou t)
- pile ou face de tête équi / biais d'alternance (Sheldrake94)
- indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur.
(c/ sagesse, intuition)
fait ≠ proba : danger "chanceux", "c'était très improbable"... a posteriori.
2 anniv même j / 23 pers: p>50%. que moi: 6%
hasard, répartitions naturelles• perception du hasard:
- loi des séries (répartition "désordonnée" en x ou t)
- pile ou face de tête équi / biais d'alternance (Sheldrake94)
- indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur.
(c/ sagesse, intuition)
fait ≠ proba : danger "chanceux", "c'était très improbable"... a posteriori.
2 anniv même j / 23 pers: p>50%. que moi: 6%
hasard, répartitions naturelles• perception du hasard:
- loi des séries (répartition "désordonnée" en x ou t)
- pile ou face de tête équi / biais d'alternance (Sheldrake94)
- indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur.
(c/ sagesse, intuition)
fait ≠ proba : danger "chanceux", "c'était très improbable"... a posteriori.
2 anniv même j / 23 pers: p>50%. que moi: 6%
hasard, répartitions naturelles• perception du hasard:
- loi des séries (répartition "désordonnée" en x ou t)
- pile ou face de tête équi / biais d'alternance (Sheldrake94)
- indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur.
(c/ sagesse, intuition)
fait ≠ proba : danger "chanceux", "c'était très improbable"... a posteriori.
2 anniv même j / 23 pers: p>50%. que moi: 6%
hasard, répartitions naturelles
• hypothèse implicite: indep, pas corrélation– martingales, pyramides, ancêtres: obligé !
• ancêtres XVeme: 30 générations -> 1G / pop 16M !• chaînes: 108=100M
– cofacteurs HT EDF - habitat , antenne - HLM
• corrélation - causalité • dictons (opératoires) • voiture Honda / cancer femmes • pas d'oranges / mortalité personnes âgées • V13 en février ET mars !!! • 1/3 accidentés avaient pas leur ceinture • morts en dormant dans lit >> mort en dormant au volant • en avion, j'emporte ma bombe
• 3 cas = épidémie ? si sur-représenté ET stats > hasard. épidémio, dbl aveugle, correl cachées.
hasard, répartitions naturelles
• répartitions préférées nombres (7, 3,…), positions
• répartitions naturelles échelles ouvertes: loi de Benford 1 2 3 4 5 6 7 8 9
p: 30.1 17.6 12.5 9.7 7.9 6.7 5.8 5.1 4.6 : 30.1 47.7 60.2 69.9 77.8 84.5 90.3 95.4 100
• sens du nombre - vu vs entendu
- couleur (synesthésie)
hasard, répartitions naturelles• "val typique", "français moyen", "au milieu"
- [Bush] "plus de millionnaires: le pays s'enrichi"
- salaire moyen augmente: qu'en conclure ?
• moyenne, médiane, ecart type, inter-déciles D9/D1salaire moy: 1905€ méd(D5): 1484 € inter-déciles: 3.
• structure: D9/D5, D5/D1, spectre, "strobiloïde"
• comparaisons: danger !• temps rattrapage: 30 ans 350 ans• pauvreté: def relative (50% salaire med) • moyenne ya toujours un pire ! pas forcement interpréter
3. Pourcentages3. Pourcentages (données brutes nombre synthétique)
cacher un x en + ... et l'oublier !%, "point" : pour comm, pas pour compter !
+1 % = x 1.01 +10% = x 1.1 +n% = x (1+n/100)
+1%+1% = 2% +10%+10% = 21% +10%-10% = -1%
inv(+10%) = inv(*1.1) = /1.1 = x 0.91 = -9%
peut additionner petits %, mais pas les gros.
1%+1%+1%+...+1% = 22%
peut additionner petits %, mais pas trop.
Pourcentages• danger prédictions:
"à ce rythme, dans 35 ans il y aura…"- petite err sur taux (12% vs 10%) grosse diff (100%) - Hypothèse (arbitraire) taux stable
"il y aurait…, sous l'hypothèse que…"
• augmentation absolue ou relative (%) ?"budget de la culture aug. en absolu / Il baisse en relatif "
augmentation régulière: en abs ou en % ?
doubler taux = ?
Pourcentages• comparer ce qui est comparable:
"guerre en Irak: 200M américains pour, et juste 191 pays contre"
temps travail / j: agric: 8h19 citadin: 3h32 [le Monde] (H 18 - 64 vs H+F 18 - 65 et+)
on peut comparer ou ajouter % que si même unité.
mais pas suffisant :
danger si pas même dénominateur (= référence) "+10% pour Culture, +20% pour Anciens Combattants, +1% Edu Nat:
quelle augment. de budget total ?"
Les catégories n'ont pas le même poids ! =pop =den
Pourcentages
– 1 veuf pour 4 veuves. % hommes = ?
– chocolat = 50% cacao + 50% sucre.hausse de 50% , 10%. Hausse totale ?
– arnaque Ebay, malgré note sur transactions
– taux redoubl 50% quelle chance passer ?
bien faire attention à la référence !
Pourcentages
– 1 veuf pour 4 veuves. % hommes = ?
– chocolat = 50% cacao + 50% sucre.hausse de 50% , 10%. Hausse totale ?
– arnaque Ebay, malgré note sur transactions
– taux redoubl 50% quelle chance passer ?
bien faire attention à la référence !
Pourcentages
• effet petits nombres
– 2/20 4/20 = +100%12/20 16/20 = +30%
– ex: stats non représentatives (sous-catég)– bourse: bonne affaire = taux, pas volumes !
– [Balladur] hausse de 40% de l'offre d'emploi (pas des emplois ! offre << demande)
Pourcentages• asymétries (simple)
- [pub FT] 30% - cher, c'est 30% de temps en +- 45% cancer en – si trait. = 82% cancers en + sinon
• asymétries (complexe) - 52% femmes cadres ont conjoint cadre
25% hommes cadres ont conjointe cadre [le Monde]
référentiel !qf(1%) ≠ qh(1%)si ref ≠, sait pas si q(50%) > q(25%)
- 33% de femmes cadres ?
Pourcentages• asymétries simple:
- [pub FT] 30% - cher, c'est 30% de temps en +- 45% cancer en – si trait = 82% cancers en + sinon
• asymétries complexe: - 52% femmes cadres ont conjoint cadre
25% hommes cadres ont conjointe cadre [le Monde]
référentiel !qf(1%) ≠ qh(1%)si ref ≠, sait pas si q(50%) > q(25%)
- 33% de femmes cadres ?
Pourcentagesinversions tragiques
pb: en français on peut permuter adjectifs sans risque- 1/3 des hommes sont hystériques (1/3 des hyst sont h)
- 62% des f sont chom longue durée (62% des chom LD sont f)
- femmes repr 83% des t partiels, et les h 3% (14% restants = ?)
- [le Monde] hausse budget aide sociale: +30% pour l’insertion
(30% aug tot va là, mais y repr peut-être 1%. ex: aug=100€)pb pas chiffre initial, mais titre: impression de sens
cas très fréquent. Problèmes :- si plausible, ou si pas d’idée, impossible détecter. - sens implicite. Dur détecter ambiguïté ou erreur.- on abouti à interprétation/causalité "étayée"
exiger/chercher sources. Quelle référence?
Pourcentages• autres exemples inversion fausse concl
– 99.9% héroïnomanes commencé par le hash (mais 2% fumeurs hash passeront à
l'héro)
– hashish associé à accidents de la route– 2/3 accidentés avaient ceinture dangereux !– accidentés morts en dormant << morts au lit
sens que si sur-représenté par rapport pop !(cf tout paras. tel portable, jeune, sexe... modes!) Accidentologie (moto, sports, …), épidémio
– nombre prisonniers doublé en 10 ans +violences (nombre? gravité? plaintes? élucidations? sévérité?) NB: durée peine pour délit type a doublée
– + occup hotel: + vacanciers, ou + longtemps ?
Pourcentages• comparer pourcentages: méfiance !
sous-classes,tranches: effets de structure
– suicide policiers: 0.5‰ (pop: 0.22‰) 2.3 x + H25-60, or suicide: 72% sont H, max 25-44, pas enfants
– univ: 40% enfants cadres, 13% enfants ouvriers (3 x -) chance enfant ouvrier aller en fac ?
effets temporels
– GE: 1950: 29% ouvriers. 2000: 9% conclusion ?– lycée: 1948:8% 1964:28% 1980:38% élan démoc brisé– effet base: out/in, ou out/pop ? (boites à Bac, GE)
Pourcentages• effets de structure: faux paradoxes
– possible: salaires tt categ aug, salaire moy baisse– possible ts salaires indiv aug, salaire moy baisse– impôts cadres: aug même quand taux imp baisse
– salaires instits H > F ts ages, mais moy H < moy F– salaires fonctionnaires (pas OS,agric, peu OQ)
danger des tranches si pop de ref change (2 séries, ou 2 époques)
chômages des jeunes 18-29: actifs 18-24 << 24-29poids très différents -> interdit add ou moy % !
exiger/chercher sources. Quelle référence?
Pourcentages
• effets de durée - effet mémoire: parité vs grade (PDG= G.Ecole 70 !) - def fécondité: vraiment <2 ?
pb mesure instantanée sur habitudes qui changent !
• autres effets de structure def mal posée- mortalité canicule / pollution: pic… puis creux !
bc morts ? zéro morts nets ? j de vie.
compta: val vie, coût mort vs blessé, santé pub, sécurité routière, assurances (val ≠ !)
Pourcentages• comparer évol pourcentages (hors effets structure)
- N annonces "baisse par rapport sondage précédent"
- par rapport dernière fois: si mauvais, devient bon !(sondages, bac, chômage, petits nombres…)
- morts sur route "+prudents, effet gendarme, relâche"
(plusieurs facteurs ! synch mois/WE, météo été, météo hiver)
si on compare par dpt: effet petits nombres + évol + faut un max
- choix base 100 (année ref) ref = nbr chômeurs de l'année 0: sur longue durée, pop aug !
idem: budgets, type d'études, loisirs, équipement maison, info,…
Pourcentages• façons d'améliorer un pourcentage
% = N/D aug N ou diminuer D
(boites à Bac, finance)
Pourcentages• % de %: évolution de taux
très a la mode ! évol croissance, déficit, puis… tout !
- "croissance conso /chômage est en chute libre"- "forte décrue des aug d'impôts /du déficit sécu"
- évol taux réussite au bac selon lycées: 0% pour 10 lycées RA qu'en conclure ?
- 65% 77% reçus : - + "12 points "- hausse de 18% du taux de reçus (indep pop)- aug de 7% de la pop de reçus (a pop cst)- nbr réel de reçus peut avoir baissé (si pop)- journaliste s'est peut-être mélangée dans ses calcs/stats- mesure peut-être douteuse (petits nombres)
important de voir les données brutes !
Pourcentages
% de %: toutes les mefiances precedentes au carré !
- croissance "régulière" = ?- doubler = ?
- [le Monde]: "aug des H seuls 2x + rapide que F seules"
en nombre ? en % ? pas même base ! peut-être rapport inverse.
4. Présentation et interprétation4. Présentation et interprétation– barre = objet, camemberts ellipses… – fausses causalités: si inverse, si ignore si sur-
représentation, on interprète n'importe comment. – retouches: NSP, abst, indécis, refus ( O+N < 100)
Attention aux renormalisations !
• légendes axes, graduationmode bourse: diagonale, pas 0, h variable,... - [TF1 95]: chômage -0.5%-
3.13 M
3.1 M19951950 2015
Présentation et interprétation• titre, légendes:
quoi mesuré ? souvent chiffre ok, interprétation bad.
– [B.Pivot]: "baisse de la lecture !" pour dicos et livres d'art - en chiffre d'affaire
– "99% français ont compte en banque / voiture" qui on mesure, compte 2x, qui on loupe ?
– def "foyer/famille" pas SDF, étudiant, célib, retrait difficile conv stat foyer en stat pop que faire enfants ? que veut on mesurer ?
– "barrage aux femmes: cf femmes maires (/cadre)"ref pas pop femmes, mais femmes conseil municip
– [Balladur]: aug 40% offre d'emploi (pas des emplois)
Présentation et interprétation• définir grandeurs rigoureusement
– revenu, monnaie, capital, richesse, chômage, travail ("officiel",BIT), taxation (gvt,sécu,priv), pauvreté, développement (PIB, coût vie, McDo), causes mortalité, classement universités, …
– danger compar internationales ou temporelles: def différentes, def relatives (pauvreté)
– comment mesurer lecture ? nbr de livre ? (édités ? imprimés ? acheté ? lu ?)nbr de pages/signes ? kg ? qualité ? prix (CA) ?
– comment mesurer "quantités de vie"? (biodiv, respect)nbr individus ds espèce ? sous-espèce? biomasse?prorata durée vie ? sens de "compter espèces" ?
– [L'Oreal]: "37% de soyance en +", / brillance…
5. économie, impots 5. économie, impots – 920kF=50% 120kF=20% "7.5x + riche 2.5x + impôts"
• mythes des tranches, du taux d'imposition – effet "sauter de tranche" [Lamassoure97] "simplif"– taux moyen, taux marginal – 50% paient IR– interdeciles salaires: 3. patrimoine: ~70 important: def "revenu", def seuils– TVA >> IR (TVA:46%+TIPP:6% IR:19% IS:16%, CSG > IR) – qui paie TVA ? (structure dépenses)– "charges sociales" cotisations, salaire différé
• paradoxes – possible impôts \ et recettes /– possible impôts / et croissance /– Fr: travaille peu, peu d'actifs, mais productivité ++
5. économie, impots 5. économie, impots – 920kF=50% 120kF=20% "7.5x + riche 2.5x + impôts"
• mythes des tranches, du taux d'imposition – effet "sauter de tranche" [Lamassoure97] "simplif"– taux moyen, taux marginal – 50% paient IR– interdeciles salaires: 3. patrimoine: ~70 important: def "revenu", def seuils– TVA >> IR (TVA:46%+TIPP:6% IR:19% IS:16%, CSG > IR) – qui paie TVA ? (structure dépenses)– "charges sociales" cotisations, salaire différé
• paradoxes – possible impôts \ et recettes /– possible impôts / et croissance /– Fr: travaille peu, peu d'actifs, mais productivité ++
6. math électorales6. math électorales "un Homme une voix"
• legislatives ref = pop ou territoire ? (US,Eu) pop par territoire– recens 82 1 hab Lozère > 5.5 habs Val-d’Oise– découpage indisp mais suspect (gerrymandering)– majo par circons.
10% dans 100% dpt vs 100% dans 10% dpt– proportionnelle: repr idées, mais pas territoire
• scrutins majoritaires (ex: prez)prez: "le préféré" vs scrutin a 2 tours. PB:- R1,B:62|38 R2,B:58|42 R1,R2:55|45 R1,R2,B:32|28|40 B gagne!
- R1 donné gagnant, vote R2 pour "aiguiller"- instable: fluct sondages, stratégie, idem si si revotait- alt 1: gagnant en cp toutes paires. pb: peu cycles !- alt 2: classer, noter. "democ" ≠ "telle règle", "changer" ≠ "magouille".
7. Conclusion zététique7. Conclusion zététique
chiffre = illusion objectivité, précision.
Mais pas que technique: qui a sondé ? comment ? il existe toujours modèle, hypothèses, mesure (cible? mesurée comment?), questions posées, échantillonnage, synthèse %, présentation (titre, ech, graph), interprétation
pas "les français pensent que" ou "telle valeur sera tant en telle année"
mais "d'après un sondage/une estim, les français penseraient/seraient/auraient…"
Conclusion zététique
Problèmes: - mélange peur et admiration pour chiffres (journ. et pop)
- chiffres pas fait pour convaincre mais frapper
usage opportuniste des stats
- alibi: chiffre "objectif" plutôt qu'assumer un choix (tout en disant refuser politique comptable)
- tentative maladroite de rationaliser c/ émotif: émotion = tout résumer par 1 cas 1er scénario montré devient représentatif( ISF: agric île de Ré, violence: papy Voine, peuple martyr: enfant mort,
1 ours maigre, 1 cyclone, maladie orpheline, 1 bébé à sauver, ils vivent de l'alloc des 10 enfants, on dits & rumeurs, préjugés... )
Conclusion zététique
que manip ou err, faut esprit critique ! on (journ+pol+pop) gobe chiffres sans recul. Zet: on passe bc trop vite au discours, raisonnement trop peu de temps sur évaluer mesure, protoc, preuve
chiffre fait pour être lu plutôt qu'entendu (recul) un chiffre/tableau ça se soupèse et se renifle ! Doute chercher l'étiquette commentaire et chiffre déduits souvent moisis, aller à la source.
8. Biblio 8. Biblio
- "plus vite que son nombre" (Sylviane Gasquet,SEUIL)- association Pénombre - Données Sociales (INSEE), Eurostats, CERC- Comptes de la nation (comptabilité nationale)