17
COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage (4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h)

Cours de Statistique

Embed Size (px)

DESCRIPTION

Cours de Statistique

Citation preview

  • COURS DE STATISTIQUES (24h)

    Introduction Statistiques descriptives (4 h)

    Rappels de Probabilits (4 h)

    Echantillonnage (4 h)

    Estimation ponctuelle (6 h)

    Introduction aux tests (6 h)

  • Quest-ce que la statistique?

    Les statistiques (descriptives) sont nes de lactivit de recueil des donnes rpondant aux besoins dorganisation et de gouvernement des grands empires (arme, impts, organisation des richesses). Ex: premiers recensements connus vers 3000 ans avant notre re en Sumrie.

    Les statistiques sont aujourdhui utilises dans tous les secteurs dactivit :- Industrie : fiabilit, contrle qualit, .- Economie et finance: sondages, enqute dopinion, assurance, marketing- Sant, environnement,- Partout o lon dispose de donnes

    ont connu un grand essor avec larrivage des ordinateurs performants

  • Quest-ce que la statistique?

    Vient du latin status = tat . Le terme statisticum apparat la fin du XVII sicle.

    Statistique = ensemble de mthodes permettant de dcrire et danalyser des observations (ou donnes). Ces observations consistent gnralement en la mesure dune ou plusieurs caractristiques communes sur un ensemble de personnes ou dobjets quivalents.

    Remarque : une statistique = grandeur calcule partir des observations recueillies (ex : moyenne dge des lves dune mme classe, balance commerciale de la France, etc..)

  • Quelques dfinitions de base

    Lensemble de personnes ou dobjets quivalents tudi sappelle la population.

    Chaque objet dune population sappelle un individus ou unitstatistique.

    Les caractristique que lon mesure sappellent des variables.Les mesures sappellent des observations.

    La srie dobservations recueillies sappelle srie statistique. Elle est gnralement retranscrite dans un tableau de donnes.

    Rq : La statistique traite des proprits des population plus que des individus particuliers de ces populations.

  • Quelques dfinitions de base

    Exemple 1 : On sintresse aux dbits annuels du Nil entre 1871 et 1970. Variable tudie=dbit annuel ; population= 100 annes de 1871 1970. Un individu= 1900 par exemple. Srie statistique (unidimensionnelle): [1] 1120 1160 963 1210 1160 1160 813 1230 1370 1140 995

    935 1110 994 1020 960 1180 799 958 1140 1100 1210 1150[24] 1250 1260 1220 1030 1100 774 840 874 694 940 833 701 916 692 1020 1050 969 831 726 456 824 702 1120

    [47] 1100 832 764 821 768 845 864 862 698 845 744 796 1040 759 781 865 845 944 984 897 822 1010 771

    [70] 676 649 846 812 742 801 1040 860 874 848 890 744 749 838 1050 918 986 797 923 975 815 1020 906

    [93] 901 1170 912 746 919 718 714 740

  • Quelques dfinitions de baseExemple 2 : On sintresse la fcondit en relation avec certains indicateurs socio-

    conomiques dans 47 provinces francophones suisses vers 1888.La srie statistique (multidimensionnelles) est donne dans le tableau de donnes suivant :

    Fertility Agriculture Education Catholic Infant.MortalityCourtelary 80.2 17.0 12 9.96 22.2Delemont 83.1 45.1 9 84.84 22.2Franches-Mnt 92.5 39.7 5 93.40 20.2Moutier 85.8 36.5 7 33.77 20.3Neuveville 76.9 43.5 15 5.16 20.6Porrentruy 76.1 35.3 7 90.57 26.6

    Fertility=indice de fconditAgriculture= % de males agriculteursEducation= % dindividus ayant tudi aprs le primaireCatholic=% de catholiquesInfant.Mortality=% mortalit infantile

    1 variable

    1 individuspopulation

    1 observation

  • Quelques dfinitions de base

    Recensement= Etude de tous les individus dune population. Difficile en pratique lorsque les populations sont grandes pour des questions de cot et de temps.

    Sondage= recueil dune partie de la population. La partie des individus tudis sappelle lchantillon. Le recueil dun chantillon partir de la population initiale se fait par des techniques statistiques, appeles mthodes dchantillonnage.

  • Quelques dfinitions de base

    Il existe diffrent types de variables

    9 Variables quantitatives : caractristiques numriques (taille, age,). Sexpriment par des nombres rels sur lesquels les oprations arithmtiques de base (somme, moyenne,) ont un sens. Peuvent tre discrtes (nombre fini ou dnombrable de valeurs : age,...) ou continues (toutes les valeurs relles sont susceptibles dtre prises : taille,).

    9 Variables qualitatives : caractristiques non numriques dans le sens o les oprations de base nont pas de sens. Peuvent tre nominales (sexe,..) ou ordinales lorsque lensemble des catgories est muni dun ordre total (trs rsistant, assez rsistant, peu rsistant,..). Les diffrents niveaux dune variable qualitative sappellent des modalits (ou catgories).

  • Quelques dfinitions de baseINFO

    Une variable quantitative peut tre mise sous forme qualitative ordinale en constituant des classes dappartenance.

    Exemple : On considre la population des salaris de France, le salaire mensuel S est une variable quantitative. On peut construire la variable SS qualitative ordinale quatre modalits (S

  • Les diffrentes problmatiques de la statistique

    La statistique descriptive (ou exploratoire)

    9 Objectifs : rsumer, synthtiser linformation contenue dans une srie

    statistique, mettre en vidence ses proprits. suggrer des hypothses relatives la population dont est issu

    lchantillon.

    9 Outils utiliss : Tableaux (table des frquences,..) Graphiques (box-plots, histogrammes,..) indicateurs (moyenne, corrlation,..).

    9 Mthodes : Statistique descriptive classiques (uni et bidimensionnelles)

    Mthodes dADD.

  • Les diffrentes problmatiques de la statistique

    Exemple 1 : Graphiques :

    Indicateurs :Min. 1st Qu. Median Mean 3rd Qu. Max. 456.0 798.5 893.5 919.4 1033.0 1370.0

    T im e

    N

    i

    l

    e

    1 8 8 0 1 9 0 0 1 9 2 0 1 9 4 0 1 9 6 0

    6

    0

    0

    8

    0

    0

    1

    0

    0

    0

    1

    2

    0

    0

    1

    4

    0

    0

    0 5 1 0 1 5 2 0

    -

    0

    .

    2

    0

    .

    0

    0

    .

    2

    0

    .

    4

    0

    .

    6

    0

    .

    8

    1

    .

    0

    L a g

    A

    C

    F

    S e r ie s N ile

    6

    0

    0

    8

    0

    0

    1

    0

    0

    0

    1

    2

    0

    0

    1

    4

    0

    0

  • Les diffrentes problmatiques de la statistiqueINFO

    La statistique descriptive sest enrichie ces dernires annes de nombreuses techniques de visualisation de donnes multidimensionnelles, connues sous le nom danalyse des donnes, puis de data mining. Parmi ces mthodes on trouve :

    9 les mthodes de classification (partitionnement, CAH), visant rduire la taille de lchantillon en classant les individus dans des groupes de caractristiques homognes.

    9 les mthodes danalyse factorielle (ACP, AFCM,) qui cherchent rduire le nombre de caractristiques dune population en les rsumant par un petit nombre de composantes synthtiques.

  • Les diffrentes problmatiques de la statistique

    La statistique infrentielle (ou dcisionnelle)

    9 Spcificit : La srie de donnes est considr comme un chantillon dune

    population suppose un modle probabiliste sur la population. Ncessite des mthodes dchantillonnage.

    9 Objectifs : tendre (infrer) les proprits constates sur lchantillon la

    population. Valider ou infirmer des hypothses sur la population nonces a priori

    ou formules aprs une phase exploratoire.

    9 Mthodes : Estimation : approcher des paramtres de la population partir de

    lchantillon. Tests : valider ou dinfirmer des hypothses mises sur ces paramtres. Modlisation et de prvision : recherche dune relation entre une

    variable et plusieurs autres, valable pour lensemble de la population.

    Infrence. Opration par laquelle on passe d'une vrit une autre vrit, juge telle en fonction de son lien avec la premire. (Petit Larousse)

  • Les diffrentes problmatiques de la statistique

    Ex 2 : Modlisation par RLM : Residuals:

    Min 1Q Median 3Q Max -14.6765 -6.0522 0.7514 3.1664 16.1422

    Coefficients:Estimate Std. Error t value Pr(>|t|)

    (Intercept) 62.10131 9.60489 6.466 8.49e-08 ***Agriculture -0.15462 0.06819 -2.267 0.02857 *Education -0.98026 0.14814 -6.617 5.14e-08 ***Catholic 0.12467 0.02889 4.315 9.50e-05 ***Infant.Mortality 1.07844 0.38187 2.824 0.00722 ** ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

    Residual standard error: 7.168 on 42 degrees of freedomMultiple R-Squared: 0.6993, Adjusted R-squared: 0.6707 F-statistic: 24.42 on 4 and 42 DF, p-value: 1.717e-10

    F 62.1 0.15 0.98 0.12 1.08A E C I + +

    estimationstests

  • Rle de la thorie des probabilits dans les problmes de statistique

    Probabilits = thorie permettant de modliser des phnomnes alatoires Statistiques = repose sur lobservation de donnes issues dun phnomne

    concret.

    Le rle des probabilits est nul en statistique descriptive, prpondrant en statistique infrentielle.

    Les caractristiques dune grande population peuvent tre considres comme des variables alatoires (on recode celles sont qualitatives). Les observations recueillies dans une srie statistique peuvent tre considres comme des ralisations de ces variables.

    Lorsque lchantillonnage est bien fait, on pourra approcher les caractristiques thoriques (probabilistes) de la population (loi de probabilits etc) laide de statistiques calcules partir dun chantillon.

  • Rle de la thorie des probabilits dans les problmes de statistique

    Srie de 50 observations issue dune population gaussienne

    Srie de 1000 observations issue dune population gaussienne

    Histogram of p

    p

    D

    e

    n

    s

    i

    t

    y

    -2 -1 0 1 2

    0

    .

    0

    0

    .

    1

    0

    .

    2

    0

    .

    3

    0

    .

    4

    Histogram of p

    p

    D

    e

    n

    s

    i

    t

    y

    -4 -2 0 2 4

    0

    .

    0

    0

    .

    1

    0

    .

    2

    0

    .

    3

    0

    .

    4

    COURS DE STATISTIQUES (24h)Quest-ce que la statistique?Quest-ce que la statistique?Quelques dfinitions de baseQuelques dfinitions de baseQuelques dfinitions de baseQuelques dfinitions de baseQuelques dfinitions de baseQuelques dfinitions de baseLes diffrentes problmatiques de la statistiqueLes diffrentes problmatiques de la statistiqueLes diffrentes problmatiques de la statistiqueLes diffrentes problmatiques de la statistiqueLes diffrentes problmatiques de la statistiqueRle de la thorie des probabilits dans les problmes de statistiqueRle de la thorie des probabilits dans les problmes de statistique