37
1 Bernard CLÉMENT, PhD INGÉNIERIE – PROBABILITÉS - STATISTIQUES MTH2302 Probabilités et méthodes statistiques Ingénieur a-t-il besoin de méthodes page probabilistes et méthodes statistiques ?..... 1-10 Que voulez-vous faire ? ................................ 11-13 Processus / procédés .................................... 14 Variables : type et rôle ................................... 15 Concepts statistiques ................................... 16 Statistica .......................................................... 17-18 Exemples ......................................................... 19-37

INGÉNIERIE – PROBABILITÉS - STATISTIQUES · 2020. 8. 30. · b. Plan d’échantillonnage pour le contrôle de la qualité des lots. c. L’analyse de la capabilité (aptitude)

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • 1Bernard CLÉMENT, PhD

    INGÉNIERIE – PROBABILITÉS - STATISTIQUES

    MTH2302 Probabilités et méthodes statistiques

    Ingénieur a-t-il besoin de méthodes pageprobabilistes et méthodes statistiques ?..... 1-10

    Que voulez-vous faire ? ................................ 11-13

    Processus / procédés .................................... 14

    Variables : type et rôle ................................... 15

    Concepts statistiques ................................... 16

    Statistica .......................................................... 17-18

    Exemples ......................................................... 19-37

  • 2Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

    Ingénieur a-t-il besoin de méthodes probabilisteset méthodes statistiques ?

    Accréditation des programmes en génie : BCAPG critères

    MTH2302B satisfait 7 des 12 critères

  • 3Bernard CLÉMENT, PhD

    https://www.youtube.com/watch?v=_DhOMdcbjuU

    David Spiegelhalter

    cours MTH2302

    https://www.youtube.com/watch?v=_DhOMdcbjuU

  • 4Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

    Cycle PPDAC

    ProblemPlanDataAnalysisConclusion

  • 5Bernard CLÉMENT, PhD

    ExempleHow many sexual partners have people in Britain had in their lifetime?

  • 6Bernard CLÉMENT, PhD

    Un ingénieur a -t-il besoin des méthodes statistiques?COLLECTE et ANALYSE données pour prendre DÉCISION

    1 collecte de données : - conception de plans d’expérience (tests) - conception de plans d’échantillonnage

    avec efficacité : atteindre le butefficience : contrôler coûtsconfiance et qualité des donnéescontrôler incertitudes et sources de variabilitéminimiser risques mauvaises décisions

    Méthodes : - plans d’expériences (DOE = Design Of Experiments)

    - plan d’échantillonnage :

    exemple : contrôle qualité fabrication

    MTH2302 Probabilités et méthodes statistiques

  • 7

    DONNÉES d’expérimentation

    Exemple fabrication tige

    plastique extrudée

    FACTEURSX1 : vitesse (rpm) 100 – 200

    X2 : température (C) 250 – 300

    X3 : durée ( min) 5 – 10

    X4 : pression (psi) 15 - 30

    RÉPONSES objectifY1 : productivité ( pi/hr) MAXiMUM

    Y2 : diamètre (cm)

    cible : 2.54 ± 0.03 NOMiNAL

    Y3 : nombre fissures MiNiMUM

    cible : < 10 / hr

    FACTEURSRÉPONSES

    essai x1 x2 x3 x4 Y1 Y2 Y31

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    20

    budget de 20 essais

    quels essais faire?

  • 8Bernard CLÉMENT, PhD

    2 Analyse de données- extraire relations - associations ………. entre variables

    - classifier - caractériser – visualiser ….. ensembles données

    - détecter des changements ……….……. systèmes et processus

    en présence incertitudes

    - identifier- isoler- quantifier ……………. sources variabilitésystèmes et processus

    - modéliser - simuler ……………………… systèmes complexes

    Méthodes : statistique descriptive – classification

    contrôle statistique des processus (SPC)

    régression – propagation d’incertitudes / variabilité

    Un ingénieur a -t-il besoin des méthodes statistiques?COLLECTE et ANALYSE données pour prendre DÉCISION

    MTH2302 Probabilités et méthodes statistiques

  • 9Bernard CLÉMENT, PhD

    Un ingénieur a -t-il besoin des méthodes statistiques?COLLECTE et ANALYSE données pour prendre DÉCISION

    3 prise de décisions basées sur des donnéescontexte inférence statistique

    échantillon population

    Méthodes d’analyse

    – tests d’hypothèses– intervalles de confiance– régression– analyse de la variance– fiabilité– planification et analyse d’expériences– contrôle statistique des processus– …

    MTH2302 Probabilités et méthodes statistiques

  • 10Bernard CLÉMENT, PhD

    Un ingénieur a -t-il besoin des méthodes statistiques?COLLECTE et ANALYSE données pour prendre DÉCISION

    4 contrôle de la qualité des produits / procédésméthodes statistiques de la qualité

    OU ? QUOI: méthodes réception /expédition ……………. plans d’échantillonnage

    production et assemblage ……… cartes de contrôle (SPC)

    analyse de capabilité

    optimisation produits/procédés …. planification d’expériences

    tests et essais .……………………. études de fiabilité

    suivi qualité produits en service …. analyse statistique

    design de produits /procédés ……. planification d’expériences

    analyse de tolérances

    MTH2302 Probabilités et méthodes statistiques

  • 11Bernard CLÉMENT, PhD

    LES MÉTHODES DE L’ANALYSE STATISTIQUE DES DONNÉES

    Que voulez vous faire?1. Décrire numériquement et graphiquement des données

    résumer / tabuler / visualiser des données, (statistique descriptive)

    2. Tester des hypothèses (prédictions) à propos des données (inférence statistique)

    3. Explorer les données en vue de rechercher des structures / facteurs/ groupes / relations entre les variables, (modélisation statistique)

    4. Recueillir des données pour le contrôle de la qualité des produits et desservices (statistiques industrielles)

    5. Explorer des grandes quantités de données (typiquement reliées au monde des affaires et des marchés économiques) afin de déterminer des relations systémiques entre des variables lesquelles pourront être exploités à des fins commerciales ou scientifiques. (Data Mining)

    MTH2302 Probabilités et méthodes statistiques

  • 12Bernard CLÉMENT, PhD

    1. Décrire / Résumer / Tabuler / Visualiser des donnéesa. Résumer numériquement et graphiquement la forme d’une distribution

    d’une ou plusieurs variables continues et leurs mesuresb. Tabuler et tracer les graphiques associés à une ou plusieurs variables

    catégoriques (qualitatives) et calculer les effectifs, pourcentages, etc.,c. Explorer et résumer des données chronologiques

    2. Tester des hypothèses (prédictions) à propos des donnéesa. Forme de la distribution des variables de réponseb. Différences entre des groupes / échantillonsc. Relations entre des variablesd. Différences dans différents groupes

    MTH2302 Probabilités et méthodes statistiques

    Que voulez vous faire?

    3. Explorer les données en vue de rechercher des structures oudes facteurs ou des groupes (clusters) ou des relations,

    a. Facteurs ou dimensions sous jacentes d’un groupe de variables continues,b. Groupes naturels (classification) dans les observations ou les variables,c. Patrons ou tendances dans des observations chronologiques (temporelles),d. Relations dans des tableaux croisés multidimensionnels.e. Relations entre des variables prédicatrices et des variables de réponse.

  • 13Bernard CLÉMENT, PhD

    4. Recueillir des données pour le contrôle de la qualité des produits et des services (statistiques industrielles)

    a. Le contrôle statistique des processus (SPC)

    b. Plan d’échantillonnage pour le contrôle de la qualité des lots

    c. L’analyse de la capabilité (aptitude) d’un processus (Cp, Cpk)

    d. Planification et analyse d’expériences (DOE)

    e. L’analyse d’un processus de mesure (Gauge R&R)

    f. L’analyse des données censurées, des données de survie

    g. L’analyse de la fiabilité

    5. Data Mining (forage des données)Processus d’analyse exploratoire sur de vastes ensembles de données (milliers de variables / millions d’observations) afin de rechercher des relations systématiques entre les variables en vue de leur exploitation à des fins d’affaires, commerciales ou scientifiques

    Que voulez vous faire?

    MTH2302 Probabilités et méthodes statistiques

  • X 1 , X2 , …, Xk : variables contrôlées en expérimentation (mode actif)variables observées/mesurées (données observationnelles)

    X1 X2. . .Xk

    PROCESSUS

    SYSTÈME

    erreur expérimentale:sources inconnues de variabilité

    ε ∼ dist (0, σ2)

    réponse Y = φ (X)sortie mesurée

    PROCESSUS ou SYTÈMEToute analyse statistique repose sur un MODÈLE qu’il faut spécifier

    - fonction φ pour représenter une relation entre input X et output Y- hypothèse distributionnelle pour le terme d’erreur ε- connaissance de la structure des données:

    plan collecte données / nature variables / rôle variables / unités statistiques

    Y = φ (X1, X2 , … , Xk ; β0 , β1 , β2 ,… ) + εφ : fonction inconnue approximation polynôme

    β0 , β1 , β2 , … : paramètres statistiques inconnus

    ε

    Copyright © Génistat Conseils Inc.Montréal, Canada, 2014

    + data

    14

  • 15Bernard CLÉMENT, PhD

    Types d’échelle de mesure (variable)Échelle NOMINALE = variable classification qualitative

    Exemple: genre, race, couleur, ville,…

    Échelle ORDINALE = échelle NOMINALE avec ordonnancement

    Exemple : niveau socio-économique, échelle dans les

    questionnaires,…

    Échelle INTERVALLE = on peut quantifier les différences

    Exemple : température mesurée sur échelle Celsius

    Échelle RATIO = échelle INTERVALLE avec un zéro absolu

    Exemple : mesures de temps ou d’espace, poids, taille, …

    TYPE

    catégori-que

    continue

    Choix d’une analyse statistique dépend:

    TYPE de variable et RÔLE des variables

    MTH2302 Probabilités et méthodes statistiques

  • 16Bernard CLÉMENT, PhD

    variables aléatoires statistiques descriptives: moyenne, écart type, etc graphiques statistiques: histogramme, boxplot, etc coefficient de corrélation entre des variables équation de régression entre des variables variables dépendantes (réponse, à expliquer)

    vs variables indépendantes (explicatives) les différences sont-elles statistiquement significatives ? test statistique distribution d’échantillonnage : concept clé distribution normale (gaussienne) estimation des paramètres (moindres carrés, vraisemblance maximale) intervalle de confiance niveau de signification p-value / seuil test / nombre d’observations = n = ? Analyse de la variance Modèle de régression

    MTH2302 Probabilités et méthodes statistiques

    CONCEPTS

  • 17Bernard CLÉMENT, PhD

    Statistica http://www.groupes.polymtl.ca/mth6301/STATISTICA.htm

    installation sur votre poste de travail : consulter la procédure

    http://cours.polymtl.ca/mth6301/Statistica/2020-07-InstallationStatistica13.5.pdf

    MTH2302 Probabilités et méthodes statistiques

    http://www.groupes.polymtl.ca/mth6301/STATISTICA.htmhttp://cours.polymtl.ca/mth6301/Statistica/2020-07-InstallationStatistica13.5.pdf

  • 18Bernard CLÉMENT, PhD

    Statistica

    MTH2302 Probabilités et méthodes statistiques

  • 19Bernard CLÉMENT, PhD

    EXEMPLES

    ExempleNo

    ThèmeType données

    Fichier données (*)

    Probléma-tique

    Analysestatistique

    1 procédéfabricationMachine.staMachine.xls

    comparaisonstabilité

    descriptioncarte contrôle

    2 donnéeshistoriquesCars1993.staCars1993.xls

    modélisationprix = …

    descriptionrégression

    3données

    testsTestsVoitures.staTestsVoitures.xls

    modélisationblessures = …

    descriptionRégression - ANOVA

    4 donnéesexpériencePapier.staPapier.xls

    blanchimentpapier

    régressionmultiple

    5 données test Vitre.staVitre.xls prédiction fiabilité

    6données

    historiquesVentes.staVentes.xls

    impatpolitique vente

    prédictionrégression

    7 donnéesd’expérienceWEBdesign.staWEBdesign.xls

    Identificationfacteurs critiques ANOVA

    8 donnéeshistoriquesDrainage

    urbainPrédiction coûtavec 10 facteurs

    régression

    9donnéessimulées

    ancien travail session

    MTH2302B

    conceptionproduit

    simulationanalyse système

    10 modélisationprobabilisteancien travail

    session MTH2302B

    machine distributrice

    (ATM)

    Calcul de probabilités

    (*) données disponibles http://www.cours.polymtl.ca/mth6301/MTH2302B.htm

    http://www.cours.polymtl.ca/mth6301/MTH2302B.htm

  • 20Bernard CLÉMENT, PhD

    Exemple 1 mesures longueur de

    pièces provenant de 3 machineséchantillon de 5 pièces

    à chaque heure 1, 2,.., 10

    Y = écart = longueur – 50

    MACH_1 : données sur machine 1 MACH_2 : données sur machine 2 MACH_3 : données sur machine 3

    heure pièce MACH_1 MACH_2 MACH_31 1 -0,352 -0,067 -0,0131 2 -0,609 -0,175 0,1601 3 0,338 -0,285 0,0491 4 0,339 -0,230 0,9971 5 0,722 -0,439 0,2542 6 -0,105 0,039 -0,0222 7 0,099 -0,288 -0,7372 8 0,566 0,059 0,2672 9 -0,628 -0,247 -0,5232 10 -0,600 -0,126 -0,7403 11 0,115 -0,589 -0,8623 12 0,327 -0,440 -0,6573 13 -0,668 -0,051 -0,2193 14 -0,105 -0,428 0,2253 15 -0,580 -0,185 -0,7554 16 -0,054 -0,372 0,0304 17 0,350 -0,327 0,2414 18 0,203 -0,570 0,0914 19 0,716 -0,554 1,5234 20 0,589 -0,103 -0,2105 21 0,110 -0,309 1,2845 22 -0,542 -0,460 1,3475 23 0,301 -0,453 -0,5465 24 -0,056 -0,128 -0,3885 25 0,372 -0,311 0,5196 26 0,685 -0,197 -0,2486 27 0,463 -0,221 -0,1846 28 -0,286 -0,149 0,1206 29 -0,609 -0,220 -0,3606 30 0,424 -0,568 -0,4197 31 -0,188 -0,225 -0,2467 32 0,269 -0,075 -0,4317 33 0,455 -0,154 -0,2447 34 0,807 -0,775 -0,5687 35 -0,132 -0,355 -0,3358 36 -0,309 -0,365 0,0508 37 0,794 -0,236 -0,0328 38 0,404 -0,402 0,3938 39 0,450 -0,300 -0,2988 40 0,297 0,021 -0,1649 41 -0,571 -0,130 -0,0299 42 0,267 -0,246 -0,4109 43 0,647 -0,485 -0,2509 44 -0,271 -0,314 -0,2129 45 -0,025 -0,270 -0,52310 46 0,470 -0,411 -0,35410 47 0,037 -0,367 -0,39510 48 -0,323 -0,217 0,14210 49 -0,268 0,012 0,70710 50 -0,141 -0,789 -0,417

    objectifs / questions1 : visualiser les données2 : stabilité statistique procédés?3 : différences significatives?

  • 21Bernard CLÉMENT, PhD

    Histogram of écart; categorized by machineMachines.sta in MTH2302-ExemplesCours-analyse.stw 10v*150c

    machine: 1 écart = 50*0,2*Normal(Location=0,0839; Scale=0,4346)machine: 2 écart = 50*0,2*Normal(Location=-0,2896; Scale=0,1915)machine: 3 écart = 50*0,2*Normal(Location=-0,0678; Scale=0,5288)

    écartNo

    of o

    bs-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    20

    22

    machine: 1machine: 2machine: 3

    procédés sont-ils statistiquement stables?Réponse = OUIcarvariabilité des moyennes et écarts-types par heuresont en contrôle statistique voir page suivante

    Exemple 1graphique des données HISTOGRAMME

    .......................................

  • 22Bernard CLÉMENT, PhD

    Les procédés (machines) sont-ilsstatistiquement stables?réponse …… OUI

    X-bar and R Chart; variable: MACH_1Histogram of Means

    0 1 2 3 4-0,8-0,6-0,4-0,20,00,20,40,60,81,0

    X-bar: ,08389 (,08389); Sigma: ,45605 (,45605); n: 5,

    1 2 3 4 5 6 7 8 9 10

    -,52796

    ,08389

    ,69575

    Histogram of Ranges

    0 1 2 3 4 5-0,5

    0,0

    0,5

    1,0

    1,5

    2,0

    2,5Range: 1,0607 (1,0607); Sigma: ,39406 (,39406); n: 5,

    1 2 3 4 5 6 7 8 9 10

    0,0000

    1,0607

    2,2429

    X-bar and R Chart; variable: MACH_2Histogram of Means

    0 1 2 3 4 5-0,7-0,6-0,5-0,4-0,3-0,2-0,10,00,1

    X-bar: -,28957 (-,28957); Sigma: ,20445 (,20445); n: 5,

    1 2 3 4 5 6 7 8 9 10

    -,56387

    -,28957

    -,01526

    Histogram of Ranges

    0 1 2 3 4-0,2

    0,0

    0,2

    0,4

    0,6

    0,8

    1,0

    1,2Range: ,47555 (,47555); Sigma: ,17667 (,17667); n: 5,

    1 2 3 4 5 6 7 8 9 10

    0,0000

    ,47555

    1,0055

    X-bar and R Chart; variable: MACH_3Histogram of Means

    0 1 2 3 4-0,8-0,6-0,4-0,20,00,20,40,60,8

    X-bar: -,06777 (-,06777); Sigma: ,42574 (,42574); n: 5,

    1 2 3 4 5 6 7 8 9 10

    -,63896

    -,06777

    ,50341

    Histogram of Ranges

    0 1 2 3 4-0,5

    0,0

    0,5

    1,0

    1,5

    2,0

    2,5Range: ,99023 (,99023); Sigma: ,36787 (,36787); n: 5,

    1 2 3 4 5 6 7 8 9 10

    0,0000

    ,99023

    2,0938

    Contrôle Statistique des Procédés (SPC) = ?Information détaillée : consulterhttp://www.groupes.polymtl.ca/mth6301/mth8302/Clement/Clement-SPC.pdf

    machine 1

    machine 3

    machine 2

    Exemple 1

    http://www.groupes.polymtl.ca/mth6301/mth8302/Clement/Clement-SPC.pdf

  • 23Bernard CLÉMENT, PhD

    différences significatives entre les machines?réponse = OUIcar moyennes sont statistiquement différentes

    Categ. Box & Whisker Plot: écart

    1 2 3

    machine

    -0,4

    -0,3

    -0,2

    -0,1

    0,0

    0,1

    0,2

    0,3

    écar

    t

    Mean Mean±SE Mean±1,96*SE

    très faibleprobabilité(56 /1 000 000)moyennes des machinessoient égales

    Analyse statistique : méthode ANOVA

    Exemple 1 : analyse comparaison

  • 24Bernard CLÉMENT, PhD

    Exemple 2 caractéristiques de voitures (1993)27 variables 93 voitures

    id Manufacturer ModelCategory Price

    CityMPG

    HighwayMPG

    EngineSize

    HorsePower

    FuelTank

    Passengers Weight .

    Acura_in Acura Integra Small 15,9 25 31 1,8 140 13,2 5 2705 .Acura_le Acura Legend Midsize 33,9 18 25 3,2 200 18,0 5 3560 .Audi_90 Audi 90 Compa

    ct29,1 20 26 2,8 172 16,9 5 3375 .

    Audi_100 Audi 100 Midsize 37,7 19 26 2,8 172 21,1 6 3405 .BMW_535 BMW 535i Midsize 30,0 22 30 3,5 208 21,1 4 3640 .Buick_ce Buick Century Midsize 15,7 22 31 2,2 110 16,4 6 2880 .

    . . . . . . . . . . . . .Volvo_850 Volvo 850 Midsize 26,7 20 28 2,4 168 19,3 5 3245 .

    visualiser toutes les donnéesprix relié aux caractéristiques? lesquelles? comment?

    MTH2302 Probabilités et méthodes statistiques

  • 25Bernard CLÉMENT, PhD

    Projection of the variables on the factor-plane ( 1 x 2)Active and Supplementary variables

    *Supplementary variable

    Active Suppl.

    ngineSize

    HorsePower

    ber of Cylinders

    Passengers

    Weight Engine Revs Per Mile (h ength (inches)

    RPM at Max Horsepower

    *Price

    -1,0 -0,5 0,0 0,5 1,0

    Factor 1 : 65,62%

    -1,0

    -0,5

    0,0

    0,5

    1,0Fa

    ctor

    2 :

    15,6

    3%

    projection27 variablesplan optimalen 2 dimensions(Factor 1, Factor 2) expliquant65,6% +15,6%= 81,2 %variation globale

    Exemple 2 caractéristiques de voitures (1993)27 variables 93 voitures

  • 26Bernard CLÉMENT, PhD

    Exemple 3 tests voitures avec mannequinsn = 351 tests 6 variables explicatves (X) 4 variables réponse (Y)

    USA National Transportation Safety Board study: how the crash affected the dummies.Stock automobiles containing dummies in the driver and front passenger seats crashed into a wall at 35 miles per hour.The injury variables describe the extent of head injuries, chest deceleration, and left and right femur load.The data file also contains information on the type and safety features of each crashed car. AIM : evaluate the relationship between car features variables (factors) and crash injuries variables (dependent variable).Variables explicativescarID: combination of make and model Year: year of the carSize: a categorical variable to classify the cars to a type = inter, medium, compact, heavvy, van, mpv, miniDoors: number of doors on the car Weight: weight in pounds of the car Dummy: whether the dummy is in the Driver or Passenger seatProtection: kind of protection = manual belts, motorized belts, driver airbag, passenger belt, driver & passenger airbag.4 variables de réponseY1 = CD = Chest_decel: chest deceleration Y2 = LL = Left_Leg: Left femur loadY3 = RL = Right_Leg: Right femur load Y4 = HIC = Head Injury Criterion

    variables de réponse sur l'échelle logarithmique.

    carNum

    1carID

    2Year

    3Size

    4Doors

    5Weight

    6Dummy

    7Protection

    8cat (v7&v8)

    Y1ChestDecel

    Y2LeftLeg

    Y3RightLeg

    Y4Head Injury

    Criterion

    1Acura Integra 87 lnt 2 2350 Drivermanual

    beltsD manuel

    belt 35 791 262 599

    2Acura Integra

    RS 90 lnt 4 2490 DriverMotorized

    belts D mot belt 1545 1301 585

    3Acura

    Legend LS 88 med 4 3280 Driver d airbag D d airbag 50 926 708 435

    4 Audi 80 89 comp 4 2790 Drivermanual

    beltsD manuel

    belt 49 168 1871 600

    . . . . . . . . . . . . .Y a t-il un lien entre les caractéristiquesdes voitures et la sévérité des blessures?

  • 27

    Description du problèmeL’industrie papetière produit de nombreuses variétés de papier plus ou moins blancs.Un processus chimique est utilisé pour blanchir le papier.Objectif• Etudier l’effet des différents facteurs de blanchiment sur la blancheur d’une pâte.• Trouver une formule de blanchiment de pâte pour obtenir 77.5 °ISO.Facteurs X• X1 = H2O2 : Quantité de H2O2 : 0.4% à 1.6% ……………. facteur continu• X2 = Alca : Quantité d’alcali : 0.6% à 1.4% …………… facteur continu• X3 = TypAlca : Type d’alcali : CaO MgO NaOH ….. facteur catégoriqueRéponse Y : blancheur en °ISO

    Expérimentation: plan de 33 essais – 3 séries de 11 tests

    analyse

    et

    interprétation?

    Valeurs de Y

    Exemple 4 expérience blanchiment papier

    Bernard CLÉMENT, PhD

  • 28

    Analyse Pareto

    Exemple 4 expérience blanchiment papier

    Bernard CLÉMENT, PhD

    Pareto Chart of t-Values for Coefficients; df=28Variable: Y_blan-ISO

    ,6940369

    1,310353

    1,457998

    2,610246

    p=,05

    t-Value (for Coefficient;Absolute Value)

    %Alca

    TypAlca

    TypAlca

    %H2O2

  • 29Bernard CLÉMENT, PhD

    Exemple 5 fiabilité

    ContexteLes données proviennent d’une série de tests réalisés en 1993 par un laboratoiregouvernemental de certification.La variable de réponse mesurée est le temps (en heures) pour obtenir la ruptured’une vitre soumise à un test de stress.

    But de l’analyseL’objectif est de déterminer une « bonne » distribution pour modéliser lesdonnées. À l’aide du “meilleur” modèle obtenu, on pourra alors calculerdifférents points de pourcentage (percentiles) de la distribution ce qui permettrade mesurer la performance (facteur de sécurité) de la vitre employée.Cela permet de répondre à des questions comme

    « à quel temps(durée) peut-on s’attendre à ce que la vitretombe en panne avec une probabilité de 0,99? »

    Données Les données (en ordre croissant) des tests réalisés sont (n = 31)18.830 20.800 21.657 23.030 23.230 24.050 24.321 25.500 25.52025.800 26.690 26.770 26.780 27.050 27.670 29.900 31.110 33.20033.730 33.760 33.890 34.760 35.750 35.910 36.980 37.080 37.09039.580 44.045 45.290 45.381

    MTH2302 Probabilités et méthodes statistiques

  • 30Bernard CLÉMENT, PhD

    Exemple 6 processus de vente

    ÉTUDE – analyse des données de vente Une entreprise spécialisée dans la vente de systèmes de chauffage a comptabilisé le nombrede systèmes vendus à chaque mois, depuis janvier 1997. L’entreprise a emmagasiné aussi des informations qu’elle juge importantes pour ses activités:

    ► le nombre de nouvelles maisons construites chaque mois dans le secteur ► l’écart entre la température moyenne observée pendant le mois et la moyenne des 30 années

    L’entreprise offre certains mois un rabais aux acheteurs de ses systèmes de chauffage, et a noté si un tel rabais était en vigueur chaque mois depuis 1997. La direction des ventes a décidé que les clients de l’entreprise bénéficieraient d’un rabais à certains mois dans l’année.

    7 VARIABLES - 110 OBSERVATIONSv1 identification v2 = nombre nouvelles maisons v3 rabais variable indicatrice (oui / non) oui = 1 = rabais non = 0 = pas de rabaisv4 écart température entre la température moyenne pour le mois et la moyenne de 30 ansv5 = année v6 = mois v7 = nombre ventes

    no

    nombre nouvelles maisons rabais

    écart température année mois

    Nombreventes

    1 68 0 0,29 1997 janv 562 64 0 0,58 1997 fev 563 65 0 0,08 1997 mars 56

    . . . . . . .Prédiction du volume de ventes = ?Influence du rabais? température?Influence nombre de nouvelles maisons?

    MTH2302 Probabilités et méthodes statistiques

  • 31Bernard CLÉMENT, PhD

    Exemple 7 conception site WEB

    couleur graphictaille graph

    orient menu police

    averageload

    averagecust rank

    stdev custrank

    A constant large horiz Sans-Serif 20 2,0 0,6A constant large vert Serif 10 7,3 2,3A constant small horiz Serif 10 7,3 1,2A constant small vert Sans-Serif 20 15,2 0,8A rotate large horiz Serif 20 2,8 1,2A rotate large vert Sans-Serif 10 9,0 3,5A rotate small horiz Sans-Serif 10 9,2 1,8A rotate small vert Serif 20 15,3 0,8B constant large horiz Sans-Serif 10 3,2 1,2B constant large vert Serif 20 7,8 3,1B constant small horiz Serif 20 13,7 0,8B constant small vert Sans-Serif 10 8,8 1,9B rotate large horiz Serif 10 2,0 1,3B rotate large vert Sans-Serif 20 8,8 2,9B rotate small horiz Sans-Serif 10 13,8 1,2B rotate small vert Serif 10 9,0 1,1

    Comment concevoir un bon site Web?

    Quels sont les facteurs critiques?

    5 facteurs (X) à 2 modalitésPlan 16 essais

    2 réponses Y

    Essai12345678910111213141516

  • 32Bernard CLÉMENT, PhD

    Exemple 7 conception site WEB

    Comment concevoir un bon site Web?

    Quels sont les facteurs critiques?

    Pareto Chart of Standardized Effects; Variable: average cust rank6 factors at two levels; MS Residual=8,329009

    DV: average cust rank

    ,1122464

    ,593218

    -,610396

    1,521898

    2,138013

    4,44099

    p=,05

    Standardized Effect Estimate (Absolute Value)

    (1)couleur

    (2)graphic

    (5)police

    (6)average load

    (4)orient menu

    (3)taille graph

    MTH2302 Probabilités et méthodes statistiques

  • 33Bernard CLÉMENT, PhD

    Exemple 8 drainage urbain - génie civilJ.W.Knapp, W.J. Rawls, Prediction Models for Investment in Urban Drainage SystemVirginia Polytechnic Institute and State University, 1969 X1_rec : période de récurrence (an)X2_pente: pente du bassin (%) X3_coRuis: coefficient de ruissellement (-)X4_nbSour: nombre de sourceX5_diaMin: plus petit diamètre du système (po)X6_diaMax: plus grand diamètre du système (po)X7_debit: débit de sortie (picu/sec)X8_longTuyau: longueur totale tuyaux (pi)X9_airePrj: aire du projet (acres)X10_aireDev: aire développée (acres) Y_cout: coût du projet ($1963)

    variables X:explicatives

    réponse Y

    . . . . . . . . . . .5 1,00 0,45 9 30 48 47 1190 47 19 129975 0,40 0,45 7 18 30 23 1600 16 16 29336

    Bernard Clément, PhD - Méthodes statistiques - problème 2.8 J.W.Knapp, W.J. Rawls, Prediction Models for Investment in Urban Drainage System Virginia Polytechnic Institute and State University, 1969 X1_rec : péridode de récurrence (an) X2_pente: pente du bassin (%) X3_coRuis: coefficient de ruissellement (-) X4_nbSour: nombre de source X5_diaMin: plus petit diamètre du système (po) X6_diaMax: plus grand diamètre du système ( X7_debit: débit de sortie (picu/sec) X8_longTuyau: longueur totale tuyaux (pi) X9_airePrj: aire du projet (acres) X10_aireDev: aire développée (acres Y_cout: cout du projet ($1963)

    1X1_rec

    2X2_pente

    3X3_coRuis

    4X4_nbSour

    5X5_diaMin

    6X6_diaMax

    7X7_débit

    8X8_longTuyaux

    9X9_airePrj

    10X10_aireDev

    11Y_cout

    123

    10 0,01 0,50 20 30 39 70 2963 52 52 103996

    10 0,10 0,70 32 36 51 136 7100 134 164 191311

    10 2,00 0,50 29 27 48 153 3400 120 89 151499

    MTH2302 Probabilités et méthodes statistiques

  • 34Bernard CLÉMENT, PhD

    Exemple 8

    drainage urbain

    n = 70 obs.

    p = 11 variables

    10 variables X

    1 variable Y

    visualiser les données?

    relation entre

    Y et les X?

    1X1_rec

    2X2_pente

    3X3_coRuis

    4X4_nbSour

    5X5_diaMin

    6X6_diaMax

    7X7_débit

    8X8_longTuyaux

    9X9_airePrj

    10X10_aireDev

    11Y_cout

    123456789

    10111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970

    10 0,01 0,50 20 30 39 70 2963 52 52 103996

    10 0,10 0,70 32 36 51 136 7100 134 164 191311

    10 2,00 0,50 29 27 48 153 3400 120 89 151499

    10 0,30 0,50 18 36 45 85 2200 52 35 90341

    10 0,30 0,50 19 24 45 57 2600 51 26 96291

    10 0,90 0,40 17 15 60 270 1900 133 133 84576

    5 1,10 0,30 41 15 60 329 6040 276 296 156546

    5 1,40 0,30 23 15 60 278 3410 250 250 82947

    3 0,80 0,55 55 15 36 502 5630 174 122 125063

    3 0,10 0,50 100 24 96 560 9999 503 503 841601

    3 0,10 0,50 14 24 66 109 2450 90 90 141600

    5 2,10 0,50 24 18 66 370 4092 210 105 131931

    5 0,50 0,50 19 18 84 270 4415 245 245 236006

    5 1,20 0,50 12 24 108 1270 4440 867 254 271064

    5 3,40 0,50 39 21 60 267 4152 147 147 82055

    5 1,00 0,50 35 24 84 520 3738 307 61 126308

    15 0,30 0,51 32 12 48 169 7552 116 116 166532

    5 2,00 0,40 125 12 66 258 7931 217 217 349543

    10 2,20 0,50 160 12 27 90 7360 30 24 179454

    15 1,10 0,50 25 12 108 1940 2786 1435 891 341758

    5 1,50 0,45 16 15 36 70 2643 48 48 81140

    15 3,20 0,70 40 15 30 81 5180 20 20 89013

    5 1,60 0,60 35 15 36 64 4020 39 39 82347

    5 1,10 0,45 44 15 54 145 7255 37 87 98684

    5 0,60 0,45 36 15 54 105 5388 80 56 124142

    10 1,60 0,60 30 15 96 410 2225 181 181 63980

    1 0,25 0,45 31 15 30 42 3382 70 70 26585

    1 0,30 0,45 31 15 30 12 1704 20 20 11759

    1 0,25 0,46 29 15 36 18 3294 30 30 29918

    10 1,90 0,38 18 15 48 148 1653 79 28 34462

    10 0,90 0,40 18 15 54 171 1965 92 50 47029

    10 1,00 0,38 15 15 24 77 1285 38 38 56644

    10 1,90 0,35 15 15 48 136 2637 76 76 39049

    5 4,80 0,60 30 15 36 50 1160 44 44 53811

    5 2,50 0,60 15 15 18 23 1300 18 18 25636

    10 1,50 0,40 24 48 66 334 2029 144 144 55540

    15 4,50 0,55 33 15 24 60 2465 11 11 58885

    15 5,00 0,55 21 15 24 188 2830 14 14 61884

    5 2,30 0,45 17 15 36 85 2050 21 21 51807

    2 2,50 0,50 12 15 27 53 1371 40 36 24250

    2 1,80 0,50 33 15 36 77 4441 96 96 51116

    10 2,00 0,20 23 12 27 48 3400 93 56 34067

    10 3,60 0,50 8 12 27 55 640 19 19 13348

    5 1,40 0,35 19 18 54 214 2900 52 52 79339

    5 0,90 0,50 20 15 54 142 2781 48 48 59610

    5 0,80 0,50 17 15 43 100 3169 59 59 39330

    5 1,70 0,50 8 18 24 53 1641 31 31 18307

    5 1,10 0,50 23 18 54 163 4778 111 111 70742

    5 2,10 0,50 13 21 24 45 1779 40 40 28092

    5 2,20 0,50 23 21 54 186 2600 101 61 47961

    3 0,40 0,51 27 15 42 53 2720 70 33 58991

    3 1,50 0,50 19 15 30 46 1570 90 90 30901

    5 2,10 0,50 25 18 27 56 2823 85 85 46448

    3 1,50 0,65 27 24 30 33 1760 34 34 43109

    5 0,30 0,50 30 12 36 28 2755 33 33 34433

    5 1,50 0,50 31 12 18 15 2392 30 30 14844

    5 0,50 0,50 17 12 27 15 1608 19 19 8169

    5 0,40 0,50 16 12 21 7 1695 12 12 11788

    5 1,00 0,40 36 15 54 172 2730 39 69 43130

    10 2,00 0,50 9 30 45 122 1295 56 18 47740

    50 0,70 0,50 10 15 24 21 900 23 13 2541

    10 0,01 0,50 16 15 45 38 2300 57 57 63937

    10 0,01 0,50 14 15 39 87 3940 37 37 69180

    10 0,15 0,50 12 12 142 31 2115 111 44 35822

    10 0,20 0,50 12 18 42 67 1992 109 31 49492

    10 1,00 0,50 4 18 33 60 1054 38 4 14653

    10 0,01 0,45 9 21 36 34 1330 19 19 37378

    10 2,40 0,70 10 36 48 200 882 96 73 23778

    5 1,00 0,45 9 30 48 47 1190 47 19 12997

    5 0,40 0,45 7 18 30 23 1600 16 16 29336

  • 35Bernard CLÉMENT, PhD

    Exemple 9 : conception pompe remplissage (ancien travail de session)

    D : débit du fluide (ml / sec)R : rayon du piston (mm)L : longueur du bras (mm)V : vitesse du moteur (rpm)B : refoulement (« backflow ») (ml)

    EC1 : débit de remplissage D (en ml / sec) valeur cible de 250EC2 : limite inférieure de spécification (LSL) de D est 240EC3 : limite supérieure de spécification (USL) de D est 260

    PARAMÈTRE DÉFINITION VALEURS POTENTIELLES NOMBREmuR moyenne de R 20 25 30 35 40 45 50 7muL moyenne de L 20 30 40 50 60 70 80 7muV moyenne de V 30 31 32 33 34 35 36 37 38 39 40 11muB moyenne de B 1 5 2sigR écart-type de R 0,1 0,3 2sigL écart-type de L 0,1 0,3 2sigV écart-type de V 0,1 0,3 2sigB écart-type de B 0,05 1

    OBJECTIF : identifier les meilleurs designs

    a) satisfaire les exigences EC1, EC2, EC3 avec probabilité d’au moins 0,99

    b) coût total le plus petit

    8624 cas !

    MTH2302 Probabilités et méthodes statistiques

  • Exemple 10 : modélisation machine distributrice d’argent (ATM) (ancien travail session)

    32Bernard CLÉMENT, PhD

    suite : consulter

    http://www.groupes.polymtl.ca/mth6301/mth2302B/Cours/exemple10.pdf

    http://www.groupes.polymtl.ca/mth6301/mth2302B/Cours/exemple10.pdf

  • X 1 , X2 , …, Xk : variables contrôlées en expérimentation (mode actif)variables observées/mesurées (données observationnelles)

    X1 X2. . .Xk

    PROCESSUS

    SYSTÈME

    erreur expérimentale:sources inconnues de variabilité

    ε ∼ N(0, σ2)

    réponse Y = φ (X)sortie mesurée

    PROCESSUS ou SYTÈME

    Toute analyse statistique repose sur un MODÈLE qu’il faut spécifier- fonction φ pour représenter une relation entre input X et output Y- hypothèse distributionnelle pour le terme d’erreur ε- connaissance de la structure des données:

    plan collecte données / nature variables / rôle variables / unités statistiques

    Y = φ (X1, X2 , … , Xk ; β0 , β1 , β2 ,… ) + εφ : fonction inconnue approximation polynôme

    β0 , β1 , β2 , … : paramètres statistiques inconnus

    ε

    Copyright © Génistat Conseils Inc.Montréal, Canada, 2018

    32

    Diapositive numéro 1Diapositive numéro 2Diapositive numéro 3Diapositive numéro 4Diapositive numéro 5Diapositive numéro 6Diapositive numéro 7Diapositive numéro 8Diapositive numéro 9Diapositive numéro 10Diapositive numéro 11Diapositive numéro 12Diapositive numéro 13Diapositive numéro 14Diapositive numéro 15Diapositive numéro 16Diapositive numéro 17Diapositive numéro 18Diapositive numéro 19Diapositive numéro 20Diapositive numéro 21Diapositive numéro 22Diapositive numéro 23Diapositive numéro 24Diapositive numéro 25Diapositive numéro 26Diapositive numéro 27Diapositive numéro 28Diapositive numéro 29Diapositive numéro 30Diapositive numéro 31Diapositive numéro 32Diapositive numéro 33Diapositive numéro 34Diapositive numéro 35Diapositive numéro 36Diapositive numéro 37