38
Géo humaine Géo physique Géomatique Résumé MQ I 1 ère année 2011/2012 Chapitre 1 : La géomatique Géomatique : domaine méthodologique dans environn. inform. pour les sciences spatiales -> techniques et méthodes traitement numérique infos à caractère spatial - fournisseurs : - statistique - cartographie - mensuration - télédétection, traitement images - photogrammétrie - analyse spatial - systèmes d'info géo. (SIG) - utilisateurs : - sciences Terre - géo - sciences environn. Objet : étude propriétés, phénomènes, interactions et dynamique dans biosphère En géo : méthodes relatives à l'analyse spa. des phénom. et leur interactions dans un enviro. informatisé Buts analyse spat. : Inventorier Comprendre Prévenir (passé) (présent) (futur) DESCRIPTIF COMPRENDRE PRÉVISIONNEL Information : - thématique (propriétés des phéno.) - géométrique (distrib. dans l'espace des phéno.) - temporelle (dynamique de l'espace et des propriétés) Traitement : Amont Aval Méthodes saisie Méthodes ana. spat. Méthodes cartogra. Réalité (collecte infos) Info spat. numérique Résultats (représ. graph. infos) Sources info : - mesures terrain Saisie : - échantillons Page 1

unifr.ch · Web viewest une fonction linéaire ou polynomiale permettant de modéliser la relation de dépendance d’une variable y par rapport à une variable x. Dans le but de

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Résumé MQ I 1ère année 2011/2012

Chapitre 1 : La géomatique

Géomatique : domaine méthodologique dans environn. inform. pour les sciences spatiales

-> techniques et méthodes traitement numérique infos à caractère spatial

- fournisseurs :- statistique

- cartographie

- mensuration

- télédétection, traitement images

- photogrammétrie

- analyse spatial

- systèmes d'info géo. (SIG)

- utilisateurs :- sciences Terre

- géo

- sciences environn.

Objet : étude propriétés, phénomènes, interactions et dynamique dans biosphère

En géo : méthodes relatives à l'analyse spa. des phénom. et leur interactions dans un enviro. informatisé

(GéohumaineGéophysiqueGéomatique)

Buts analyse spat. :InventorierComprendrePrévenir

(passé)(présent)(futur)

DESCRIPTIFCOMPRENDREPRÉVISIONNEL

Information :- thématique (propriétés des phéno.)

- géométrique (distrib. dans l'espace des phéno.)

- temporelle (dynamique de l'espace et des propriétés)

Traitement :AmontAval

Méthodes saisieMéthodes ana. spat.Méthodes cartogra.

Réalité (collecte infos)Info spat. numériqueRésultats (représ. graph. infos)

Sources info :- mesures terrainSaisie :- échantillons

- cartes- mesures terrain

- annuaires stat.- numérisation (tables, scanners,…)

- imagesMise en forme :- régionalisation (variogra., interpolat. spat.)

- bases de données- homogénéisation (projection, contenu spat., structure, format)

Représentation :- codage graph. info

- adapter à la nature du phéno.

- finalité :- interprét. de la distrib. spati.

- hypothèses pour l'ana. spat.

Méthodes analyse :- géométrie (description entités, objets)

- topologie (relations entre entités)

- arrangement (organi. spat. entités)

- proximité (éloignements entre entités)

- accessibilité (accès aux entités)

- dynamique (mvmts dans espace)

Modélisation espace (niveaux) :- surface plane isotrope

- surface gauche isotrope

- surface gauche anisotrope

- volume gauche anisotrope

Buts géomatique :évaluer -> formaliser -> structurer démarches de ana. spat. harmoniser méthodes spat.

harmonisation :- intégration (dévelop. méthodes)

- interdisciplinarité (plate-forme méthodo. commune pour problématique spat.)

Questions chapitre 1 :

1. Quels sont les 8 fournisseurs de la géomatique ?

2. Quelles sont les 3 tâches de l’analyse spatiale  (étapes de l’exploitation de l’information numérique)?

3. Quelles sont les méthodes de saisie (3) et de mise en forme (2) de l’information ?

4. Citez 5 sources de l’information

5. Quelles sont les 6 propriétés de l’espace ?

6. Quels sont les 4 niveaux de complexités d’un modèle ?

7. Quelles sont les tâches de la géomatique ?

Réponses chapitre 1 :

1. stat, carto, analyse spatiale, modélisation, SIG, photogrammétrie, mensuration, télédétection

2. Inventorier (descriptif, passé), comprendre (processus, présent), prévoir (prévisionnel, futur)

3. Saisie : Echantillonnage, acquisition sur terrain, num / Mise en forme : Régionalisation, homogénéisation

4. Mesures de terrain, annuaires statistiques, cartes thématiques, images aériennes, données numérisées

5. Géométrie, topologie, arrangement, proximité, accessibilité, dynamique

6. Surface plane isotrope, gauche isotrope, gauche anisotrope, volume gauche anisotrope

7. Développer, adapter et intégrer des méthodologies pour l’analyse spatiale.

Chapitre 2 : exploration données

Réalité étudiée sous forme d’information

Observation : élément, entité, objet de la réalité dont on décrit les caractéristiques

Propriété : caractéristique que possède une observation pour une thématique donnée

Phénomène : aspect de la réalité à étudier (thématique) ex. : météorologie

Variable : information collectée sur le phénomène (numérique ou autre)

Phénomène exprimé par plusieurs variables : météo 

Nominal (soleil, pluie, neige), ordinal (classes de couverture, qualificatif), cardinal (numérique)

Information numérique = codage (combinaison de signes) et langage (nombre, signe, unité de mesure)

Nature de l’information :

- mesurée : acquisition par instruments de mesure (pluviométrie, température, recensement)

- dérivée : issue d’un calcul d’une combinaison d’informations mesurées (pente, débit rivière, orientation)

- interprétée : information enrichie par un expert (unités de sol, de végétation, d’habitat, écologiques)

Information acquise :

Problème de sélection de la « meilleure source disponible », qualité de l’info, passé/présent

Information à acquérir :

Problème d’échantillonnage, présent/futur

Origine des sources : institutions publiques / privées, relevés de terrain

Types de sources : mesures de terrain, annuaires statistiques, cartes thématiques, images aériennes

Forme :

- info analogique : codée dans un langage textuel, graphique, sur un support analogique (papier, film,...)

exige un recodage numérique

- info numérique : directement exploitable par des méthodes quantitatives

besoin de disposer de la « méta-information » et de connaître le format de stockage informatique

Codage numérique

Caractéristiques de la propriété :

- valeur du nombre (ex. : 23)

- signe attaché au nombre (+/-)

- unité de mesure relative (%, rang) ou fixe (habitants, °C)

Propriétés : 3 niveaux de richesse de contenu informatif

- nominal : indentification, différentiation des propriétés (valeurs limitées) (forêt, Genève,…)

- ordinal : indentification, hiérarchisation des propriétés (valeurs limitées) (moyen, 3ème, fort,…)

- cardinal : indentification, hiérarchisation des propriétés et quantification des intervalles, valeurs continues ou pseudo-continues (valeurs nombreuses, infinies), nombre

Nominal

Ordinal

Cardinal

Contenu des informations

Indentification différentiation

Identification, hiérarchisation sans quantification des rapports

Indentification, hiérarchisation mais en fonction de la quantification

Opérations possibles

=,

Quelques opérations logiques

>,<,=,

Opérations logiques

>, <,=, , +, -, x, /

Opérations logiques et arithmétiques

Statistiques associées

Mode, amplitude, comptage

Médiane, quantile

Moyenne, variance, corrélation, …

Valeurs discrètes

Discrète

Discrète et continue

Méta-information : complète le contenu informatif des données, complément indispensable

Dimension de l’information :

- thématique : propriétés des phénomènes mesurées sur les observations (commune, objet,…)

- géométrique : distribution de ces propriétés mesurées dans l’espace (localisation,…)

- temporelle : distribution de ces propriétés mesurées dans le temps exprime l’évolution

(mesures à différents moments)

Spatiale : (thématique + géométrique) commune localisée avec propriétés thématiques

Spatio-temporelle : (thématique + géométrique + temporelle) (recensement, lieu, évolution,…)

Typologie des unités d’observation

- identifiées : liste d’observations (sans organisation)

- localisées dans l’espace : par des variables spatiales (coordonnées x, y par exemple)

- positionnées dans le temps : liste séquentielle (série chronologique)

Méthodes quantitatives font appel à des opérations logiques, arithmétiques et statistiques

Statistique : domaine des maths appliquées qui s’intéresse à l’interprétation des données numériques

finalités : explorer, décrire, synthétiser, inférer, comparer, modéliser les phénomènes en 3D

l’information collectée n’exprime qu’une portion de la réalité :

La réalité contient un nombre important, voire infini d’objets et de propriétés dans les 3D

La population statistique est l’ensemble de tous les individus d’une même nature (étudiants, langues,…)

L’information sur la réalité est composée d’une sélection limitée d’objets de la réalité

L’échantillon statistique est un sous-ensemble d’individus tirés de la population but : représentativité

Statistique descriptive : description et synthèse des propriétés de l’échantillon exploration de donnée

Statistique inférentielle : relation entre échantillons modélisation de distribution

Analyses statistiques : (pas vu en cours)

Caractériser (indicateur de position/dispersion), synthétiser (indice/analyse factorielle), grouper (classification/comparaison : test paramétrique ou non), choisir (moy. pondérée/ analyse multicritère), décrire, lier (corrélation : nominal/ordinal/cardinal), modéliser

Finalité :

Synthèse (graphique et numérique) : distribution de chaque variable (tendance centrale, dispersion)

Mise en relation de phénomène : corrélation, diagramme bivarié

Mise en relation de groupes d’observations : comparaison de groupe

Formulation d’hypothèse d’analyse : hypothèse vérifiée par des tests

Variable 1(nom)

Variable 2

Observation 1 (nom)

Observation 2

Nom des variables et des observations

méta-information

Outils d'exploration :descripteurs numériques et graphiques, univariés et bivariés

Descripteurs numériques univariés : résument l'aspect du comportement d'une variable à des niveaux de mesure différents

· aspect du comportement (indices de …) :

· 1. …tendance centrale (position)

· 2. …variabilité (dispersion)

· 3. …forme (distribution)

· niveau mesure :

· nominal catégories (comptage, fréquence, ex. : nom d'un district)

· ordinal classes (ordre, séquence, ex. : classement par nbre d'hab.)

· cardinal contiuum (position, intervalle, ex. : nbre d'hab.)

1. Tendance centrale : indiquent la position centrale de l’ensemble des valeurs sur l’échelle de mesure

· nominal : mode déterminer la catégorie avec la + grande fréquence

· ordinal : médiane valeur partage observations en 2 groupes de même taille

· si n est pair : n/2

· si n est impair : ((n-1)/2) +1

· cardinal : moyenne valeur où se situe le centre de gravité (moyenne arithmétique)

· x̄ = (somme des obs.)/n

Note : la médiane et le mode sont + robustes que la moyenne moins sensibles aux valeurs extrêmes

2. Variabilité : indiquent l’importance de la dispersion des valeurs en référence à leur indice de tendance centrale respectif

· nominal : diversité nombre de valeurs (catégories) différentes sur l’ensemble des observations

· ordinal : interquartile différence des valeurs (limites) partageant l’ensemble des observations en 2 sous-ensembles de même taille autour de la médiane

· déterminer les 3 valeurs partageant les observations en 4 groupes de même taille

· cardinal : écart-type écarts moyens à la moyenne de l’ensemble des observations

· =

· autre indices : amplitude, écart-moyen, variabilité relative, coefficient de variation

Note : la variance, donc l’écart-type sont très sensibles aux valeurs extrêmes

3. Forme : décrivent la forme de distribution des valeurs de référence à la moyenne, par rapport à une forme de distribution spécifique : la distribution normale

· concernent avant tout le niveau cardinal car :

· la position de référence est la moyenne

· la variable est supposée continue

· les 2 indices sont :

· la symétrie voir si on a une bonne répartition de chaque côté de la tend. centr.

·

· relation entre valeurs de la médiane et la moyenne

· gx = 3(xmoy – xméd) / sx

varie entre -3 et 3 / interprétation semblable à skx

· la voussure ou aplatissement « courbe » montrant la dispersion par rap. à moy

·

· rapport entre l’écart-moyen et l’écart-type

· akx = Mdx / s

valeur de référence d’un étalement normal = 0,7979 / interprétation semblable à kx

Descripteurs graphiques univariés : résument certains aspects du comportement d’une variable dans l’ensemble des observations considérées

identifier ce que l’on veut représenter (résumé graphique des propriétés, comportements des observation)

· aspect du comportement :

· distribution des fréquences des propriétés thématique

· évolution des propriétés temporel

· distribution des propriétés dans l’espace géométrique

sont complémentaires aux descr. num. univariés : avant de résumer graphique., on doit classer les données

produire des fréquences, synthétiser : un graphique trop riche empêche une bonne compréhension

Classement des données num. est lié à la richesse de l’info :

· niveau de mesure :

· nominal (catégories -> catégories) classement si catégories trop nombreuses

· ordinal (classes -> classes) classement si classes trop nombreuses

· cardinal (continuum -> classes) classement indispensable car diversité des valeurs mesurées trop grande

· Tableau de fréquences

· fréquences absolues (comptage des valeurs) ou relatives (proportion des valeurs)

· fréquences simples (liste des valeurs ou des proportions)

· fréquences cumulées (addition successive des fréqu. simples pour les i rangées en ordre croissant / propriété : somme de fi = 1 ou 100%)

· Démarche : définir le nbre de classes à produire et les limites des intervalles de classes

· Méthodes :

· indépendantes (neutres) découpage en intervalles réguliers

· statistiques :

· en unités de dispersion autour de la tendance centrale

· en intervalles de probabilité d’apparition des valeurs

· en fréquences régulières

· comparatives intervalles prédéfinis par un découpage de référence

· Définition du nbre de classes finalité : entre 7 et 15 / formule de Brooks et Huntsberger

· Intervalles en unité de dispersion :

· choix des indicateurs :

· médiane et unité de quartile (souvent le quartile)

· moyenne et unité d’écart-type (souvent 1 é.-t.)

· classe centrale est centrée autour de l’indicateur de position

· nbre d’intervalles (de classes)

· indép. de la taille de l’échantillon

· lié au détail de dispersion souhaité

· Intervalle prédéfinis : en rapport à des classes prédéfinies

· produire les mêmes classes/catégories que la référence

· comparer les diff. de fréquences entre les 2 échantillons

· décrire l’évolution des fréquences dans le temps

· ex. : constituer des classes de localités à partir de leur population ou d’altitude à partir de l’altitude

· Graphique de fréquence : représenter la fréquence des observ. par catégories ou classes

· nature du graphique liée au niveau de mesure

· nominal bâtons (bar chart) ou circulaire (camembert, pie chart)

· ordinal histogramme, polygones de fréquence

· Graphique thématique :

· ordinal ou cardinal  boxplot (boîte à moustache) : représente la position de la médiane par rapport aux quartiles et au max. et min.

· Graphique temporel : représente l’évolution des valeurs d’une ou plus. obs. dans le temps

· Graphique spatiaux : bidimensionnel représ. la distrib. des valeurs d’obs. dans l’espace

Descripteur spatiaux

Résument certains aspects de la distribution spatiale des unités d’observations ainsi que leur propriété.

· Dimension géométrique : Espace plan euclidien (géométrie, topologie)

· Dimension spatiale : Espace gauche isotrope ou anisotrope

· Dimension spatio-temporelle : Dynamique spatiale

On a 2 distributions selon la nature de l’entité.

1. Discontinue (discrète). Pour des entités ponctuelles, linéaires, zonales

2. Continu. Pour des entités dites « Surface » (modélisé par une multitude de points ou de zones (maille) arrangées régulièrement

Les descripteurs Spatiaux Globaux : résument la distribution de l’ensemble des entités.

Les descripteurs Spatiaux d’entité : résument les propriétés (souvent géométriques) de chacune des entités spatiales.

Attention : les descripteurs spatiaux peuvent être organisés selon leur degré de complexité, les composantes spatiales et les dimensions traitées.

Descripteur spatiaux élémentaires : voir dia 2-107

- objets ponctuels lié à la géométrie (indice de position, de dispersion, d’arrangement)

- objets ponctuels lié à l’espace (indice pondéré de position, pondéré de dispersion)

Indice de position

Formule dia 2-108 et ex dia 2-109:

1. Concerne le centre moyen (lieux de coordonnées (xmoyen ; ymoyen)

2. Centre médian (lieux de coordonnées (xmed ;ymed)

Indice de dispersion

Formule dia 2-110 et ex dia 2-111-112 :

1. Ecart-type en x et y

2. Interquartile en x et y

3. Distance standard de Bachi

= dispersion par rapport au centre moyen

Indice d’arrangement et indice R du plus proche voisin

Dia 2-113 et 2-114

· L’indice R, compare une distribution de points observés à une distribution théorique aléatoire. Si R = 1 on a distribution aléatoire et plus elle est proche de2,1419 plus la distribution est régulière.0

Indice spatiaux pondérés : les propriétés géométriques (position, dispersion, zones d’influence) sont pondérés par la propriété thématique de chacune des observations. Ex : TP sur la distribution des cadeaux et le nbre d’enfant dans chaque maison. 1ere fois, les maisons sont une unité. 2eme fois certaine maison ont plus de « poids » car elles contiennent 2, 3, voir 5 enfant. Voir dia 2-116 à 118

A la dia 2-119 vous pouvez observer d’autres descripteurs spatiaux pour vos connaissances personnelles

Descripteur numériques bivariés résument certains aspects de la relation de comportement entre 2 variables

1. Existe-il une similitude entre … ?

2. Quel est la force de cette similitude ? (on parle de lien fort ou faible)

3. La relation est-elle inverse ou directe ? (si l’une augmente l’autre augment ou si l’une augmente l’autre diminue ?)

Ex : dia 2-122

Selon le niveau, on parle de :

· nominal -> association

· ordinal -> relations de rangs

· cardinal -> relation d’intervalles (linéaire)

Attention : si l’on fait une corrélation entre un niveau cardinal et ordinal, ce sont les lois appliqué au niveau le plus bas qui priment.

Descripteur et test de la relation consiste à :

1. décrire et analyse la relation

2. vérification de la signification statistique de ces relations -> afin de généraliser, puis de modéliser

Corrélation et Régression :

· le coefficient de Corrélation admet l’existence, décrit la force et le sens d’une relation au niveau de l’échantillon des observations. La corrélation exprime une similitude de comportement entre 2 variables et non pas un lien logique ou une causalité

· La fonction de Régression est une fonction linéaire ou polynomiale permettant de modéliser la relation de dépendance d’une variable y par rapport à une variable x. Dans le but de la généraliser et de l’appliquer à toute la population. La régression est utilisé si l’on suppose qu’il existe une dépendance, une relation statistique et que 2 variables sont de niveau cardinal. Elle est donc utile pour évaluer des valeurs y non mesurées, et prédire des valeurs (ce qu’on nomme extrapolation ou prévision)

1. La corrélation au niveau nominal représente la correspondance entre les propriétés d’une variables et d’une autres

Pour cela, on crée un tableau de contingence (fréquence) voir dia 2-129

Une fois le tableau crée (et que l’on a vu qu’il y avait une relation, On peut utiliser le Coefficient d’association (V de Cramer) -> basé sur l’indice Chii-carré (chi-deux) entre 0 et 1, indépendant du nombre de propriété et la taille de l’échantillon.

Voir dia 2-130 à 133, Si le V de Cramer est proche de 0 -> la relation est nul ou n’existe pas. Si elle est environ ou = à 1 -> la relation est dite parfaite ou très élevé. Malgré tout, pour 0 il est possible de retrouver 2 fois la même valeur, mais cela n’implique aucune corrélation (c’est plutôt la chance).

2. Corrélation au niveau ordinal : utilise le Rho de Spearman (Dia 2-135) qui mesure la similitude des valeurs (Rang) de chaque observation pour les 2 variables. La corrélation est normalisée dans l’intervalle de -1 à 1.

Où 1 indique une relation directe ou si l’un est élevé l’autre aussi

ET où -1 indique une relation inverse ou si l’un est élevé l’autre est bas

Finalement, si Rs (Rho de Spearman) = 0 la relation est nul et si elle est = à 1 ou -1 elle est parfaite (voir dia 2-135 à 137)

3. La corrélation au niveau cardinal : prend en compte la hiérarchie des valeurs et l’intervalles les séparant. Se base sur le Coefficient de R de Pearson qui mesure la similitude des intervalles de valeur de chaque observation entre 2 variables. Normalisé entre -1 et 1 (identique à ordinal)

Remarque et commentaire (Ex et calcul, dia 2-139 à 148) :

1. une relation forte mais non-linéaire est considérée faible

2. les valeurs extrêmes peuvent rendre forte une corrélation qui est en fait faible

3. a. Le calcul + le graphique permet d’obtenir le bon résultat

b. Il est parfois judicieux d’utiliser à la place, le coefficient de rang de Spearman

Analyse de la chaîne de dépendance : c’est une démarche d’exploration permettant de mettre en évidence l’organisation des relations entre les variables

Etape de la démarche: Cette technique est basée sur la matrice des corrélations entre un ensemble de variables:

1. établir la matrice de corrélation (Spearman, Pearson),

2. extraire, pour chacune des variables, la plus forte corrélation positive (signification),

3. lister les couples de variables retenus, avec la valeur du coefficient,

4. extraire de cette liste les paires réciproques, elles constituent les noyaux des groupes (produire un organigramme),

5. attribuer les variables restantes aux groupes constitués en fonction de leur relation dominante,

6 compléter l’organigramme en indiquant les relations négatives fortes entre les groupes (entre leur noyau).

Ex : voir dia 2-150 et 2-151

Questions chapitre 2 :

1. Quelle est la différence entre un phénomène et une variable ?

2. Quelles sont les 3 formes de langage ?

3. Quelles sont les 3 natures et les 2 formes de l’information ?

4. Quels sont les 3 niveaux (ou échelles) de mesure ? Et les 2 combinaisons ?

5. Citez 6 buts des méthodes quantitatives et de la statistique

6. Quelle est la différence entre la réalité et l’information et comment passer de l’une à l’autre ?

7. Quel sont les 2 niveaux de la statistique ?

8. Quels sont les 7 types d’analyse statistiques ? Décrivez-les brièvement.

9. Quels sont les finalités de l’exploration des données ?

10. Quelle est la différence entre un descripteur univarié et bivarié

11. Citez un indice de tendance centrale et de variabilité pour chaque niveau de mesure et 2 indices de forme

12. Quelle est la démarche et les méthodes de classement ?

13. Citez 9 Descripteurs spatiaux numériques.

14. Quelle est la différence entre la corrélation et la régression ?

15. Citez un outil de corrélation pour chaque niveau de mesure avec leurs composantes

16. Explicitez les étapes de démarche pour la création d’une chaîne de dépendance

Réponses chapitre 2 :

1. Phénomène = aspect de la réalité à étudier (Exemple : Climat)

Variable = Information collectée sur le phénomène (Exemple : Température, humidité, …)

2. Langage textuel, numérique et graphique

3. Nature : Mesurée, dérivée, interprétée / Forme : analogique (recodage exigé), numérique

4. Niveau nominal, ordinal, cardinal / Combinaison : Dimension spatiale (thém+géom) et spatio-temp (les 3)

5. Explorer, décrire, synthétiser, inférer, comparer, modéliser, les phénomènes de la réalité dans les 3 dim

6. Réalité : nbre important, voire infini d’objets, représente un ensemble complet de la population

Information : nbre limité, représente un échantillon (= sous-ensemble) de la population

Réalité => information : Echantillonnage / Info => inférence

7. Statistique descriptive (exploration de données) et stat inférentielle (relation pop-éch, modélisation)

8. Au niv des entités : Caractériser (pos et variabilité), synthétiser (indices), grouper(classement, test), choisir

Au niveau des phén : Décrire (indicateurs stat, graph), Lier (corrél, chaîne de dép), modéliser (régression)

9. Décrire, résumer (synthèse), mettre en relations des info, formuler des hyp d’analyse.

10. Univarié : décrit une distribution de valeurs / Bivarié : Décrit une relation entre variables

11. Tendance centrale : Mode (nominal), Médiane (ordinal), Moyenne (cardinal)

Variabilité : Diversité (nominal), Interquartile (ordinal), Ecart-type (cardinal)

Forme : Symétrie (sk>0 => valeurs + en dessous), voussure (K>3 => pointu)

12. Démarche : 1. Définir le nbre de classes 2. Définir les limites de classe

Méthodes : Indépendantes (intervalles réguliers), statistiques, comparative (ex : prendre une autre distrib)

13. Position (centre moyen (pondéré), centre médian), Dispersion (écart-type et interquartile en X et Y, distance standard de Bachi (pondérée)), Arrangement (type de distribution), indice R du + proche voisin

14. Corr : force du lien entre deux variables (éch) / Régr : Dépendance entre deux variable (généralisation)

15. Nom (Par association): V de Cramer (table de conting, Chi-carré avec effectifs obs et théo, normé de 0 à 1)

Ord (Corrél par Rang) : Rho de Spearman (non-paramétrique, normalisé entre -1 et 1, diff des rangs, n>20)

Card (reld’intervalles) : R de Pearson (paramétrique, sensible, normalisé entre -1 et 1, covar et écart type)

1. Matrice de corrél, 2. + forte corrél, 3. Couples, 4. Supp réciproques, 5. Var restantes, 6. Rel négatives

Chapitre 3 : acquisitions des données

En bleu : remarque perso et explication

En gras : les mots importants ou les nouveaux thèmes, pour marquer une séparation

1. Introduction

Rappel : La réalité ne peut s’étudier qu’au travers d’une information (variables numériques)

Cette réalité est décrite au travers d’un processus de simplification et d’échantillonnage.

La simplification consiste à :

· Sélectionner des phénomènes (pertinent, utile) et certains de leur aspect (variables)

· Simplification de la description des unités d’observations (objets spatiaux)

Echantillonnage consiste à :

· Sélectionner un certain nombre d’observations

· Sélectionner une période et des moments particuliers (= échelle de temps, date)

Le processus d’acquisition comprend plusieurs étapes :

1. Choix de la source d’information (documents réels ou terrain)

2. Sélection des observations (définition procédure d’échantillonnage)

3. Saisie de l’information (instruments analogiques ou numériques)

4. Conversion (ou traduction) numérique de l’information (si la saisie était analogique)

5. Mise en forme de l’information (selon les dimensions thématique, géom., temps.)

L’introduction se termine sur des rappels de l’information (ch. 2.2), des processus de traitement et du contexte de saisie (graphs).

2. Echantillonnage

Définition : Processus de sélection représentative d’un nombre limité d’observations à partir d’un ensemble vaste, voir infini. (C’est un sous-ensemble : population, choix de la taille)

Pourquoi échantillonner :

1. Impossibilité ou grande difficulté d’obtenir la totalité de la population

2. Minimiser les coûts financiers, humains, de temps nécessaire à la récolte de l’information.

avoir un échantillon représentatif

La démarche est conditionnée par :

· le modèle de la réalité (finalité, richesse, hypothèse, qualité)

· l'info disponible (la source, le type et la qualité)

· la dimension (théma., géom., temporelle)

· les instruments de saisie, d'acquisition (types, contraintes)

La procédure se partage en 2 grandes étapes :

1. Identifier les observations, soit définir la population, la taille de l’échantillon et la méthode d’échantillonnage

2. Saisir les propriétés des phénomènes soit définir la procédure d’acquisition, réaliser un échantillon test (afin d’obtenir la taille optimale et mette à jour les problèmes) et réaliser un échantillon de données satisfaisant.

Méthode (étape 1 de la procédure d’échantillonnage)

Il existe selon le contexte d’acquisition, 4 méthodes :

1. Echantillonnage aléatoire simple : Tirage au sort (hasard) des N observations de l’échantillon. Echantillon idéale (très représentatif), car chaque individus peut être choisis et la sélection d’un individu ne modifie pas la chance des autres.

Avantage : tirage indépendant et aléatoire. L’ordre des observations n’influence pas la qualité. C’est la méthode la plus sûre.

Contraintes : méthodes souvent longue et fastidieuse. La série de nombre ne doit pas sortir de l’intervalle de la liste d’observation. Dure à trouver l’élément de départ.

2. Echantillonnage systématique simple : Sélection par intervalles réguliers des N observations faisant parti de la population. Afin de couvrir de manière homogène l’ensemble de la liste mais cela sans « hasard ». Calcul : I (intervalle) = P (Population)/ N (taille de l’échantillon à constituer). Le hasard provient uniquement du faite qu’on doive choisir le premier élément ensuite on applique l’intervalle.

Avantage : Méthodes simples à réaliser

Contraintes : l’intervalle influence donc beaucoup le choix. Il faut faire attention aux populations sous forme cycliques car on pourrait être poussé à ne choisir qu’une seule représentation. En fait, il faut s’imaginer une fonction sinus avec une période (t) et si notre intervalle ne prend que les valeurs élevé on va se dire par exemple avec le chômage que tous va mal car on croira qu’il est toujours très haut. Alors il faut être capable de reconnaitre la « courbe » et de choisir un intervalle représentant le milieu l’ensemble des éléments.

3. Echantillonnage stratifié aléatoire ou systématique : consiste à faire des sous-groupes à l’intérieur de la population. Dans le cas où l’on souhaite mettre un accent particulier sur une partie de la pop. Cette étape vient avant l’étape de l’échantillonnage. La technique consiste donc à subdiviser la pop en m groupe puis dans chacun des groupes d’appliquer la règle d’échantillonnage aléatoire ou systématique.

Avantage : Permet de pondéré la représentativité de chaque groupe.

Contrainte : Il faut posséder les infos de basent pour ce permettre un regroupement. Et la liste doit rendre compte de l’importance des différentes strates (groupes).

Ex : Sélectionner N étudiant de l’UNIFR en respectant la proportionnalité : de leur appartenance à une faculté, de leur sexe et de leur langue maternelle.

Echantillonnage temporelle : consiste à adapter les méthodes générales d’échantillonnage au cas de la dimension temporelle. Où les observations = les moments (instants) auxquels les mesures ont été effectuées et les variables = les phénomènes mesurés à chacun des moments. Attention : Il faut utiliser des mesures d’intervalle régulier afin d’employer l’échantillonnage simple systématique.

Echantillonnage spatial : Dans un premier temps, il faut adapter les techniques d’échantillonnage à un contexte bidimensionnel (x ;y). Les observations sont soit des entités ponctuelles soit linéaires ou zonales. Pour faciliter l’étude, on prétend souvent que l’objet une entité ponctuelle.

Voir dia 3-25 et 3-26 rappel de la distribution spatiale possible (ch. 2). Une observation c’est une coordonné x, une coordonné y ou plusieurs de chaque pour une ligne ou une zone.

Dans un échantillonnage spatiale nous pouvons aussi appliquer les méthodes systématique en choisissant d’abord un point(x;y) au hasard puis de définir un intervalle. Mais il est aussi possible de stratifié l’espace comme dans la dia 3-30 qui sépare notre zone en 3 groupe représentant 2 strates (forêt et prairie).

3. Instruments d’acquisition (cette partie n'a pas été vue en cours)

Définition : « Instruments et procédures permettant la mesure, la saisie et la numérisation des données »

Ils existent des instruments de mesure :

· p.ex. : observateur, théodolite (lunette d'archi), thermomètre et sonde)

· pour mesurer des éléments de la réalité sous forme physique, chimique ou électrique

Mais aussi des instruments de stockage (enregistrer sur support les données collectées):

· p. ex. : la transcription alphanumérique, graphique, magnétique, optique ou la mémoire solide

Du point de vue géométrique, l’on parle de théodolite et de récepteur GPS, alors que du point de vue thématique et temporelle on peut obtenir les infos à l’aide d’instruments comme les pluviomètres, les anémomètres, les thermomètres radiomètre etc… voir dia 3-35.

Pour les dias 3-36 à 3-42, on nous dit que nous pouvons saisir des données numériques de manière :

· Manuelle (grâce à un clavier) ce qui concerne un nombre d’objet limité, qui permet un choix de la structure et du format libre et qui se fait à l’aide d’un éditeur de texte ou tableur (ex : excel). Pour obtenir finalement des coordonnées et attributs des objets (qui complètent les coordonnées)

· Semi-automatique (avec une table à numériser) ce qui implique de convertir les coordonnées « table » en coordonnées cartographique (géoréférence), et d’utiliser un logiciel de numérisation spécifique. Pour obtenir finalement des coordonnées et identificateurs des objets.

· Automatique (grâce à un scanneur ou une caméra) production d'une image numérique très précise. C’est aussi moins couteux qu’une table.

Questions chapitre 3 :

1. Quels sont les 2 processus de réalisation d’un modèle de la réalité ?

2. Quelles sont les 5 étapes du processus d’acquisition de l’information ?

3. Quels sont les 4 éléments qui conditionnent un échantillonnage ?

4. Quelle est la procédure d’échantillonnage ?

5. Citez 5 méthodes d’échantillonnage.

6. Quels sont les 5 types de distribution spatiale ?

7. Quels sont les 4 procédures de saisie numérique de l’information ?

Réponses chapitre 3 :

1. Simplification (sélect des phénom., variables et unités d’observ.) et échantillonnage (sélect. des obs. et des périodes)

2. Choix des sources et des observations (éch.), saisie de l’info, conversion numérique, mise en forme

3. Modèle défini (qualité, richesse, finalités), info dispo, dimension de l’info, instruments

4. Etape 1 : sélection de l’échantillon (définir la pop, la taille de l’éch et la méthode d’éch)

Etape 2 : extraction des propriétés (définir la procédure d’acquisition, éch test, saisie de l’info)

5. Aléatoire simple, systématique simple, stratifié, temporel et spatial (simple, systématique ou stratifié)

6. Groupé, aléatoire, systématique (traverses, courbes de niveau, régulier)

Manuelle (Clavier), semi-automatique (table à numériser), automatique (scanneur, caméra), BDG existante

Chapitre 4 : Distributions théoriques

Intro

-La démarche d’inférence : passer d’une connaissance spécifique des observations (échantillons) à celle plus générale de la réalité (population)  démarche inverse de l’échantillonnage.

-Echantillonnage : réalité échantillon (production d’information) collecte d’infos

-Inférence : échantillon (particulier) population (général)  généralisation

-But de l’inférence :- généraliser les interprétations faites sur l’échantillon

- mettre en relation le comportement spécifique d’un échantillon avec celui plus générale du phénomène (comparaison)

- mettre en relation le comportement spécifique de 2 ou plusieurs échantillons (comparaison)

-Le modèle de comportement du phénomène est décrit comme une distribution théorique de ses propriétés simplification de la réalité

-La distribution théorique décrit la probabilité d’apparition de chacune des propriétés que peut prendre le phénomène (fonction de probabilité discrète ou continue)

- Si l’échantillon est représentatif de sa population, son comportement devrait correspondre à celui de la population, mais avec une certaine incertitude.

- Une distribution théorique des probabilités décrit, par une fonction discrète ou continue, la probabilité d’apparition des propriétés d’un phénomène. La propriété d’un phénomène peut être le résultat d’une combinaison d’évènements (ex. : 7 peut être obtenu par une combinaison multiple de jets de 2 dés). Une distribution théorique est aussi appelée loi de distribution des probabilités

(loi discrète, propriétés finies / loi continue, propriétés infinies)

- L’objectif de la construction de ces lois de distribution de probabilités produire une référence de comportement d’un phénomène : loi de distribution aléatoire (apparition = hasard), loi de distribution spécifique (modéliser l’apparition spécifique et connue des propriétés d’un phénomène par un modèle)

-Rappel de notions de probabilités : proba. d’apparition d’un événement est le rapport entre le nbre d’apparition de cet évènement divisé par le nbre d’apparitions totales.

Ensemble des évènements : S= {E1, E2}, p(E2)= ½, q = probabilité complémentaire. p(S)= p(E1)+p(E2)=1 . + le nbre d’essais est grand, + on s’approche de la probabilité (fréquence relative)

Combinaisons d’évènements :

Incompatibles : 3 ensembles d’évènements n’ont pas d’éléments communs ex. : roi ou As ou 10 de cœur)

Compatible : 2 ensembles d’évènements ont un élément en commun ex. : roi ou trèfle roi de trèfle

4/36 + 9/36 – 1/36 = 12/36

Indépendants : 2x faces en 2 lancés réalisation du premier évènement n’affecte pas la probabilité de réalisation du second, combinaison de leur probabilité = à leur produit.

Dépendant : tirer 2 billes noires en 2 tirages sans remise (2 noires et 3 blanches : pour 2 billes noires : 2/5 x ¼ la somme des probabilités par embranchement doit être = 1

(Soit X une variable continue avec une distribution de probabilité connue, la probabilité qu’une valeur xi se situe dans l’intervalle AB est définie par le rapport entre la surface de cet intervalle sous la courbe et l’aire totale sous la courbe.)

Discrète, discontinue = nombre limité

Finalité loi binomiale : créer une distribution théorique aléatoire aux mêmes caractéristiques que celles observées sur l’échantillon généraliser et vérifier si la distribution observée est aléatoire ou non

Définition expérimentale de cette loi : ex. : probabilité nombre de face en lançant 3 pièces

à chaque lancé p(face) = ½ et son complémentaire q(face) = p(pile) (indépendants)

Nbre de variables X {0,1,2,3} et nbre de cas possibles = 8

Ck =n ! coefficients binomiaux = Ck = Cn-k

k ! (n-k) !

(0! = 1)

Ex. : on fore 12 puits dans la région. On a 20% de chance de trouver du pétrole. Quelle sont nos probabilités de trouver 3 puits avec du pétrole ?

Paramètres : p = 20%, q = 80%, n = 12, k = 3

Calcul : p(3) = [12/3] x p3xq9 =220x0.008x0.134=0.236

Généralisation : p(k) = [n/k] x pk* x pn-k p(3) = [12/3]*p3*q9

Peu utilisé en Géographie, on préfère la Loi de Poisson qui décrit le comportement du nombre d'évènements se produisant dans un laps de temps fixé, si ces évènements se produisent avec une fréquence moyenne connue et indépendamment du temps écoulé depuis l'évènement précédent.

p(k)= (µk/k !)*e-µ

µ = moyenne d’apparition de l’événement, µ = nbre total de succès / nbre total d’essais

k le nombre succès : k = 0, 1, 2…, n

e = 2.718

Paramètres :

Moyenne de la distribution théorique :

· µ= n*p

Variance de la distribution théorique :

· ơ2= n*p= µ

Ex. : nbre de décès mensuels de moutons résultant d’une maladie rare sur une période de 200 mois.

La distribution mensuelle de ces décès correspond-t-elle à une distribution aléatoire ?

Paramètres : k = 1, 2, 3, 4µ = 122 décès / 200 mois= 0.61

Nb de décès (k)

Nb de mois avec k décès (ek)

Fréquence relative : ek/200

Probabilité théorique (pk)

Effectif théorique

(pk)* 200

2

22

0.11

0.101

22

Similitude presque parfaite entre les effectifs observés et les effectifs théoriques produits par une distribution aléatoire suivant la loi de Poisson.

Distributions aléatoires continues

Pour de nombreux phénomènes, le Nb d’évènements peut être élevé, voire infini. Il s’agit donc de définir la probabilité d’apparition de l’ensemble de ces valeurs.

Démarche : définir des lois de distribution aléatoire permettant de définir la probabilité d’apparition d’un intervalle de valeurs et non pas de chacune des valeurs possibles. La loi de distribution aléatoire continue la plus utilisée est la loi normale de Gauss et sa dérivé (loi normale centrée-réduite)

Loi normale f(x) : f(x) : 1/ơ (racine de 2pie) * e (-1/2*((X-u)/(ơ))^2 (avec u = moyenne, ơ = écart-type, e=2,7182)

Les paramètres sont Mu (Moyenne de la distribution théorique soit l’espérance mathématique = propriété qui a la plus grande chance d’apparaître) et ơ2 (unité de dispersion soit la variance).

Ex 1 Taille : Sous forme graphique (histogramme), on peut comparer des données aléatoires avec la distribution théorique mais on s’aperçoit qu’il faut un nombre très élevé d’observation (dia4-41 ex :500 observations) pour percevoir une certaine normalité. (dia 4-42 tableau de comparaison avec un nombre diff. d’observation) on voit que plus il y d’observation plus on se rapproche de la moyenne théorique et de même avec l’écart-type

Ex 2 Groupement : Pour une distribution de 100 observations en différentes classe (7_11_15) la configuration varie fortement donc cela prouve encore une fois que la normalité représenter au travers d’un histogramme n’est pas une chose à 100% correcte.

A retenir : La loi normale est un modèle simple de distribution aléatoire théorique qui est basé sur 2 paramètres, la moyenne et l’écart-type (variabilité). Le fait que la symétrie de distribution soit autour de la moyenne représente une des caractéristiques majeures. La contrainte est le fait qu’il existe une infinité de combinaison (moyenne_écart-type), pour éviter cela on utilise la loi normale standardisé.

Loi normale centrée réduite - standardisée

Formule : f(x) = (1/(racine de 2pi)*e-1/2(x)^2 (avec u = moyenne = 0, ơ = écart-type =1 et e = 2.7182)

Les paramètres sont Mu = 0 (moyenne) et ơ2 =1(variabilité)

Le but : produire des règles de distribution et une table de distribution des probabilités

Processus : définir des règles, c’est-à-dire des intervalles en utilisant l’écart-type. Ex : la moyenne est à 0, le reste des valeurs vont se trouver principalement dans un intervalle de 1 écart-type, puis une partie plus petite des valeurs vont se trouver dans un intervalle de deux écart-type et cela juskà 3 écart-type. Au-delà on prétend qu’il n’ait plus de valeur.

Une fois le calcul effectué, on peut se référer aux tables de distribution fournie dans tous les manuels de statistiques. (voir tp6 exercice 4)

La standardisation des valeurs s’effectue selon la formule suivante : Zi = (Xi-Xmoy)/Sx. Ceci permettra donc d’appliquer la loi normale standardisée.

La probabilité p(z<-1.38) = 0.084, cette valeur provient de la table des probabilité puis il font fois 100 pour les 100 ans. Mais ça c’est plus de l’ordre du TP que de l’exam (je pense  )

A retenir en plus : Le X étant modifié attention à l’interprétation, il est souhaitable de se limiter à des fonctions simples ! Il est nécessaire que la distribution originelle X soit unimodale pour que cela produise une distribution normale.

Comment vérifier la normalité ?

1. vérification visuel avec par exemple la droite de Henri ou la superposition de la courbe normale sur le diagramme

2. Descripteur statistique, Xmoy et Xméd doivent être très proche ou semblable. Ou encore l’indice skx doit être proche ou égale à 0

3. Test du chi-deux, comparaison du x2 avec la valeur critique pour un risque donnée (dans les questions suivantes, il nous est juste demandé de les citer)

Complément de compréhension

Explication du processus de la loi normale centrée réduite « standardisé »

1. Ne pas confondre F(x) et la probabilité. F(x) correspond au différent point sur la courbe et ne servent à rien dans notre processus pour définir la probabilité. La probabilité correspond à un rapport entre l’intervalle défini et la surface totale sous la courbe.

2. La première chose pour utiliser cette loi, c’est que la fonction résultant de nos observations forme une courbe dite normale. Pour vérifier si elle est normale on a plusieurs moyens. La droite de Henri (ancienne méthode), la superposition de la courbe normale sur un diagramme (peut ne pas être à 100% fiable, car le nombre de classe utiliser dans les histogrammes fait que la précision va varier et tout peut être modifié), ou encore des données statistiques comme le fait que le Xmoy et Xméd doivent être proche ou semblable, ou que l’indice de symétrie skx soit proche ou égale à 0. Finalement il reste le test chi-deux que nous ne connaissons pas encore.

3. Si il s’avère que la courbe ne soit pas normale, il existe la possibilité de la modifier, en utilisant des fonctions (comme logarithme) que l’on peut trouver dans des formulaire d’aide, la courbe pour la rendre normale. !!!lors de l’analyse il ne faudra pas oublier de transformer les valeurs obtenu comme elle devrait être à la base, avant la transformation !!!

4. Mnt on appele la loi normale centrée réduite car

· Centrée correspond au fait que l’on déplace la moyenne vers 0

· Réduite car on rend la fonction plus simple à utilisé et on réduit l’écart-type à la valeur de 1

Formule : f(x) = (1/(racine de 2pi)*e-1/2(x)^2 (avec u = moyenne = 0, ơ = écart-type =1 et e = 2.7182)

5. Lorsque l’on représente la courbe de la loi normale, on indique et utilise générale les valeurs allant de 0 à +-3 écart-type, car de +-1 on a 68% des valeurs qui risque de ce trouver dans l’intervalle, que pour +-2 on a déjà 95,45% et que pour +-3 on a 99,75% soit presque 100%. Ceci veut dire que plus loin, p.ex. à partir de +-4 écart-type, il ne reste que 0.25% à ce distribuer jusqu’à l’infini.

6. Voilà. Mnt si on utilise un exemple pour continuer, il est possible de lire et d’utiliser les intervalles pour définir personnellement le pourcentage de probabilité. Alors si on regarde le schéma suivant :

Il faut savoir que la valeur totale (maximun) = 1 soit 100%. Un autre exemple que sur le schémas : Si on cherche à obtenir l’intervalle après l’écart-type +1 on a alors : 1 (100%) – (tout ce qui se trouve à gauche de x = 1 ) soit 0.841 qui est obtenu à l’aide du tableau de la dia 4-48 ce qui fait : 1-0.841 = 0.159 soit 15.9%. Ceci veut dire qu’on a 15.9% de chance qu’une valeur quelconque se trouve dans un intervalle partant de x = 1 et l’infini.

7. Mnt il est possible d’utiliser des éléments prédéfini en travaillant avec la formule Z = F(x) qui correspond à la normalisation précédemment pratiqué. La formule : Zi = (Xi – Xmoy) / Sx

Où : Xi = toute les valeurs de notre échantillon (on doit alors faire la manipulation pour chaque X), Xmoy correspond à la moyenne de l’échantillon obtenu avec SPSS et Sx = l’écart-type.

8. Avec l’exemple donné, on a N observations = 80 qui correspond à une moyenne de 866.5 mm et un écart-type de 120.71mm. LA formule consiste donc à faire (700-866.5)/120.71 = -1.38. !!! le 700 correspond à une valeur personnel défini afin de répondre à une question du type quel est la probabilité d’année qu’il y ait moins de 700 mm en un an de pluie. !!! La valeur obtenu est une probabilité de -1.38 et si nous utilisons les tableaux de données que nous avons dans divers documents scientifiques, nous pouvons constater que cela correspond à une valeur de 0.084 qui multiplier par 100 pour le nombre d’année totale correspond à 8.4 années.

9. Le deuxième exemple consiste à faire l’inverse. On a 90% qui est la valeur objective. Ceci correspond sur un tableau à la ligne 1.2 et à la colonne 0.08 soit 1.28 et on utilise la formule dans l’autre sens. (1.28 * 120.71) 866,5 = 1021mm. Donc quel est la quantité qui dans 90% des cas n’est pas dépasser, c’est 1021 mm / an

Questions chapitre 4 :

1. Quelle est la démarche de définition d’une distribution théorique aléatoire discrète

2. Quels sont les deux lois de distribution discrète ? Et leurs paramètres ?

3. Quels sont les deux lois de distribution continues ? Et leurs paramètres ?

4. Quelles sont les contraintes d’une normalisation de distribution ?

5. Quels sont les outils de vérification de la normalité ?

Réponses chapitre 4 :

1. 1. Choisir une loi adaptée, 2. Déterminer les paramètres 3. Comparer ou généraliser les distributions

2. Loi bin (Moy (n*p) et var (n*p*q)), Loi de poisson (Moy (Mu) = n*p (seul utile car Var = moy mu) )

3. Loi normale (de Gauss) (moy Mu et Var) et loi normale centrée-réduite (moy=0 et Sig=1)

4. L’unité est modifiée, distrib de base doit être unimodale, se limiter à es fct simples (ou changer d’outil)

5. Graphique (droite de Henri, superposition des courbes) stat (moy ≈ méd, indice de symétrie ≈ 0), Chi-deux

Chapitre 5 : intervalles de confiance et tests statistiques

Intervalle de confiance :mesure de l’incertitude liée à l’estim. de param. d’une population à partir d’indices calculés sur un échantillon

· la vraie valeur du param. se situe à l’int. de cet intervalle (défini sur la base de l’échantillon)

· la taille de l’échant. influence l’amplitude (la « largeur ») de cet intervalle

· la présence de la valeur du param. à l’int. d’un inter. est exprimée en termes de probabilité

· l’évaluation d’un param. de pop. à partir d’un échant. est entachée d’une incertitude

· en calculant cet indice (ex. : moy., é.-type,…) sur un grd nbre d’échant. tirés de la même popu., on constaterait que sa distribution suit un loi normale

· + la taille de l’échan. est grande, + l’estim. du para. est précise (interv. de confiance réduit)

· les échant. sont extraits de la popu. d’une façon aléatoire

· la distribution des valeurs du phénomène, au niveau de la popu., suit une loi normale

· l’incerti. de l’évaluat. du param. peut être déterminée à partir des caractérist. de l’échant. :

· sa taille n

· la dispersion de ses valeurs sx (écart-type)

…résumées par l’erreur standard (SE)

· on admet que la distrib. des val. moy. obtenues pour chacun de ces échant. est définie par :

· on admet donc que la vraie valeur µ du para. à déterminer est dans l’intervalle donné pour une probabilité définie :

· Erreur standard de la moyenne :

· Erreur standard de l’écart-type :

Déterminer la taille de l’échantillon :

· pour évaluer SE, nécessaire de constituer un 1er échantillonnage appelé pré-échantillon

· petite taille

· on suppose que variabilité s est la même que celle de l’échant. final

· ex : pré-éch. sur 21 individus propose : n = 21, moy. = 22.0, Sx = 3.0 et SE = 3/√21 = 0.65

· vraie moy. pour proba de 95% et donc entre 20.73 et 23.27

· on souhaite SEmoy = 0.25 (ou intervalle d’env. 0.5 autour moyenne)

· comme SEmoy = s/√n n = (s/SE)2

· la taille n de l’échant. à produire sera donc : n = (3/0.25)2 = 144 observations

la validité de ce raisonnement repose sur hypothèses relativement sévères :

· normalité de la distrib. de la popu.

· échantillonnage aléatoire

· variabilité de tous les échan. est supposée constante

· moy. et é.-type du pré-échan. et de l’échant. final sont supposés semblables

· SE est aussi définie par d’autres indices

Tests statistiques :

Les 2 échant. proviennent-ils d’une même popu. ?

ou

Les différences d’âge observées proviennent-elles de l’échantillonnag

ou de différences réelles au niveau de la population ?

ou

Les différences sont-elles statistiquement significatives ?

il faut tester ces différences !

Finalité des tests :

· ils vérifient à quoi sont dues les différences :

· à l’échantillonnage elles sont donc statistiquement non significatives

· à l’appartenance à des popu. différentes, statistiquement significatives

distinction entre différences réelles et aléatoires

· permettent de comparer groupes (échantillons) dans les 3D :

· thémat. : des groupes d’obs.

· spati. : des régions, groupes d’objets spatiaux

· temp. : des périodes

· permettent de comparer un échant. à une popu.

· échant. est-il extrait d’une popu. donnée ?

· popu. : définie par paramètres précis

· échant. : défini par indices entachés d’incertitude

4 composantes des tests :

· 1. hypothèses du test (2 hypoth. : soit nulle H0 -> à rejeter, soit hypothèse alternative H1)

· 2. risque d’erreur (choix du risque d’erreur d’accepter la conclusion du test)

· 3. degrés de liberté (influence de la taille de l’échan. sur incertitude de la décision)

· 4. types de tests (paramétriques ou non)

1. hypothèse du test :

· hypot. nulle H0 postule que la différence à tester (entre indices et/ou paramètre) n’est qu’apparente, donc non significative, H0 : différence = 0

· hypot. alternative H1 postule que la diff. à tester (...) est réelle, donc significative,

· hypot. bilatérale : H1 : différence ≠ 0

· hypot. unilatérales : H1 : différence < 0 ou > 0

2. risque d’erreur :

· risque qu’on est d’accord de prendre pour rejeter H0 : accepter que diff. soit non significat.

· choix du risque de rejeter H0 alors qu’elle est vraie

· but : calculer la proba. que H0 soit vraie -> si cette proba. est faible (sous un seuil) -> rejetée

· risque d’erreur α : seuil choisi pour rejeter H0 (proba. H0 vraie < α)

· + α est petit (risque erreur faible), + différence doit être importante pour être jugée signific.

· choix du risque α dépend des conséquences de la décision (ex : météo 5-20% mais sécurité construction d’un bâtiment, risque sera très faible)

· existe un 2ème type erreur que l’on peut commettre dans le cadre des tests :

· celui accepter H0 alors qu’elle n’est pas vraie

· on l’appelle risque d’erreur β mais on ne l’évalue pas car on admet que les 2 hypothèses sont de vraies alternatives

3. degré de liberté :

· + échant. est grand, + évalu. des param. est proche de sa vraie valeur test – sévère

· valeur degré liberté est souvent l’expression de la taille de ou des échant. considéré(s).

· DF = n – par avec n = taille échant. et par = nbre de param. inconnus (général. 1 ou 2)

4. test paramétrique :

test paramétrique :

· font référence à la loi normale

· on garantit que variable, phénom., se situe sur échelle cardinale, continue

test non paramétrique :

· pas exigence sur nature distribution

· cardinal, ordinal et même normal

Utilisation des tests statistiques :

1. poser problème (ex. : pleut-il + là que ici ?)

2. formuler hypothèse scientifique (ex. : il pleut en moy. + là que ici)

3. choisir info pertinente dans le 3D (ex. : thé. : précip. annu., spa. : sites, temp. : 30 ans)

4. saisir et stocker info (ex. : variable cardinale)

5. explorer données (ex. : choisir indicat. pertinents (moy., variance))

6. choisir test pertinent (ex. : test param. de comparaison des moyennes (t de Student))

7. appliquer le test (ex. : non rejet H0 : moy. pas différentes / rejet H0 : moy différentes)

8. poursuivre analyse en fct résultats test

Tests paramétriques

· variable cardinale et distrib. normale (μ et σ2), un ou plusieurs échant. avec une popul.

· comparaison de 2 variances (test F de Fischer) et de 2 moyennes (test t de Student)

nb : si plusieurs échant. analyse de variance (test F de Fischer)

· Tous les échantillons appartiennent-ils à la même population ? Les variations du phénomène à l’intérieur de chacun des échantillons sont-elles différentes des variations entre échantillons ?

· si diff. pas significative  tous ces échantill. peuvent provenir de la même population

· si diff. significative au - 1 de ces échant. ne provient pas de la même pop. il faut ensuite comparer les échant. 2 à 2 pour avoir une comparaison + détaillée

cette démarche est appelée « Analyse de variances », réalisée à l’aide du test F, mais plus pour comparer 2 variances mais 2 ou plusieurs échantillons

· Analyse de variance :

· H0 : différences de variabilités pas significatives / H1 : elles le sont

· les k échantil. sont distribués normalement et la pop. parente est supposée normale

· stat. F : Fobs = (+ grande variance) / (+ petite variance)

· on utilise 2 variances (on compare la variabilité) :

une à l’intérieur de l’échantillon (sw2), une entre les échantillons (sB2)

degré de liberté pour sw2 : DFintra : N-k, pour sB2 : DFinter : k-1

· rejeter H0 pour un risque d’erreur α choisi si Fobs > Fcritα

· plus les échant. sont grands, plus ils se rapprochent de la « réalité »

Tests non paramétriques (on devrait les préférer aux autres car ils sont + flexibles) :

· comparaison de distributions : une observée et une théorique (nominal, ordinal)

· comparaison de 2 échantil. : leur fréquence (nomi. ou ordi.), leur tendance centrale (ordin.)

· comparaison de plusi. échant. : leur fréqu. (nom. ou ord.), leurs rangs relatifs (ordinal)

· Tests :

· nominal : test du Chi-deux (ou Chi-carré) et test de Kolmogorov-Smirnov

· ordinal : teste U de Mann-Whitney et test de Kruskal-Wallis

- réduction de niveau si la variable originelle est cardinale

· comparaison de plusi. échant. (>2) : test de Krus.-Wal. et test du Chi-deux

((Chi-deux))

(obs)

(ici, k est pas le nbre d’échantillons mais le nbre de classes)

· regardez les exemples dans les dia...

· regardez les exemples dans les dia...

Questions chapitre 5 :

1. Qu’est-ce qu’un intervalle de confiance ?

2. Quelles sont les hypothèses d’utilisation d’un intervalle de confiance ?

3. Quels sont les deux types d’erreur standard ? Comment déterminer la taille de l’échantillon à produire ?

4. Quel est le but d’un test statistique ?

5. Quelles sont les 4 composantes d’un test statistique ?

6. Quelles sont les 8 étapes de la démarche d’utilisation des tests statistiques

7. Quel est le contexte d’utilisation des tests paramétriques ?

8. Quel est le contexte d’utilisation des tests non-paramétriques ?

9. Décrivez comment procéder si on a des données X et que l’on utilise telle loi Y. L’erreur est-elle significat. ?

Réponses chapitre 5 :

1. Mesure de l’incertitude liée à l’estim de param d’une pop à partir des indices calculés sur un éch

2. Éch aléatoires, loi normale, variabilité constante, moy ≈ écart-type,

L’incertitude est déterminée par l’erreur standard (la taille de l’éch et écart-type)

3. Sur la moy (S / Sqrt(n)) ou sur l’écart type (S / Sqrt(2n)) taille : Pré-échantillon => ES souhaité => on isole n

4. Vérifier si les diff sont réelles (significatives) ou aléatoires (non sign), comparer des éch ou ech/pop

5. Hypothèse (H0 à rejeter et H1), risque d’erreur, degré de lib, type de test

6. 1. Poser le problème, 2. hypothèse, 3. choix de l’info pertinente, 4. stocker l’info, 5. explorer les données (choix des indicateurs), 6. choix d’un test pertinent, 7. appliquer le test, 8. poursuivre l’analyse

7. Distrib norm (seul 2 param), var card, comp : éch-pop / éch-éch, variance (F de Fisher), moy (t de Student)

8. Distrib et variable quelconque, comparaison : éch-pop / éch-éch, Nom (Chi2, Kolmogorov-Smirnov), Ord (U de Mann-Witney, Kruskal-Wallis), plusieurs éch (Kruskal-Wallis, Chi2 (effectif obs ≠ 0 et théoriques))

9. Cf. Exemples du chapitre 5 pour savoir comment procéder

Contexte de saisie numérique :

1. Information à collecter

2. Information disponible

3. Terrain

4. Documents analogiques

5. Fichiers numériques

6. Acquisition (Instr de mes)

7. Observations, mesures

8. Lecture (Instr de lecture)

9. Numérisation (Instr de num)

10. Lecture (Instr de lecture)

11. Info numérique (3 dim)

Relation contenu / opérateur

1. Identification, différenciation

2. Ident, hiérarchisation sans quantification des rapports

3. Ident, hiérarchisation, mais en fct de la quantification

4. = ≠ (qques opér logiques)

5. = ≠ < > (opérations logiques)

6. < > = ≠ + - * / (logiq + arithm)

7. Mode, amplitude, comptage

8. Médiane, quantile

9. Moy, variance, corrélation, …

10. Valeurs discrètes

11. Valeurs discrètes et continues

Page 21