22
APPROCHE CHIMIOMETRIQUE DES RESULTATS D’UNE ANALYSE CHIMIQUE Christian J. Ducauze et Arlette Baillet-Guffroy

APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

APPROCHE CHIMIOMETRIQUE DES RESULTATS D’UNE ANALYSE CHIMIQUE

Christian J. Ducauze et Arlette Baillet-Guffroy

Page 2: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

1

APPROCHE CHIMIOMETRIQUE DES RESULTATS D’UNE ANALYSE CHIMIQUE

-Résumé-

1- Introduction : définition d’une analyse chimique - L’analyse chimique peut se définir comme une suite d’opérations élémentaires statistiquement indépendantes les unes des autres 2- Obtenir une donnée analytique : démarche habituelle des analystes - Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution de valeurs expérimentales (résultats des n répétitions d’une analyse) : moyenne et estimation de l’écart-type - Une loi de probabilité théorique : la loi Normale. Notions de mode (= valeur probable = espérance mathématique de la variable X), de variance, de risque de première espèce - Expression classique du résultat (donnée analytique) : moyenne et intervalle de confiance estimé de la moyenne - Elimination des « aberrants » 3- Réflexion sur la démarche des analystes - La démarche probabiliste habituelle : ajustement des résultats d’analyse obtenus expérimentalement à une loi Normale (par suppression des valeurs extrêmes ou par transformation de la variable) - Une démarche non probabiliste : la donnée analytique est fournie par la médiane de la distribution des résultats expérimentaux 4- Etude d’un exemple - Présentation de l’étude : estimation de la concentration en plomb dans du foie de bœuf à partir de 20 analyses statistiquement indépendantes les unes des autres - Ajustement à la loi Normale (tests d’ajustement) par suppression des valeurs extrêmes (les « aberrants ») ou par transformation de la variable - Comparaison des données analytiques produites à la suite d’une démarche probabiliste à celles que fournit une démarche non probabiliste 5- Conclusions et discussion - Pertinence de la démarche probabiliste : application du Théorème Central Limite - La médiane est préférable à la moyenne pour exprimer le résultat de l’analyse, c’est-à-dire la donnée analytique attendue - La moyenne est utile pour repérer les valeurs « aberrantes » qui ont été obtenues

Page 3: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

2

APPROCHE CHIMIOMETRIQUE DES RESULTATS D’UNE ANALYSE CHIMIQUE

1 – Introduction : définition d’une analyse chimiqu e

Cette approche chimiométrique est une réflexion sur la façon dont peuvent s’appliquer quelques notions statistiques simples et bien connues à un ensemble de résultats d’analyses chimiques. Il est donc nécessaire d’avoir compris ce qu’est une analyse chimique : on peut la définir comme une suite d’opérations élémentaires, indépendantes les unes des autres – au sens statistique de ce terme –, qui commencent au moment du prélèvement l’échantillon analytique (prise d’essai) et aboutissent à un résultat, exprimé le plus souvent sous forme d’une concentration. Quelques précisions sont utiles pour éclairer cette définition :

1. Chaque « opération élémentaire » correspond à une action particulière de l’expérimentateur, par exemple « effectuer une pesée », « prélever un volume connu de réactif », « porter à une température déterminée » ou encore « lire le résultat d’une mesure », etc.

2. « Indépendance statistique » veut dire que l’erreur expérimentale associée à chaque opération élémentaire est sans influence sur les autres ; par exemple, l’erreur de lecture sur un appareil de mesure ne dépend pas de l’erreur de pesée et inversement.

3. On a pris l’habitude de regrouper les différentes opérations élémentaires en quelques étapes principales, qui sont présentées sur la figure 1.

Le but est de mieux faire comprendre ici la démarche suivie pour élaborer une donnée chimique – c’est « le » résultat attendu – à partir des résultats d’analyse qui ont été obtenus. On va tout d’abord décrire la démarche habituelle de l’analyste pour essayer ensuite, à l’aide d’un exemple, de mieux comprendre son fondement et juger de sa pertinence. On supposera que la méthode d’analyse choisie a été préalablement validée, qu’il s’agit par exemple d’une méthode de référence. Autrement dit, on fait l’hypothèse que cette méthode est sensée fournir une valeur juste, c’est-à-dire acceptée comme telle par les différents interlocuteurs que concerne cette analyse.

Page 4: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

3

Figure 1 : Principales étapes d’une analyse chimique

2 - Obtenir une donnée analytique : démarche habitu elle des analystes

En appliquant la méthode d’analyse choisie à l’échantillon analytique, on obtient un premier résultat x – en général la concentration de l’analyte (élément, ion ou molécule) dans l’échantillon – qu’on pourrait considérer a priori comme la valeur recherchée. Mais l’expérimentateur averti a aussitôt un doute car il sait qu’en répétant la même analyse sur le même échantillon, il a peu de chances de retrouver exactement le même résultat ; il a conscience du fait que le résultat obtenu contient une part d’erreur et que cette erreur ne sera pas identique d’une analyse à l’autre ; il lui est en effet difficile de reproduire chaque fois, de façon identique, toutes les opérations élémentaires de l’analyse. De fait, il faut considérer que le résultat obtenu contient certes la valeur recherchée Τ mais aussi une erreur – appelée « aléa expérimental » et désignée par e – qui résulte de l’erreur expérimentale attachée à chaque opération élémentaire de l’analyse. On pose ainsi implicitement que le résultat xi obtenu à la suite d’une analyse (i) est :

xi = T + ei (1)

Prélèvement de

l’échantillon analytique

Traitement de l’échantillon

Conversion du signal analytique

Conservation

Etalonnage Mesure

Résultat d’analyse

?

A interpréter et à valider pour pouvoir disposer d’une donnée analytique

Page 5: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

4

ei étant une variable aléatoire et T, la Teneur ou valeur vraie (« True value »), qui est une constante pour l’échantillon considéré. Il y a donc lieu de considérer que xi est une variable aléatoire, puisque c’est la somme de la variable aléatoire ei et de la constante T. Comme ei, xi peut théoriquement prendre une infinité de valeurs ; en d’autres termes, entre deux valeurs parfaitement déterminées de xi, une infinité de valeurs sont possibles et, si ce n’est pas le cas en pratique, c’est parce que les appareils de mesure utilisés pour l’analyse fournissent des valeurs arrondies, que le statisticien nommerait « valeurs discrètes ». Cependant, d’un point de vue théorique, nous sommes bien amenés à admettre que, xi pouvant prendre une infinité de valeurs, le modèle (1) conduit à définir le résultat d’une analyse comme une variable aléatoire continue. Le statisticien dira qu’il associe au résultat d’une analyse la variable aléatoire continue X qui peut prendre une infinité de valeurs xi. Son réflexe sera alors de rechercher la loi de distribution de X, autrement dit d’essayer de comprendre comment sont statistiquement distribuées les valeurs xi de X. L’analyste a le même réflexe : en répétant plusieurs fois son analyse, il va chercher à se faire une opinion sur la dispersion des résultats xi et à tirer une conclusion qu’il exprimera en fournissant la donnée analytique. L’analyse va donc être répétée n fois, n étant d’autant plus grand que la dispersion attendue des xi est plus forte. La suite est connue : partant des n valeurs xi obtenues, on va calculer une moyennex et une estimation de l’écart-type s, soit :

n

xx

n

ii∑

== 1 (2)

1

)(1

2

−=∑

=

n

xxs

n

ii

(3)

Il faut s’arrêter un instant sur cette expression de s. Il s’agit, en effet, d’une estimation de l’écart-type et non de l’écart-type σ, tel que le définit le statisticien. En effet, lorsque le statisticien étudie la loi de distribution d’une variable aléatoire X, il définit tout d’abordx, qui est la moyenne arithmétique d’un échantillon de n valeurs xi de la variable X, pour considérer que lorsque n augmente indéfiniment, x tend vers une valeur limite µ, appelée moyenne de la

population, soit :

n

xx

n

ii

nn

∑==µ =

∞→∞→1limlim (4)

On dit aussi que µ est la valeur probable de X ou encore l’espérance mathématique de X, désignée par E(X), ou enfin le mode de la distribution.

Page 6: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

5

Pour caractériser la dispersion des xi, le statisticien introduit un autre paramètre statistique, la variance σ2 qui représente la moyenne de la population des valeurs (xi − µ)2, soit :

n

xn

ii

n

∑=

∞→

µ−=σ 1

2

2

)(lim (5)

La racine carrée σ de la variance est appelée écart-type :

2

1

( )lim

n

ii

n

x

n

µσ

−=

→∞=

∑ (6)

Cette grandeur s’exprime donc dans la même unité que x. On voit immédiatement la différence, d’une part, entre les expressions (2) et (4), d’autre part entre les expressions (3) et (6) : les expressions (4) et (6) sont définies pour la variable X qui prend une infinité de valeurs, dans le cadre d’une loi de probabilité théorique ; par contre, dans les expressions (2) et (3), on ne considère qu’un échantillon de la population renfermant un nombre fini de n valeurs de la variable X ; on n’a alors réalisé qu’un petit nombre d’analyses (la plupart du temps, n = 3 ou 5, parfois 10), à partir desquelles on estime, à travers la moyenne calculéex

(2), le mode µ de la distribution, ce qui fait perdre un degré de liberté – car les valeurs xi sont liées par (2) – et l’on en tient compte dans (3) où la somme des carrés des écarts à la moyenne est divisée par (n – 1) au lieu de n. Il s’agit bien là, comme il a été précisé au départ, d’une estimation de l’écart-type. Comme σ, s s’exprime dans la même unité que x : si x s’exprime dans une unité de concentration, il en est de même de s qu’on va utiliser pour donner l’intervalle de confiance de la teneur recherchée :

n

stxT

n

stx να−να− +≤≤− ,2/1,2/1 (7)

Dans cette expression, qui résulte de la loi de distribution de la moyenne de n valeurs xi, t1-α/2,ν

représente le critérium de Student (t – Student) que l’on peut lire dans les tables pour la probabilité choisie P = 1 - α et le nombre de degrés de liberté ν qui est ici, comme vu précédemment, ν = n – 1. En admettant par exemple qu’une même analyse a été répétée 5 fois sur le même échantillon et que l’on choisisse de donner un intervalle de confiance à un niveau de probabilité de 95 % (P = 0.95), on va rechercher dans la table de Student la valeur de t pour cette probabilité et un nombre de degrés de liberté égal à 4. On trouvera dans ce cas : t1−α/2,ν = t0.975,4 = 2,776 Les limites de l’intervalle de confiance s’expriment en effet en fonction de t1− α/2,ν et, si le niveau de probabilité choisi est P = 0,95, le risque d’erreur α = 1 – P = 0,05 est partagé en deux risques égaux α/2 = 0,025, la loi de probabilité étant ici symétrique. Cet intervalle de confiance estimé de la moyenne (7) représente l’intervalle dans lequel on affirme que doit se trouver la teneur T recherchée, en prenant le risque α (ici, α = 5%) de rejeter à tort pour T toute valeur se trouvant en dehors de l’intervalle. C’est la façon correcte d’exprimer le résultat attendu et, dès lors, on comprend qu’il faut absolument éviter d’exprimer ce résultat – comme c’est hélas ! bien trop souvent le cas – sous la formex ± σ

qui introduit la confusion, et ce pour plusieurs raisons : x ± σ n’a pas de sens pour un

Page 7: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

6

échantillon fini ; par contre, lorsqu’on étudie la distribution d’une population, c’est-à-dire un nombre infini de valeurs, dans le cadre d’une loi de probabilité théorique, 68 % environ des valeurs de la variable aléatoire X sont comprises dans cet intervalle si X suit la loi Normale. Dans ce cadre, on pourrait également affirmer qu’environ 95 %, des valeurs vont se trouver comprises dans l’intervallex ±1,96σ. Mais en pratique, à la suite d’une série d’analyses, on ne dispose que d’un échantillon fini, c’est-à-dire d’un nombre fini de valeurs, et l’on ne peut alors accéder qu’à une estimation de l’écart-type tirée de ces valeurs. On en tient compte en utilisant le critérium t de Student qui, si notre échantillon comporte 5 valeurs (5 résultats d’analyse), vaut 2,78 au lieu de 1,96. Student a en effet introduit des coefficients qui permettent d'estimer l'écart-type de sécurité à partir d'un échantillon limité, sachant que la moyenne calculée sur cet échantillon se distribue selon la loi Student. On trouve aussi parfois, dans la littérature, un intervalle de confiance exprimé sous la forme :

stxstx να−να− +≤≤− ,2/1,2/1 (8)

Que représente cet intervalle ? On peut affirmer que, partant de l’échantillon étudié, on a une probabilité P = 1 - α de trouver toute nouvelle valeur de la variable X dans cet intervalle. Autrement dit, si l’analyse a été répétée 5 fois, partant des 5 résultats d’analyse obtenus, on peut calculerx et s ; si l’on choisit alors une probabilité de 95 %, soit t1 − α/2,ν = t0.975,4 = 2,78 , tout nouveau résultat d’analyse doit se trouver pour cette probabilité dans l’intervalle : x − 2,78 s ≤ ≤ x + 2,78 s

Cet intervalle intéresse parfois l’expérimentateur, s’il décide par exemple de s’assurer de la qualité de sa méthode d’analyse en effectuant périodiquement une seule analyse sur un échantillon dont il connaît la teneur moyennex. On utilisera dons cet intervalle pour construire une carte de contrôle (voir le chapitre : « Validation une méthode d’analyse »). Mais lorsqu’il s’agit d’exprimer la donnée recherchée, c’est l’intervalle de confiance estimé de la moyenne qui doit être retenu. La dernière partie de la démarche aura pour but d’essayer de réduire cet intervalle. Or, lorsqu’on a choisi le nombre de répétitions n et le risque de première espèce α, c’est uniquement en diminuant s, c’est-à-dire en fait la somme des carrés des écarts des xi à la moyenne x, qu’il sera possible d’avoir un intervalle plus petit.

On va donc rechercher si dans )(1

xxn

ii −∑

=

certains termes ne seraient pas trop élevés, et si

donc certaines valeurs xi ne seraient pas trop éloignées dex. Pour les repérer, différents tests statistiques sont utiles qui, en fait, indiquent que la probabilité était faible d’obtenir telle ou telle valeur très éloignée de la moyenne ; on s’empresse alors trop souvent de la rejeter en la qualifiant de « donnée aberrante », le test statistique – quel qu’il soit et même s’il est un excellent outil – ayant ce défaut majeur de donner bonne conscience à celui qui l’emploie : l’analyste laisse en effet le test décider à sa place comme gage de son impartialité, sans s’interroger davantage sur la signification de ce test ou sur les raisons qui l’ont conduit à trouver ces fameuses données aberrantes. De plus, en éliminant des valeurs qu’on a pourtant trouvées, on perd une partie de l’information collectée, en n’en tenant par compte dans l’expression finale de la donnée, dans la donnée analytique qu'on produit. Ces quelques

Page 8: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

7

réflexions poussent à essayer de mieux comprendre la démarche qu’on vient de décrire, telle qu’elle est résumée sur la figure 2, pour juger de sa pertinence.

Figure 2 : Démarche classique de validation des résultats d’une analyse

3 - Réflexion sur la démarche des analystes

La démarche précédemment décrite est une démarche probabiliste résumée sur la figure 3. Figure 3 Partant du modèle posé (1), la démarche probabiliste consiste à rechercher la valeur probable µ de la variable aléatoire continue X, à partir de l’échantillon des n valeurs xi de X dont on dispose. Pour exprimer simplement la même chose, on va dire qu’ayant répété n fois l’analyse, on essaie de trouver, à partir des n résultats d’analyse xi, la valeur T (la plus) probable, substituant ainsi à T le mode de la distribution. Dans le cadre de cette démarche, on substitue ainsi au modèle (1) un nouveau modèle :

xi = µ + ei (1a)

Puis on a exprimé ce mode comme la moyenne arithmétique (2) des n valeurs xi, en acceptant a priori que mode et moyenne peuvent être confondus, ce qui est vrai dans le cas de la loi Normale, mais pas dans tous les cas. De fait, cette acceptation, comme toute la suite du raisonnement, s’est appuyée sur une hypothèse implicite : la distribution des valeurs xi que peut prendre la variable X peut être décrite au moyen d’une loi de probabilité théorique qui est la loi Normale (A-1, A-2 et A-3). Est-ce vrai ? Or nous n’avons pas cherché à vérifier cette hypothèse sur laquelle on peut pourtant émettre de sérieux doutes. En effet, l’analyste confirmé sait fort bien que s’il répète la même analyse un nombre suffisant de fois, il a peu de chances d’échapper à ces valeurs extrêmes, éloignées de la moyenne et habituellement qualifiées de « valeurs aberrantes ». Or les tests statistiques

n résultats

Moyenne

Écart-type estimé

Intervalle de confiance estimé de la moyenne

Élimination des « aberrants »

Nouvelle moyenne et nouvel intervalle de

confiance estimé Donnée analytique

Page 9: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

8

(A-4) sur lesquels il s’appuie pour éliminer ces dernières sont en réalité fondés sur le fait qu’une valeur sera éliminée comme ayant une faible probabilité d’appartenir à la distribution si, après l’avoir éliminée, la distribution des valeurs conservées s’approche davantage de la loi Normale. Cela veut bien dire qu’ayant fait, au départ, l’hypothèse que la distribution des valeurs xi peut être décrite au moyen de la loi Normale, on cherche à s’y ramener coûte que coûte pour pouvoir substituer au mode la moyenne, comme expression de la donnée analytique.

x i = T + e i

Démarche probabiliste

{ } i x Médiane x T = = ~ x i = µ + e i

i i e x x + = n

x x T

n

i i ∑

= = = 1 Est-ce une loi Normale ?

non

oui

Démarche non probabiliste

Ajustement à la loi Normale

Par suppression des valeurs extrêmes Par transformation de la variable

oui

Figure 3 : Démarches possibles pour exprimer une donnée analytique

4 - Étude d’un exemple

Dans une de nos anciennes publications [1], nous avons eu l’occasion de tester la validité de cette hypothèse, en effectuant 20 répétitions d’une analyse de plomb sur 20 prélèvements indépendants provenant d’un même échantillon de foie de bœuf lyophilisé ; une vingtaine de répétitions représentent en effet un minimum si l’on veut pouvoir tester l’ajustement d’une distribution à la loi Normale.

1 Ducauze C., Feinberg M., Exprimer le résultat d’une analyse : une approche statistique et informatique, 1984,

Analusis, 1, 26-31

Page 10: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

9

Tableau 1 : Analyse du plomb : résultats obtenus

Numéro X 1 1,165 2 1,135 3 2,185 4 1,167 5 1,135 6 1,945 7 1,180 8 1,105 9 0,975 10 1,200 11 1,040 12 1,095 13 1,210 14 0,965 15 1,210 16 1,232 17 1,362 18 1,232 19 1,300 20 1,242

Partant de ces 20 résultats obtenus après 20 analyses indépendantes (Tableau 1), on peut se faire une première idée de leur distribution en calculant quelques paramètres statistiques simples, présentés dans le tableau 2 : on va calculer la moyenne, l’estimation de la variance et de l’écart-type, puis l’estimation des moments centrés d’ordre p de la distribution (avec p = 2, 3, 4), un moment centré d’ordre p étant défini par la relation :

n

xm

n

i

pi

np

∑=

∞→

µ−= 1

)(

lim (9)

La même relation peut être utilisée pour calculer l’estimation du moment centré d’ordre p, lorsque n est assez grand. L’estimation des moments d’ordre 2, 3 et 4 permet de calculer ensuite les coefficients d’excentricité et d’aplatissement de Fisher, soit respectivement g1 et g2, qui renseignent sur l’ajustement de la distribution à la loi Normale. On considère qu’il y a ajustement si g1 = 0 et g2 = 0

Page 11: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

10

Tableau 2 : Étude de la distribution des valeurs expérimentales (20 répétitions d’une analyse de plomb sur un même échantillon de foie de bœuf lyophilisé)

Paramètre statistique Définition Résultat obtenu

Moyenne x

x

n

ii

n

= =∑

1 1.254

Estimation de la variance s

x x

ni2

2

1=∑ −( )

( - ) 0.088

Estimation de l’écart-type 2ss = 0.296

Estimation du moment d’ordre 2

mx x

n

ii

n

2

2

1=−

=∑ ( )

0.083

Estimation du moment d’ordre 3

n

xxm

n

ii∑

=

−= 1

3

3

)(

0.053

Estimation du moment d’ordre 4

m

x x

n

ii

n

4

4

1=−

=∑ ( )

0.050

Coefficient d’excentricité de Fisher 2 3

2

3

2

3

1

2

2

1

3

1

)(

)(

m

m

xx

xxn

gn

ii

n

ii

=

−=

=

= 2.053

Coefficient d’aplatissement de Fisher 33

)(

)(

22

42

1

2

1

4

2 −=−

∑ −

∑ −=

=

=

m

m

xx

xxng

n

ii

n

ii

3.449

Il apparaît immédiatement, en considérant les valeurs de g1 et de g2, que la distribution des 20 répétitions ne s’ajuste pas à la loi Normale : il doit y avoir un certain nombre de valeurs extrêmes (g2 > 0), vraisemblablement supérieures à la moyenne (g1 > 0) ; on sait en effet qu’une distribution peut être représentée par une courbe dont la Figure 4 donne l’allure, suivant que g1 et g2 sont positifs ou négatifs.

Page 12: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

11

g2 < 0 g2 = 0 g2 > 0

g1 < 0 g1 = 0 g1 > 0

Figure 4 : Allure des courbes de distribution suivant les valeurs des coefficients d’excentricité (g1) et d’aplatissement (g2) de Fischer.

Si g1 = 0 et g2 = 0, on a la courbe de Gauss (loi Normale)

L’hypothèse de départ : « la distribution des valeurs obtenues s’ajuste à la loi Normale » doit donc être rejetée à ce stade. On va procéder à un ajustement, c’est-à-dire rechercher à partir de la distribution initiale une nouvelle distribution qui suit la loi Normale. La façon de procéder la plus courante est de mettre en évidence les données gênantes puis de les supprimer. Pour ce faire, on va chercher à repérer les données qui font que la distribution des 20 valeurs obtenues ne suit pas la loi Normale : on applique alors un test d’ajustement. Le test d’ajustement le plus connu est celui du χ2. Mais pour être efficace il requiert un grand nombre de mesures (plusieurs dizaines). Lorsque le nombre de données est plus petit, on peut employer une méthode graphique, celle de la droite de Henry. Pour construire ce graphique on procède comme suit (voir tableau 3) :

• Trier les données par ordre croissant ; calculer la moyennex et l’estimation de l’écart-type s

• Pour chaque valeur expérimentale xi, calculer la valeur centrée réduite : s

xxz i

i

−=

qui lui est associée • Pour chaque donnée, définir un intervalle de probabilité théorique, calculé à l’aide de

la formule suivante où i désigne le rang de la donnée après le tri :

25,0

375,0

+−=

n

iPi

• Pour chaque intervalle de probabilité théorique Pi, lire dans la table de la fonction de

répartition de la loi Normale la valeur centrée réduite théorique ui qui lui est associée. • Porter sur le même graphique ui et zi en fonction de xi.

Page 13: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

12

Tableau 3 : Analyse du plomb dans un foie de bœuf (µg/kg). Calcul de la droite de Henry

Rang x z calculée P théorique u théorique

1 0,965 -0,974 3,1% -1,868

2 0,975 -0,941 8,0% -1,403

3 1,040 -0,722 13,0% -1,128

4 1,095 -0,536 17,9% -0,919

5 1,105 -0,502 22,8% -0,744

6 1,135 -0,401 27,8% -0,589

7 1,135 -0,401 32,7% -0,448

8 1,165 -0,300 37,7% -0,315

9 1,167 -0,293 42,6% -0,187

10 1,180 -0,250 47,5% -0,062

11 1,200 -0,182 52,5% 0,062

12 1,210 -0,149 57,4% 0,187

13 1,210 -0,149 62,3% 0,315

14 1,232 -0,074 67,3% 0,448

15 1,232 -0,074 72,2% 0,589

16 1,242 -0,041 77,2% 0,744

17 1,300 0,155 82,1% 0,919

18 1,362 0,364 87,0% 1,128

19 1,945 2,329 92,0% 1,403

20 2,186 3,142 96,9% 1,868

Moyenne 1,254

Ecart-type 0,297

Effectif 20

Page 14: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

13

Les couples de points (xi,, zi ) forment une droite (Figure 5). Par contre, les couples (xi,, zi ) sont plus ou moins bien alignés en fonction de l’écart de la distribution réelle par rapport à la distribution théorique de la loi Normale. Par ce moyen il est possible de repérer le ou les points qui déforment le graphique et qu’on peut suspecter d’être aberrants.

-3.0

-2.0

-1.0

0.0

1.0

2.0

3.0

4.0

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4

x

z

z calculée u théorique

1.945

2.186

Figure 5 : Droite de Henry avec toutes les mesures

On voit, comme prévu lors de l’examen des coefficients de Fisher, que ce sont bien les 2 valeurs les plus élevées qu’il faut supprimer ; après quoi, il y a ajustement des 18 valeurs restantes (Figure 6), à partir desquelles on est en mesure de calculer une moyenne qui, pour cette nouvelle distribution représente le mode, c’est-à-dire la valeur la plus probable. Mais cette façon classique de procéder présente, comme on l’a déjà signalé, un inconvénient majeur : 10 % de l’information a été perdue qui, bien que gênante au moment de l’interprétation, fait pourtant partie de l’expérimentation. Il existe un moyen de contourner cette difficulté en empruntant une autre voie que celle de l’élimination des valeurs aberrantes : on va procéder à une transformation de la variable X en une nouvelle variable U de loi Normale. Cette transformation est la suivante :

==

≠−=

0)()(

01

)(

LsiXLnLU

LsiL

XLU

L

(10)

Page 15: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

14

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

0.9 1.0 1.1 1.2 1.3 1.4

x

z

Figure 6 : Droite de Henry après suppression des 2 valeurs les plus élevées

Il est en effet toujours possible, quelle que soit la loi de distribution des résultats xi, de trouver une valeur de L telle que l’ensemble des valeurs transformées ui s’ajustent à une loi de distribution normale. On va donc essayer, de façon itérative, différentes valeurs de L et tester pour chacune d’elles la normalité de la distribution des valeurs transformées : pour l’exemple traité ici, on trouve que pour des valeurs de L comprises entre - 4.0 et - 3.0, les nouvelles distributions obtenues suivent pratiquement la loi Normale ; il suffira de transformer tous les xi en ui en prenant L = - 4.0 ou - 3.0, de calculer la moyenneu des ui (qui peut alors être confondue avec le mode de la distribution) et d’appliquer enfin la transformation inverse pour obtenirx. Si cette dernière façon de procéder – tout à fait correcte du point de vue du statisticien – permet de conserver la totalité de l’information recueillie dans la donnée qu’on exprime, l’analyste quant à lui reste perplexe, étant dans l’incapacité de trouver dans son expérimentation une justification à cette transformation. Certes la donnée obtenue par cette méthode est très proche, dans l’exemple traité ici, de celle obtenue après suppression des valeurs extrêmes. Mais l’analyste préférera continuer à supprimer des valeurs aberrantes car il pressent intuitivement que ces valeurs extrêmes ont un sens, qu’elles doivent provenir d’un défaut dans sa façon d’appliquer la méthode d’analyse choisie. Lorsqu’on choisit cette démarche probabiliste, il n’y a donc pas de solution idéale.

Page 16: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

15

5 - Conclusions et Discussion : pertinence de la dé marche probabiliste. Une autre démarche est-elle possible ?

Cette réflexion approfondie sur la démarche probabiliste a mis en évidence que le principal écueil était celui des valeurs aberrantes. En toute logique, on peut donc se demander, s’il ne serait pas possible d’emprunter une autre voie, en choisissant plutôt une démarche non probabiliste, en préférant par exemple la médiane x~ à la moyennex pour exprimer une donnée. En effet, utiliser la médiane ne présuppose rien sur la loi de distribution : on se contente de classer les valeurs obtenues – dans un ordre (rang) croissant ou décroissant – et d’exprimer la donnée au moyen d’une valeur qui laisse autant de résultats à gauche qu’à droite. De plus, la médiane est un paramètre statistique robuste, ce qui veut dire peu sensible aux valeurs extrêmes. Admettons, par exemple, que la répétition d’une même analyse ait donné :

1 µg.L1, 2 µg.L-1, 3 µg.L-1, 4 µg.L-1 et 5 µg.L-1

La moyenne est 3 µg.L-1 et la médiane 3 µg.L-1. Dans ce cas, on est bien embarrassé pour éliminer une « valeur aberrante ». On décide alors de recommencer l’analyse une nouvelle fois et l’on trouve 21 µg.L-1. La nouvelle série de résultats est :

1 µg.L-1, 2 µgL-1, 3 µg.L-1, 4 µg.L-1, 5 µgL-1 et 21 µg.L-1

La moyenne devient alors 6 µg.L-1 et la médiane 3,5 µg.L-1. On constate que le nouveau résultat (21 µg.L-1) a multiplié par 2 la moyenne, alors que la médiane est passée de 3 à 3,5 µg.L-1

Cette illustration est claire et, en reprenant l’exemple précédemment développé, le Tableau 4 permet de se faire une opinion.

Ceci devrait donc inciter fortement à utiliser la médiane plutôt que la moyenne pour exprimer une donnée, surtout lorsqu’on ne dispose que d’un très petit nombre de résultats d’analyse et qu’on n’a donc aucun moyen de tester la normalité de la distribution. Mais beaucoup vont s’interroger sur la pertinence d’un tel conseil qui va à contre-courant de l’habitude. C’est sur ce point qu’il faut conclure.

Tableau 4 : Résultats de l’analyse de plomb dans un échantillon de foie de bœuf lyophilisé

Paramètres statistiques Données brutes (mg.Kg-1)

2 valeurs supprimées (mg.Kg-1)

Moyenne Intervalle de confiance Niveau de confiance

1,254 1,111 à 1,396

95 %

1,164 1,111 à 1,216

95 % Médiane Intervalle de confiance Niveau de confiance

1,19 1,135 à 1,232

96 %

1,174 1,105 à 1,232

97 %

Page 17: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

16

Pour quelle raison l’analyste s’obstine-t-il à admettre a priori que les résultats d’une même série d’analyses doivent, quoiqu’il arrive, se distribuer selon la loi Normale ? Les faits semblent lui donner tort puisqu’on n’échappe pas aux valeurs aberrantes. Obéirait-il à un effet de mode du vingtième siècle ? A la prédominance reconnue de la loi Normale ? Ou a-t-il au contraire l’intuition que les résultats qu’il collecte, lorsqu’il répète la même analyse sur un même échantillon, ne peuvent échapper à la loi Normale ?

La réponse est simple. Il suffit d’avoir compris la nature des valeurs qu’on cherche à interpréter pour donner le résultat final de l’analyse, la donnée analytique recherchée. Un résultat d’analyse xi a été modélisé sous la forme :

xi = T + ei (1)

xi est une valeur de la variable aléatoire continue X, ei représentant l’aléa expérimental de l’analyse (i). Or cet aléa expérimental représente la somme des aléas expérimentaux qui peuvent être associés à chacune des opérations élémentaires indépendantes de l’analyse. Il y a donc lieu de considérer que ei, et par conséquent xi, est en fait une somme de variables aléatoires indépendantes, soit :

∑=

=l

jiji ee

1

(11)

où eij est l’aléa expérimental (= erreur expérimentale) associé à chaque opération élémentaire (j) de l’analyse. La variable aléatoire X peut donc s’exprimer sous la forme d’une somme de variables aléatoires indépendantes Ej et d’une constante T qui est la teneur de l’échantillon, soit :

X = T +E1 +E2 +…+Ej +…+El (12)

où Ej est la variable aléatoire (= erreur expérimentale) qui peut être associée à l’opération élémentaire (j). Dans ces conditions, il faut se rappeler que le Théorème Central Limite place la loi Normale à la convergence de toutes les autres lois ; on peut l’énoncer comme suit : « Si E1, E2…., El sont des variables aléatoires indépendantes distribuées suivant des lois de probabilité quelconque admettant une moyenne et une variance, chacune des variances étant petite comparée à leur somme, la somme de ces variables Ej suit une loi de probabilité qui tend vers la loi Normale quand l tend vers l’infini ». On est obligé d’admettre que ce Théorème Central Limite s’applique au résultat d’une analyse car l – le nombre d’opérations élémentaires – est suffisamment grand. Toutefois, il est supposé que la variance des Ej est petite comparée à la somme des variances Ej ; en termes simples, on suppose que l’erreur expérimentale liée à chaque opération élémentaire ne représente qu’une faible part de l’erreur totale. Considérant la nature même du résultat obtenu à la suite d’une analyse chimique – somme d’un grand nombre d’opérations élémentaires indépendantes les unes des autres – il est manifeste que le Théorème Central Limite doit s’appliquer à ce type de variable, à la donnée analytique dont chaque résultat représente une valeur possible.

Page 18: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

17

Mais le fait expérimental apporte une contradiction flagrante car l’erreur d’analyse résulte presque toujours, dans sa majeure partie, d’une ou deux opérations élémentaires ; dans ce cas, l’hypothèse d’une variance faible de chaque variable vis-à-vis de la variance totale n’est plus vérifiée et on peut ainsi expliquer l’apparition de « valeurs aberrantes ». Ce commentaire justifie nos conclusions : il vaudrait mieux avoir recours à un paramètre statistique robuste, tel que la médiane, pour exprimer le résultat d’une analyse. Toutefois, utiliser la moyenne pour rechercher les valeurs aberrantes a un intérêt certain puisque ces valeurs donnent l’alerte, indiquant un dysfonctionnement ponctuel de la méthode et poussant à en rechercher les causes, c’est-à-dire les opérations élémentaires responsables de ce dysfonctionnement. La recherche des valeurs aberrantes garde donc tout son intérêt lorsqu’on se propose d’améliorer une méthode d’analyse.

QUELQUES REFERENCES BIBLIOGRAPHIQUES UTILES

STATISTIQUE APPLIQUEE A L’EXPLOITATION DES MESURES Cetama, Ed. Masson (Paris), 1986

CHEMOMETRICS: A TEXTBOOK. DATA HANDLING IN SCIENCE AND TECHNOLOGY, Vol. 2 D.L. Massart, B.G.M. Vandeginste, S.N. Deming, Y. Michotte & L. Kaufman, Elsevier (Amsterdam), 1988

THEORIE ET METHODES STATISTIQUES. APLICATIONS AGRONOMIQUES. VOL. 1 P. Dagnélie, Les Presses Agronomiques de Gembloux, 1973

PRATIQUE DES TESTS STATISTIQUES : INTERPRETATION DES MESURES C. Lang-Michaut, Dunod, Bordas (Paris), 1990

METHODES STATISTIQUES. RECUEIL DE NORMES ISO 3, Organisation Internationale de Normalisation, 1979

Page 19: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

18

LOI DE DISTRIBUTION NORMALE

Représentation de f(x)

A-1

Page 20: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

19

Les risques de première espèce (α) et de deuxième espèce (β)

peuvent être représentés graphiquement à l’aide des fonctions de distribution de x

A-2

Page 21: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

21

DISTRIBUTION NORMALE REDUITE

Fonction de densité de probabilité

Fonction de répartition

20

A-3

Page 22: APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

1

La valeur rejetée a 90% de chance d’être fausse si Qexp > Q0

Q0 si n

0,94 3

0,76 4

0,64 5

0,56 6

0,51 7

0,47 8

0,44 9

0,41 10

Test de Dean et Dixon

X2 – X1

Wn Wn

Xn - Xn - 1 Qexp = ou

Avec Wn = Wn – X1

21

A-4