SVM pour une meilleure classification des données de ... ?· SVM pour une meilleure classication…

  • Published on
    12-Sep-2018

  • View
    212

  • Download
    0

Embed Size (px)

Transcript

  • C F A / V I S H N O 2 0 1 6

    SVM pour une meilleure classification des donnees demonitoring par ondes guidees

    M. El Mountassira, S. Yaacoubia, G. Mourotb et D. MaquinbaInstitut de Soudure Association, 4 Bvd Henri Becquerel, Espace Cormontaigne, 57970

    Yutz, FrancebLe CRAN, UMR 7039 - Universite de Lorraine, CNRS, 2, Avenue de la foret de Haye,

    54516 Nancy, Frances.yaacoubi@isgroupe.com

    CFA 2016 / VISHNO 11-15 avril 2016, Le Mans

    2189

  • Cet article se place dans le cadre du monitoring des structures et traite principalement la technique des ondes

    ultrasonores guides. Il porte sur la classification des donnes de cette technique par le biais des sparateurs

    vaste marge, dont la fiabilit est conditionne par la slection cible des paramtres du sparateur optimal.

    Diffrents algorithmes ont t antrieurement dvelopps et peuvent tre trouvs dans la littrature. La prsente

    tude vise appliquer ces algorithmes sur des donnes exprimentales de monitoring, rsultant de lapplication

    de la technique des ondes ultrasonores guides, dans lobjectif didentifier le sparateur le plus pertinent afin de

    rduire voire annuler compltement les fausses alarmes et fiabiliser ainsi au mieux le monitoring in-situ.

    1 Introduction

    Le monitoring est de plus en plus appel comme renfort

    de la maintenance prventive des structures. Le principe de

    base du monitoring consiste faire vivre la chane de

    mesure (au moins les capteurs) en permanence avec la

    structure surveiller [1]. Ceux-ci y tant intrus ou attachs,

    offrent la possibilit dinterroger ladite structure plus

    frquemment et moindre cot compar au contrle non

    destructif classique (CND). Les donnes enregistres sont

    alors compares entre elles pour statuer sur lintgrit

    dune telle structure. Lvolution dans les donnes, mme

    minime, peut tre corrle avec lapparition dun ventuel

    dfaut, ce qui permet dobtenir une meilleure sensibilit

    par rapport au CND. Malheureusement, les donnes

    peuvent voluer cause de changements dans les

    conditions oprationnelles et environnementales (COE)

    [2]. Ceci est susceptible de gnrer des fausses alarmes

    pouvant parfois engendrer des pertes conomiques.

    Des techniques statistiques peuvent tre alors utilises

    pour pallier ce problme [3], linstar des sparateurs

    vaste marge (connue par son acronyme anglais SVM).

    Cette mthode vise classifier les donnes en deux lots via

    un sparateur dont la slection est dcisive dans le succs

    dune telle classification.

    Dans un contexte de monitoring, la sparation optimale

    entre les donnes de ltat sain et de ltat endommag va

    permettre une meilleure gestion des fausses alarmes et des

    cas de non dtection de dfaut. Bien que cette technique ait

    t dj applique dans ce domaine, la plupart des travaux

    issus de la littrature se sont focaliss sur le rsultat final

    de classification, ainsi, le choix des paramtres optimaux

    du sparateur na pas t rigoureusement justifi. Par

    exemple, Hassan et al [4] ont appliqus la mthode SVM

    pour la classification des dfauts des pipelines. Ils ont

    tudi linfluence du bruit sur le rsultat de classification

    pour diffrents types de filtres. En revanche, aucune

    information sur les paramtres du classifieur na t

    divulgue. Zamani et al [5] ont procd une tude

    exhaustive qui fait intervenir non seulement les paramtres

    des SVMs mais aussi les caractristiques des signaux

    acquis. Le rsultat obtenu ne peut pas tre qualifi

    doptimal car certaines paramtres ont t choisis

    arbitrairement. De plus, dautres facteurs dinfluence nont

    pas t explors dans cette tude. Finalement, des

    exemples dapplications des SVM sur des donnes de

    monitoring par ondes guides peuvent tre trouvs dans les

    rfrences [6,7].

    Cet article est constitu de 3 sections dont la deuxime

    est consacre un rappel concis de la technique des SVMs

    en mettant laccent sur les sparateurs non-linaires. La

    troisime, quant elle, porte sur lapplication de ces

    sparateurs sur des donnes exprimentales obtenues dans

    des conditions trs proches de lin-situ. Les rsultats

    obtenus dont le but est de les comparer afin den

    slectionner le plus optimal y seront discuts. Les

    conclusions tires aussi bien que les perspectives de cette

    tude comparative feront lobjet de la dernire section.

    2 SVM : rappels thoriques

    La mthode des SVMs fait partie des algorithmes

    dapprentissage supervis. Elle permet de rsoudre le

    problme de la reconnaissance de formes. Elle a t mise

    au point par Vapnick en 1993 [8] et consiste trouver un

    sparateur optimal qui maximise la marge entre deux

    classes de donnes, en utilisant un ensemble limit de

    squences dapprentissage. Pour pouvoir adapter cette

    mthode la prsente tude de monitoring, deux classes de

    donnes vont tre considres : une classe qui reprsente la

    structure saine (tat de rfrence) et une autre qui

    caractrise la structure endommage. La mthode des

    SVMs doit donc tre en mesure de distinguer si le signal

    mesur provient dune structure saine ou endommage.

    Afin de dmystifier le fonctionnement de cette mthode,

    on va procder une description mathmatique.

    Soit A un ensemble compos de n paires de

    donnes/classes dapprentissage, donn par :

    = {(1, 1), (2, 2), , (, ), } (1)

    o {1,1} est le label dappartenance dune observation une classe, le nombre n dsigne la dimension

    de la base de donnes comme il sera plus dtaill

    ultrieurement et xi, le ime chantillon de cette base.

    Chaque chantillon xi possde p variables descriptives.

    Le vecteur xi, peut sexprimer comme suit :

    = (1, 2, , ) (2)

    o t est le signe transpos .

    Dans la pratique, pour pouvoir appliquer la mthode

    SVM, il faut tout dabord slectionner les paramtres

    descriptifs (par exemple le RMS et la variance VAR du

    signal). Il est noter que le choix de ces paramtres est

    dterminant dans la classification des donnes dondes

    guides. La deuxime tape a pour but de trouver un

    hyperplan optimal permettant de sparer les donnes

    dapprentissage de sorte que tous les points dune mme

    classe soient du mme ct de lhyperplan. Cet hyperplan

    divise donc, dun point de vue gomtrique, lespace en

    deux. La recherche de lhyperplan optimal se base sur le

    critre de maximisation des marges, cest--dire les

    distances entre les individus des classes dapprentissage et

    lhyperplan. Les points de distance minimale sont qualifis

    de vecteurs supports. Intuitivement, le fait d'avoir une

    marge plus large procure plus de scurit lorsque l'on

    classe un nouvel exemple. Dans la plupart des problmes

    rels, les classes ne sont pas linairement sparables. Pour

    surmonter cet inconvnient, lide des SVM est

    dappliquer une transformation non linaire aux donnes

    pour permettre une sparation linaire des exemples dans

    CFA 2016 / VISHNO11-15 avril 2016, Le Mans

    2190

  • ce nouvel espace (Figure 1). En consquence, il va y avoir

    un changement de dimension. Finalement, pour laisser plus

    de libert au classifieur didentifier correctement un

    chantillon mme sil se trouve au mauvais ct de

    lhyperplan (classes non sparables), le problme

    doptimisation scrit sous la forme suivante [9]:

    min,, 1

    2 2 +

    =1 (3)

    sous les contraintes :

    ( () + ) 1

    0

    o w et b sont des paramtres de lhyperplan, C est le poids donn aux chantillons se trouvant du mauvais ct

    de la frontire de sparation (appel aussi contrainte de

    rgularisation), i sont des paramtres qui permettent de considrer des points mal classs.

    Figure 1: Changement de dimension de lespace fin de

    trouver le plan sparateur des deux exemples.

    Grce lastuce du noyau, lquation 3 prend la forme

    duale suivante [9] :

    max =1

    1

    2 ( ,

    ,=1 ) (4)

    sous les contraintes :

    0 C

    =1 = 0

    o i sont les multiplicateurs de Lagrange et K(.,.)

    reprsente la fonction noyau.

    En pratique, quelques familles de fonctions noyau

    paramtrables sont couramment utilises et il revient

    lutilisateur deffectuer des tests pour dterminer celle qui

    convient le mieux pour son application. Dans la littrature

    [10], on trouve les fonctions noyaux suivantes :

    1. Linaire.

    2. Polynomiale

    3. Quadratique

    4. Perceptrons multicouches.

    5. Fonction base radiale (RBF)

    La solution optimale ce problme permet de

    dterminer la fonction de dcision donne lquation 5.

    Cette fonction est ncessaire la classification dun nouvel

    chantillon :

    () = ( =1 ( , ) + ) (5)

    o xi et yi sont respectivement les vecteurs de support et

    leurs classes dappartenance,

    Dans ce qui suit, cette mthode sera applique pour la

    dtection de dfauts gomtriques dans une structure

    tubulaire, dans un contexte de monitoring.

    3 Base de donnes exprimentales,

    rsultats et discussions

    3.1 Construction de la base de donnes

    exprimentale

    La procdure qui a t adopte dans la prsente tude

    pour construire la base de donnes consiste :

    1. effectuer une acquisition dun signal exprimental par le biais des ondes ultrasonores guides se

    propageant dans un tube, sain au dbut et puis,

    possdant un dfaut artificiel dont la taille a t

    augmente en quatre tapes.

    2. polluer ce signal en lui ajoutant un bruit blanc gaussien stochastique 199 fois. La base de donnes

    est constitue donc de 200 chantillons pour chacun

    des 5 cas (sain, 1 dfaut, 2 dfauts, 3 dfauts et 4

    dfauts). Le dfaut a t simul artificiellement en

    ajoutant des aimants sur la surface de la structure,

    comme le montre la Figure 2.

    Figure 2: Dfaut extension circonfrentielle, effectu

    en quatre tapes augmentant ainsi sa taille et modifiant sa

    gomtrie

    Le bruit a t cr au moyen dun simulateur de bruit

    stochastique, gnrant des valeurs alatoires suivant une

    distribution normale avec une moyenne nulle et un cart-

    type gal lunit. La fonction bruit a t multiplie par un

    facteur attnuateur qui permet de contrler lamplitude du

    bruit.

    La Figure 3 montre lexemple dun signal type acquis

    dans cette campagne dessais. Le 1er cho (bleu)

    correspond au signal dexcitation tandis que le 2me (vert)

    est d la fin du tube. Aprs plusieurs tests, il sest avr

    plus judicieux de travailler sur une portion du signal et non

    sur sa totalit. En effet, lcho dexcitation, qui nest pas

    vraiment d qu lexcitation mais galement un bruit

    lectronique varie considrablement dune acquisition

    une autre, comme un bruit alatoire. Londe interagit avec

    le dfaut, une partie est rflchie et lautre, transmise ;

    celles-ci varient en fonction des caractristiques du dfaut.

    Ainsi, lcho de fin du tube (qui peut correspondre une

    soudure en ralit) est tributaire des caractristiques du

    dfaut. On peut donc dores et dj conclure que pour la

    suite de ltude, ainsi que les futures procdures qui

    dcouleront de la poursuite de la prsente tude, quil est

    ncessaire de slectionner la partie utile du signal.

    CFA 2016 / VISHNO 11-15 avril 2016, Le Mans

    2191

  • Figure 3: Exemple dun signal exprimental montrant

    la portion tudie : en vert, lcho de fin du tube qui peut

    reprsenter une soudure en ralit et en rouge, lcho

    rsultant du dfaut

    Chaque chantillon xi, (voir quation 2) peut tre

    caractris par un ou plusieurs paramtres (xij). Dans la

    prsente tude, le choix a t port sur le RMS et la

    variance, mais dautres paramtres peuvent galement tre

    tests. Ceux-ci vont servir pour le calcul dindice

    dendommagement qui doit renseigner sur ltat et la

    criticit dun dfaut dans une structure.

    Lensemble des donnes a t divis en trois ensembles.

    Les donnes de lensemble dapprentissage vont permettre

    lidentification des caractristiques du sparateur optimal

    savoir les vecteurs-supports et les poids associs. Pour

    limiter le risque de surapprentissage, le deuxime

    ensemble sera considr comme donnes de validation

    pour dterminer les paramtres optimaux du noyau utilis

    ainsi que la valeur adquate de la contrainte de

    rgularisation. Le dernier ensemble sera ddi au test du

    SVM dvelopp.

    3.2 Rsultats et discussions

    Afin dassurer une homognit entre les deux classes de

    donnes (saine et endommage), la premire classe

    contient les donnes correspondantes ltat de rfrence

    (aucun dfaut) et la deuxime contient les donnes

    relatives aux quatre types de dfauts crs auparavant. De

    plus, les donnes sont normalises pour que les valeurs des

    deux paramtres (RMS et Variance) utiliss soient du

    mme ordre de variation. La Figure 4 illustre les deux

    classes utilises dans lespace des paramtres choisis.

    Figure 4: Reprsentation des donnes de la structure

    saine et endommage dans lespace des caractristiques

    Une tape prliminaire la recherche des paramtres du

    sparateur optimal est de trouver la fonction noyau qui

    donne le meilleur taux de bonne reconnaissance des

    diffrents tats de la structure. Dans cette tude, le taux de

    classification a t valu pour chaque type de noyau, le

    rsultat est illustr dans le tableau suivant :

    Tableau 1: Taux de classification pour diffrents noyaux.

    Fonction noyau

    Taux de classification

    Etat sain Dfaut 1

    Linaire 100% 0%

    Quadratique 100% 0%

    Polynomiale 100% 0%

    Perceptron 100% 0%

    RBF

    (Sigma=0.2)

    95% 32.5%

    Le rsultat montre quaucun chantillon de dfaut 1 na

    t correctement classifi pour la plupart des fonctions sauf

    la RBF qui affiche un taux de classification non nul pour

    ce type dfaut. Il est noter que les autres types de dfauts

    ont t dtects par toutes les fonctions noyaux (Le taux de

    classification est de 100 %) et par consquent, ils ne seront

    pas considrs dans la suite de larticle. Les rsultats

    obtenus par les autres types de noyaux sexplique par la

    nature de la frontire de dcision qui divise le plan de

    donnes en deux comme il peut tre montr dans lexemple

    de la fonction quadratique illustr dans la Figure 5. Les

    consquences directes dune telle sparation seraient :

    augmentation de la probabilit de non dtection, compte tenu de lnorme espace quoccupe ltat

    sain.

    rduction de la sensibilit de systme car le dfaut le plus petit na pas t dtect.

    Figure 5. Exemple dune sparation avec une fonction

    noyau quadratique

    La RBF ne fonctionne pas de la mme manire car elle

    tente de limiter les frontires de dcision de ltat sain. Par

    ailleurs, le rsultat de classification est conditionn par le

    choix de paramtre de rglage () de ce noyau qui

    reprsente la porte de la fonction noyau. Un autre

    paramtre qui pourrait influencer le rsultat final est le

    paramtre de rgularisation (C) qui contrle le pourcentage

    des chantillons qui peuvent se trouver au mauvais ct du

    sparateur. En dautres termes, le taux de classification

    maximale va dpendre la fois de et C. Pour bien

    CFA 2016 / VISHNO11-15 avril 2016, Le Mans

    2192

  • expliciter linfluence de la porte de noyau, le taux de

    classification a t calcul pour diffrentes valeurs de et

    pour la mme valeur du paramtre de rgularisation.

    Figure 6. Taux de classification pour diffrentes valeurs

    de

    La Figure 6 montre que le taux de classification des

    donnes de ltat sain est inversement proportionnel celui

    des cas dun dfaut. En effet, quand la porte du noyau

    augmente, le nombre dchantillons de ltat sain b...

Recommended

View more >