VAD Approche Statistique

Embed Size (px)

Citation preview

  • 7/24/2019 VAD Approche Statistique

    1/46

    Table des matires

    Introduction gnrale 4

    1 Prsentation de ltablissement daccueil 7

    1.1 Prsentation de ltablissement . . . . . . . . . . . . . . . . . . . . . . . 7

    1.2 organisation du CRDT/1 RM . . . . . . . . . . . . . . . . . . . . . . . . 8

    2 Gnralits sur la dtection dactivit vocale 10

    2.1 Notions lmentaires sur le signal de parole . . . . . . . . . . . . . . . . . 10

    2.2 La detection dactivit vocale VAD . . . . . . . . . . . . . . . . . . . . . 15

    2.3 Les mthodes de base de la VAD . . . . . . . . . . . . . . . . . . . . . . 17

    3 Elaboration dun VAD bas sur une approche statistique 18

    3.1 Modle statistique du signal de parole . . . . . . . . . . . . . . . . . . . . 19

    3.2 Dtermination de la rgle de dcision par le GLRT . . . . . . . . . . . . . 21

    3.2.1 Le rapport de vraisemblance gnralis : . . . . . . . . . . . . . . 233.2.2 La rgle de dcision : . . . . . . . . . . . . . . . . . . . . . . . . . 23

    3.3 Dtermination du seuil adaptatif . . . . . . . . . . . . . . . . . . . . . . 24

    3.3.1 Simulation de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . 25

    3.4 Estimation des paramtres du bruit . . . . . . . . . . . . . . . . . . . . . 26

    4 Analyse des performances du VAD propos 29

    4.1 Etude des performances pour diffrents types de signaux de parole . . . . 29

    4.2 tude des performances lies au temps dexcution . . . . . . . . . . . . 334.3 tude de linfluence des diffrents paramtres . . . . . . . . . . . . . . . 34

    4.3.1 La longueur de la trame . . . . . . . . . . . . . . . . . . . . . . . 34

    4.3.2 Le paramtre de lissage . . . . . . . . . . . . . . . . . . . . . . 34

    4.3.3 la courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    5 Conclusion gnrale 38

    Annexes 39

    A La variable alatoire gaussienne complexe 41

    1

  • 7/24/2019 VAD Approche Statistique

    2/46

    B Simulation de Monte Carlo 42

    C Code Matlab de lalgorithme VAD 43

    Bibliographie 46

    2

  • 7/24/2019 VAD Approche Statistique

    3/46

    Table des figures

    1.1 organigramme du CRDT/1 RM . . . . . . . . . . . . . . . . . . . . . . . 9

    2.1 Appareil phonatoire humain . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2 Modle mcanique de production de la parole . . . . . . . . . . . . . . . 12

    2.3 Modle numrique de production de la parole . . . . . . . . . . . . . . . 14

    3.1 schma qui rsume le fonctionnement du VAD . . . . . . . . . . . . . . . 183.2 les rgions de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.3 les variations des 2 priodogrammes au cours du temps pour lchantillon

    spectral k=25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    3.4 lorganigramme du lalgorithme VAD propos . . . . . . . . . . . . . . . 28

    4.1 signal S1 "Quiet" : a)signal bruit - b)signal non bruit - c)adaptation du

    seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    4.2 signal S2 "Medium" : a)signal bruit - b)signal non bruit - c)adaptation

    du seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    4.3 signal S3 "High" : a)signal bruit - b)signal non bruit - c)adaptation du

    seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    4.4 influence de la longueur de la trame :a)Tw=40ms - b)Tw=15ms - c)Tw=30ms

    - d)signal non bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    4.5 influence du paramtre alpha :a) = 0.005 - b) = 0.85 - c) = 0.05 -

    d)signal non bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4.6 courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    3

  • 7/24/2019 VAD Approche Statistique

    4/46

    Liste des abrviations

    VA Variable Alatoire.

    DFT Discret Fourier Transformation.

    PDF Probability Density Function.

    SNR Signal to Noise Ratio.

    LUT Look Up Table.

    VAD Voice Activity Detection.FFT Fast Fourier Transformation.

    LR Likelihood Ratio.

    LRT Likelihood Ratio Test.

    GLRT Generalized Likelihood Ratio Test.

    DSP Digital Signal Processing.

    FPGA Field Programmable Gate Array.

    4

  • 7/24/2019 VAD Approche Statistique

    5/46

    Introduction gnrale

    Dans le but de mettre en application nos connaissances scientifiques et techniques,

    acquises au cours de notre formation, On nous a donn la chance de faire un stage pratique

    qui sest droul du 27 dcembre 2015 au 21 janvier 2016 au sein du CRDT/1re RM.

    larrive notre tablissement daccueil, le CRD/Transmission, on nous a propos

    comme problmatique le dveloppement dun dtecteur dactivit vocal (VAD :Voice Ac-

    tivity Detector). On sait bien que le traitement, lamlioration et la reconnaissance de

    la parole constituent lune des proccupation centrales de lingnieur spcialis dans les

    communications et la transmission, donc ce travail aura pour objectif de nous donner un

    avant got sur les dfis rencontrs dans ces domaines. De plus ,comme notre projet de fin

    dtude porte sur le traitement statistique du signal et la thorie de dtection, on a opt

    pour la ralisation dun VAD bas sur une approche statistique.

    Le traitement numrique de la parole est une des disciplines qui a profit pleinement

    du progrs technologique des dernires dcennies. Des algorithmes autrefois utopiques

    cause du volume de calcul sont maintenant utiliss dans des applications complexes

    telles que le codage, le rehaussement ou la reconnaissance de la parole. Plusieurs de

    ces applications utilisent un module de dtection dactivit vocale pour augmenter les

    performances et rduire le cot du traitement numrique.

    Un algorithme de dtection d activit vocale est une solution la question"Pourquoi

    traiter la parole alors quil ny a pas de parole ? !" , en effet le VAD a comme but de

    discriminer entre les rgions o la parole est prsente et les rgions o la parole est absente

    dans le signal vocal analys.

    Pour une prsentation claire et comprhensible, ce rapport est organis comme suit :

    Dans le premier chapitre, on commence par la prsentation de ltablissement dac-cueil le CRDT/1 RM, ainsi que la description des diffrentes structures qui le constituent.

    5

  • 7/24/2019 VAD Approche Statistique

    6/46

    EMP

    Dans le second chapitre, on va faire un rappel de quelques notions sur le signal de parole

    suivi dune tude thorique et gnrale de la dtection dactivit vocale VAD. Le troi-

    sime chapitre consiste en une prsentation dtaille du VAD propos. Cette prsentation

    comprend le choix du modle statistique du bruit, ltablissement de la rgle de dcision

    ainsi que la description de la mthode destimation des paramtres du bruit. Une analyse

    des performances du VAD propos, ainsi que les rsultats des simulations sur Matlab,sont prsents dans le dernier chapitre. Une conclusion gnrale clture ce rapport.

    6

  • 7/24/2019 VAD Approche Statistique

    7/46

    Chapitre 1

    Prsentation de ltablissement

    daccueil

    1.1 Prsentation de ltablissement

    Le Centre de recherche et de dveloppement des transmissions de la premire rgion

    militaire est une entit scientifique et technique dont la vocation est lexcution des tra-vaux dtudes, de recherche-dveloppement, dessais et dvaluation technique du matriel

    des Transmissions et autres composantes lectroniques des systmes darmes. Le CRDT

    est charg de :

    Dapporter son soutien scientifique et technique ncessaire la rnovation des ma-

    triels de transmission ;

    De participer aux tudes de faisabilit(les projets relevant de son domaine et int-

    ressant le commandement) ;

    Dassurer la maitrise duvre des projets ou des programmes dont la responsabilit

    lui est confie;

    Dvelopper les techniques et les applications du domaine de tlcommunication et

    les rseaux de commutation ;

    De favoriser lacquisition, la maitrise et la diffusion des connaissances scientifiques,

    techniques des quipements de transmission ncessaire la dfense nationale.

    7

  • 7/24/2019 VAD Approche Statistique

    8/46

    EMP CHAPITRE 1. PRSENTATION DE LTABLISSEMENT DACCUEIL

    1.2 organisation du CRDT/1 RM

    Pour lexcution de ses missions, le CRDT est organis comme suit :

    Une Direction,

    Un Dpartement Administration, Finances et Services Communs (DAFSC) ; Un Dpartement Tlcommunications (DT) ;

    Un Dpartement Systmes dInformation et Gnie Logiciel (DSIGL) ;

    Un Dpartement Guerre Electronique (DGE) ;

    Un Dpartement Conversion et Conditionnement dEnergie (DCCE) ;

    Un Dpartement Evaluation et Exprimentation (DEE).

    Le Dpartement Administration, Finances et Services Communs est compos de :

    Secrtariat;

    Service Approvisionnement (magasin PDR) ; Service Technique ;

    Bureau Archives + bibliothque.

    Le Dpartement Tlcommunications est compos de :

    Laboratoire Radio;

    Laboratoire Commutation ;

    Laboratoire Antennes et Propagation des Ondes.

    Le Dpartement Systme dInformation et Gnie Logiciel est compos de :

    Laboratoire Rseaux Informatiques et Applications Spcifiques ;

    Laboratoire Systme dInformation et de Communication;

    Laboratoire Systme dInformation Gographique et Algorithmes Dcisionnels.

    Le Dpartement Guerre Electronique est compos de :

    Laboratoire Reconnaissance Radio Electronique ;

    Laboratoire Electronique des Systmes dArmes et Systmes Embarqus ;

    Laboratoire Brouillage Radio Electronique.

    Le Dpartement Conversion et Conditionnement dEnergie est compos de :

    Laboratoire Energies Renouvelables ;

    Laboratoire Conditionnement et Stockage dEnergie ; Laboratoire Electronique de Puissance.

    Le Dpartement Evaluation et Exprimentation est compos de :

    Atelier dEssais Mcaniques;

    Atelier dEssais Environnement ;

    Atelier dEssais Electromagntiques.

    8

  • 7/24/2019 VAD Approche Statistique

    9/46

    EMP CHAPITRE 1. PRSENTATION DE LTABLISSEMENT DACCUEIL

    Figure1.1 organigramme du CRDT/1RM

    9

  • 7/24/2019 VAD Approche Statistique

    10/46

    Chapitre 2

    Gnralits sur la dtection dactivit

    vocale

    2.1 Notions lmentaires sur le signal de parole

    Si lon tente une dfinition, la parole est la capacit de ltre humain de communiquer

    la pense par lintermdiaire de sons articuls . D son importance, la parole a proccupdepuis toujours les scientifiques. Ainsi quelques-unes des sciences qui se proccupent de

    ltude de la parole ont dj des centaines dannes. Dautres sont plus rcentes, comme

    le traitement numrique de la parole, qui ne compte pas plus de quarante ans.

    La production de la parole commence avec la formulation de la pense tre commu-

    nique. La personne qui parle, suite des processus neurologiques et musculaires, produit

    les fluctuations de la pression de lair qui constituent le signal vocal. Celui-ci se propage

    dans le milieu, qui dhabitude est lair, jusquaux oreilles de lcouteur o il est reu et,

    aprs une certaine analyse, il est envoy vers le cerveau qui linterprte. Donc le signal

    vocal a une nature duale. Il peut tre analys de point de vue objectif comme tant une

    ralit physique ou de point de vue subjectif si on regarde la sensation psycho-acoustique

    produite au niveau du cerveau .

    Comme on vient de voir, la production de la parole est un processus complexe, qui im-

    plique des phnomnes neurologiques, physiologiques et physiques. Dans un tel contexte

    ltude de la parole est une science multidisciplinaire. Pour une meilleure comprhension,

    lingnieur qui travaille dans ce domaine devrait connatre les notions de base caractris-tiques chacune de ces disciplines quil rencontre dans son travail.

    10

  • 7/24/2019 VAD Approche Statistique

    11/46

    EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

    Figure2.1 Appareil phonatoire humain

    Techniquement parlant, la parole est une onde sonore produite par action volontaire

    et coordonne des structures anatomiques qui forment lappareil phonatoire humain. Ce

    processus est coordonn par le systme nerveux central. Les sons produits sont analyss

    par rtroaction auditive pour assurer la qualit acoustique de la parole.

    Les muscles abdominaux actionnant sur le diaphragme, en poussant lair des poumons

    vers la trache artre. Au bout suprieur de celle-ci se trouve le larynx qui module le

    courant dair sous la forme dimpulsions priodiques appliques au conduit vocal. Celui

    est form dun ensemble de cavits : la cavit pharyngienne suivie de la cavit buccale et

    en drivation la cavit nasale. La luette, qui prolonge le bord postrieur du voile du palais,

    contribue la fermeture des fosses nasales. Comme rsultat, pendant la production de

    la parole, la cavit nasale peut tre couple soit totalement, soit partiellement, o mme

    dcouple de la cavit buccale. Autres organes anatomiques importants qui participent

    la production des sons sont : la langue et les dents dans la cavit buccale, les narines

    dans la cavit nasale et les lvres , comme montr dans la figure 2.1.

    Le larynx a un rle extrmement important dans la production de la parole.Il est

    11

  • 7/24/2019 VAD Approche Statistique

    12/46

    EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

    Figure2.2 Modle mcanique de production de la parole

    form dun ensemble de muscles et cartilages mobiles entourant une cavit situe la

    partie suprieure de la trache. Les cordes vocales, partie intgrale du larynx, peuvent le

    fermer ou peuvent former une ouverture variable appele glotte. La fonction du larynx estde fournir une excitation priodique au reste du systme sous la forme dune suite dim-

    pulsions priodiques de pression dair pendant la phonation du son vois. Au contraire,

    il laisse passer librement lair pendant la voix chuchote et la phonation des sons sourds

    ou non voiss. Ainsi le conduit vocal peut tre vu comme une suite de tubes acoustiques

    dont la section peut varier avec le temps. Son diagramme est reprsent dans la figure 2.2

    Les paramtres qui dcrivent le signal vocal rel changent avec le temps car le systme

    physique qui les produit change rapidement avec le on dit que le signal parole est non

    stationnaire . Nanmoins le signal vocal peut tre divis en segments temporels (trames

    ou fentres) de longueurs comprises entre 10 et 30 ms dont les proprits acoustiques

    demeurent quasi stationnaire (stationnaire par morceaux). ltude de la forme donde de

    la parole rvle des caractristiques telles que lintensit , le comportement priodique ,les

    limites et la dure de chaque son qui forme le signal .La DFT est un outils trs puissant

    qui donne la possibilit dtudier le signal parole numrique dans le domaine frquentiel

    discret ,Ce signal peut rvler un comportement priodique ou non et ventuellement les

    frquences les plus importantes qui dcrivent la parole.

    Lune des plus importantes caractristiques du signal vocal est la nature de lexcita-

    12

  • 7/24/2019 VAD Approche Statistique

    13/46

    EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

    tion. Il existe deux types lmentaires dexcitation qui produisent les sons voiss et non

    voiss.

    Les sons voiss sont produits partir dune excitation qui agit sur le conduit vocal et

    qui consiste en une suite dimpulsions priodiques dair fournies par le larynx. Les cordes

    vocales au dbut sont fermes. Sous la pression continue de lair qui vient des poumons

    elles souvrent graduellement dlivrant cette nergie potentielle. Pendant cette ouverture

    la vitesse de lair et lnergie cintique augmentent jusqu ce que la tension lastique

    des cordes vocales gale la force de sparation du courant dair. A ce point louverture de

    la glotte est maximale. Lnergie cintique qui a t accumule comme tension lastique

    dans les cordes vocales va acclrer la fermeture abrupte de la glotte . Ce processus

    priodique est caractris par une frquence propre chaque personne, connue sous le

    nom de frquence du fondamentalF0 ou pitchet il donne la hauteur normale de la voix.

    La frquence fondamentale peut varier de 80 200 Hz pour une voix masculine, de 150 450 Hz pour une voix fminine et de 200 600 Hz pour une voix denfant .

    Cette frquence fondamentale peut varier suite des facteurs lis au stress, intona-

    tion et motions. Le timbre de la voix est dtermin par les amplitudes relatives des

    harmoniques du fondamental.

    Les sons non voiss sont gnrs par le passage de lair dans une constriction troite

    situ en un point du conduit vocal. ils sont gnrs sans lapport du larynx et ne prsententpas de structure priodique.

    Une modlisation exhaustive pour la production de la parole est trs difficile et pour

    des raisons pratiques, inefficace. Lide de base dans la modlisation numrique est dar-

    river un modle linaire qui produit en sortie un signal quivalent au signal vocal. Le

    modle est correct dans la mesure ou sa sortie sapproche du signal vocal sans modli-

    ser les phnomnes physiques intrinsques la production du signal vocal . La figure 3

    prsente un tel modle gnral qui est utilis dans le traitement numrique de la parole.

    Dans ce modle gnral (figure 2.3) on utilise deux sources dexcitation. Pour les sons

    non voiss la source dexcitation est un bruit blanc. Pour la production des sons voiss la

    source dexcitation est un train priodique dimpulsions qui traverse un filtre passe bas

    dordre 2. Ce filtre, qui modlise le fonctionnement du larynx, a une frquence de coupure

    denviron 100 Hz.

    G(z) = A

    (1 + az1)(1 + bz1)

    13

  • 7/24/2019 VAD Approche Statistique

    14/46

    EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

    Figure2.3 Modle numrique de production de la parole

    Un modle mcanique simplifi du conduit vocal le reprsente sous la forme dune

    succession de tubes acoustiques lmentaires. Chaque tube o rsonateur mcanique est

    assimil un filtre numrique dordre deux. La transmittance globale du modle est de

    la forme :

    H(z) = B

    Kk=1(1 + b1kz

    1

    + b2kz2

    )

    La frquence centrale de chaque rsonateur correspond un formant et est donne

    par :

    Fk= 1

    2fscos

    1

    b1k/2b2k

    Au bout du conduit vocal le son passe travers louverture des lvres. Celles-ci sont vues

    comme une composante qui transforme le dbit volumique dans une onde de pression

    une certaine distance. Dans le domaine spectral le rayonnement des lvres a leffet dun

    filtrage passe haut. Le plus simple filtre numrique qui a cette proprit est :

    R(z) =C(1 z1)

    Pour des raisons de stabilit numrique et encore certaines dtails physiques le zro

    introduit par R(z) est dplac lintrieur du cercle unit :

    R(z) =C(1 z0z1) , z0 1, z0 < 1

    14

  • 7/24/2019 VAD Approche Statistique

    15/46

    EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

    La prsence dun numrateur diffrent dune constante rend difficile lestimation des

    paramtres du systme. Pour liminer cet inconvnient on spcule sur lidentit :

    1

    z0z

    1 = 1Kk=0 zk0zk

    o K est thoriquement infinie mais pratiquement finie car z0

  • 7/24/2019 VAD Approche Statistique

    16/46

    EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

    absente dans le signal vocal analys. Un algorithme de VAD fonctionne selon une logique

    binaire. Il produit les valeurs logiques 1 ou 0 pour chaque segment ou trame de signal

    analys, indiquant respectivement la prsence ou labsence de la parole.

    Le VAD est un module important dans une large gamme dapplications concernant le

    traitement de la parole soit la reconnaissance, la transmission ou le rehaussement de la

    parole.On le trouve gnralement dans le bloc du pr-traitement .

    Dans le domaine de reconnaissance de la parole le VAD est utilis pour localiser le

    dbut et la fin des rgions reconnatre. La prcision du VAD utilis se matrialise dans

    une amlioration du taux de reconnaissance.

    Pour les systmes de transmission de la parole tels que la tlphonie cellulaire, le

    VAD est utilis pour contrler la transmission discontinue qui active la transmission

    uniquement pendant les priodes dactivit vocale. La transmission discontinue permet

    daugmenter la capacit du systme pour loprateur tandis que pour labonn prolonge

    lautonomie du mobile . Dans le cas du rehaussement de la parole les priodes de silence

    dtectes par le VAD peuvent servir actualiser le paramtre du bruit.

    Autres aspects importants dont il faut tenir compte quand on apprcie un algorithme

    de VAD sont la prcision, le dlai introduit dans la rponse, la robustesse par rapport au

    bruit et le cot du traitement numrique.

    Ainsi il existe des algorithmes de VAD qui sont conus pour rpondre aux exigences

    du travail en temps rel et utiliss spcialement dans les applications de transmission de

    la parole telles que la tlphonie. Un tel algorithme doit fournir la dcision pour la trame

    courante avant quune nouvelle trame soit rceptionne et donc disponible.Dans dautres

    applications telles que la reconnaissance de la parole, la condition de fonctionnement en

    temps rel nest pas exige ; ce quon impose est plutt une meilleure prcision.

    La tche dun algorithme de dtection dactivit vocale est loin dtre facile sauf pour

    le cas dun rapport entre le signal vocal et le bruit SNR trs lev, condition qui est loin

    dtre ralisable dans des applications relles de traitement de la parole. La nature non

    stationnaire et la grande varit des bruits de fond et du signal vocal auquel un SNR

    inconnu au concepteur et parfois variable rendent le problme de dtection dactivit vo-

    cale difficile. videmment, ce quon cherche est un algorithme prcis, robuste par rapport

    au bruit et qui demande un minimum de calculs .

    16

  • 7/24/2019 VAD Approche Statistique

    17/46

    EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

    2.3 Les mthodes de base de la VAD

    Parmi les mthodes de base de la dtection dactivit vocale on site :

    Le VAD bas sur la distance LPC (Lineaire Predictive Coding),lide

    principale de cette mthode est de dterminer une caractrisation spectrale de troisdiffrentes classes de sons , savoir la parole voise,la parole non voise et le si-

    lence.Les distances LPC mesures par un filtre de prdiction linaire vont servir a

    faire la classification.

    Le VAD bas sur le seuillage de lnergie consiste calculer lnergie court

    terme de chaque trame du signal par la formule E =L1i=0 x

    2[i], en suite on la

    compare avec un seuil dpendant du niveau de bruit.Si lnergie est suprieure

    cette limite, la trame est dite active, dans le cas contraire ,on considre quelle ne

    contient pas de parole. Le VAD bas sur le taux de passage par zro qui repose sur lhypothse

    que contrairement la parole,le bruit fluctue rapidement autour du zero et que le

    nombre de fois que cela se produit est alatoire.Ainsi,il est possible de dterminer

    un intervalle pour le nombre habituel de passages par zro dune trame de parole

    en fonction de sa longueur.ensuite en dduire une rgle de classification base sur

    le nombre de passage par zro.

    Les mthodes numres sont pratiques et efficaces ,cependant elles sont toutes basessur des approches heuristique.En 1998,Jongseo Sohn et Wonyong Sung [1] ont propos

    une approche statistique pour dterminer un VAD optimal ,cest lobjet de notre travail

    durant le stage.En effet nous avons suivi cette approche afin dlaborer notre VAD.

    17

  • 7/24/2019 VAD Approche Statistique

    18/46

    Chapitre 3

    Elaboration dun VAD bas sur une

    approche statistique

    Afin de raliser notre VAD, on a organis notre travail selon le plan suivant :

    1. Le choix dun modle statistique adquat pour dcrire le signal parole [1],[3].

    2. Trouver la rgle de dcision base sur le GLRT, en supposant que les statistiques

    du bruit sont connues priori [1].3. Estimation des paramtres du bruit par la mthode des statistiques minimum [2].

    Le schma bloc suivant reprsente les partie principales du VAD propos :

    Figure3.1 schma qui rsume le fonctionnement du VAD

    18

  • 7/24/2019 VAD Approche Statistique

    19/46

    EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

    3.1 Modle statistique du signal de parole

    Comme il a t mentionn dans le chapitre prcdant, la parole et mme le bruit sont

    des processus alatoires qui ne sont ni stationnaires ni ergodiques, Cette ralit exclus

    la possibilit davoir un modle statistique en examinant le signal vocal dans le domainetemporelle car les fonctions de densit de probabilit PDF (probability density Function)

    sont variantes dans le temps a cause de la non stationnarit du processus.

    Pour les raisons prcdentes, Ephraim et Malah [3] ont propos un modle statistique

    utilisant les proprits asymptotique de la transform de Fourier.

    La transformation de Fourier discrte (DFT :Discret Fourier Transformation) de Fou-

    rier est un outil mathmatique de traitement du signal numrique, qui est lquivalentdiscret n DFT de la transformation de Fourier continue qui est utilise pour le traite-

    ment du signal analogique. Il ne faut pas confondre avec la transformation de Fourier

    rapide (Fast Fourier Transformation) FFT qui est un algorithme particulier de calcul de

    la transformation de Fourier discrte.

    Gnralement, le signal parole est subdivise en trames temporelles de longueur ty-

    pique variante de 10 ms 40 ms afin dobtenir une quasi-stationnarit. En supposant quil

    ny a pas de corrlation entre ces trames chacune delles est traite indpendamment desautres.

    La DFT dune trame x[n + nfL] n= 0, 1 , L 1:

    X[k] =L1n=0

    x[n]exp(2jk nL

    ) (3.1)

    Ok est lindice de la frquence discrte, L le nombre dchantillons temporels dans une

    trame et nflindice de la trame.

    A partir de lquation 1.1 on voit bien quun chantillon de la DFT X[k]nest aprs

    tout quune somme pondre de plusieurs variables alatoires VA x[n].De plus dire que

    les VA x[n] sont indpendant est quivalent dire que les coefficients de la DFT X[k]

    sont dcorrls[3]. Ceci nest vrai que si on a un signal de dure infini L .Or a causedes longueur des trames limites pour des raisons de quasi-stationnarit,les X[k]ont un

    certains degr de corrlation,Nanmoins lhypothse de lindpendance entre les x[n]est

    utilise dans la suite pour simplifier lalgorithme.

    19

  • 7/24/2019 VAD Approche Statistique

    20/46

    EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

    En vertu du thorme centrale limite,La somme de plusieurs VA x[n] indpendantes

    tends vers une VA gaussienne.En dautre termes,la partie relle et imaginaire de X[k]sont

    des VA gaussiennes de moyennes nulles (car le signal de parole est un processus alatoire

    centr) et de variance variable dans le temps a cause de la non stationnarit de la parole.

    Tous a nous amne a choisir le modle statistique dune VA gaussienne complexe

    (Annexe A) pour X[k]dont la PDF est :

    P(X[k]) = 1

    [k]exp

    |X[k]|

    2

    [k]

    (3.2)

    O (k)est la variance de lchantillon de la DFT X[k]qui est variable dans le temps.

    Les PDF des variables alatoires du spectre du signal parole S[k] et du bruit W[k]

    sont respectivement dduites partir de (1.2) :

    P(S[k]) = 1

    s[k]exp

    |S[k]|

    2

    s[k]

    (3.3)

    P(W[k]) = 1

    w[k]exp

    |W[k]|

    2

    w[k]

    (3.4)

    O s[k] et w[k] sont respectivement les variances de la parole et du bruit durant la

    tramenfet elle sont donnes thoriquement par [1] :

    s[k] = Ss(2k/L)

    w[k] = Sw(2k/L)avec Swet Sssont respectivement les densits spectrales de puissance durant la trame nf.

    20

  • 7/24/2019 VAD Approche Statistique

    21/46

    EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

    3.2 Dtermination de la rgle de dcision par le GLRT

    La rgle de dcision dun VAD peut tre formule par deux termes :

    Une statistique de dcisionT(x),qui est une grandeur qui mesure la diffrence entre

    le bruit et les statistiques du signal observ. un seuil de dcision , qui est souvent dtermin de faon empirique.

    Dans cette section, nous drivons une statistique de dcision partir du test du

    rapport de vraisemblance gnralis (Generalized Likelihood Ratio Test) GLRT,tout en

    supposant que les statistiques du bruit sont connues a priori.

    Dans le contexte de la VAD, On veut gnralement distinguer entre deux hypothses

    (test dhypothses binaire) :

    H0 : x[n] =w[n] abscense de la parole

    H1 : x[n] =s[n] + w[n] prsence de la parole (3.5)

    o s[n], w[n] et x[n] sont respectivement les chantillons de la parole, du bruit et de

    la parole bruite linstant n. En introduisant la DFT sur (3.3) le problme de dcision

    dans le domaine frquentiel est :

    H0:X[k] =W[k] abscense de la paroleH1:X[k] =S[k] + W[k] prsence de la parole

    (3.6)

    X[K],S[K] et W[k] sont donns par la relation (3.1).Les PDF des variables alatoires

    S[k]et W[k]sont respectivement donnes par (3.3) et (3.4) :

    P(S[k]) = 1

    s[k]exp

    |S[k]|

    2

    s[k]

    P(W[k]) = 1

    w[k]exp

    |W[k]|

    2

    w[k]

    En utilisant la stabilit de la loi Gaussienne, les PDF sous les deux hypothses sont

    donnes par :

    P(X[k]|H0) = 1w[k]

    exp

    |X[k]|

    2

    w[k]

    (3.7)

    P(X[k]|H1) = 1(w[k] + s[k])

    exp

    |X[k]|2(w[k] + s[k])

    (3.8)

    21

  • 7/24/2019 VAD Approche Statistique

    22/46

    EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

    la dtection dactivit vocale est galement effectue pour chaque trame de Lchan-

    tillons sur laquelle la parole est suppos tre stationnaire.Donc on aura a dcider entre :

    H0:X=W abscense de la parole

    H1:X=X+ W prsence de la parole (3.9)

    O S= [S[0]S[1] S[L1]]t, W = [W[0]W[1] W[L1]]t, X= [X[0]X[1] X[L1]]t et sont les vecteurs des chantillons spectraux L-dimensionnels de la parole, du bruit

    et de la parole bruite.

    En supposant que les chantillons spectraux sont des VA indpendantes [1],les PDF

    conjointes sous les hypothsesH0 et H1 sont :

    P(X|H0) =L1k=0

    1

    w[k]exp

    |X[k]|

    2

    w[k]

    (3.10)

    P(X|H1) =L1k=0

    1

    (w[k] + s[k])exp

    |X[k]|

    2

    (w[k] + s[k])

    (3.11)

    Si on suppose que la variance du bruitw[k]est connue priori (estimer par une mthode

    quon prsentera dans ce qui suit), H0 devient une hypothse simple et H1 devient une

    hypothse compose avecLparamtres inconnus dterministes :

    = {S(k) : k = 0, , L 1}

    Pour tablir la rgle de dcision,On fait appel au test de rapport de vraisemblance

    gnralis (Generelized Likelihood Ratio) GLRT , qui est lune des mthodes les plus

    puissantes dans le cas des tests dhypothse composs avec dterministe.

    Dans le GLRT le paramtre inconnus est remplac par son estim MLobtenu parle mthode du maximum de vraisemblance (Maximum Likelihood Estimator) MLE.

    22

  • 7/24/2019 VAD Approche Statistique

    23/46

    EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

    Lestimation du paramtre :

    on dveloppe le MLE pour dterminer :

    P(Xk|, H1) = 1

    (N(k) + S(k))exp |Xk|

    2

    (N(k) + S(k))

    ln P(Xk|, H1) = ln 1(N(k) + S(k))

    |Xk|2

    (N(k) + S(k))

    ln P(Xk|, H1)S(k)

    = 1N(k) + S(k)

    + |Xk|2

    (N(k) + S(k))2

    ln P(Xk|, H1)S(k)

    = 0 |Xk|2 =N(k) + S(k)

    MLES (k) = |Xk|2 N(k) (3.12)

    3.2.1 Le rapport de vraisemblance gnralis :

    g(x) =P(X|, H1)

    P(X|H0) =L1k=0

    1(N(k)+S(k))

    exp |Xk|2

    (N(k)+S(k))

    L1k=0

    1N(k)

    exp |Xk|2N(k)

    en remplaant S(k)par son estim MLE

    S (k)(1.12), on obtient :

    g(x) =L1k=0

    N(k)

    |X(k)|2exp |X(k)|2

    N(k) 1

    3.2.2 La rgle de dcision :

    g(x) =L1k=0

    N(k)

    |X(k)|2exp |X(k)|2

    N(k) 1

    H1>

    ] =B/B.

    Pour lestimation du seuilon suivra le chemin inverse, autrement dit, on doit cher-

    cher le seuil qui garantit un PFA =P[T > |H0] =B/B =. Voici la procdure quona suivit :

    1. Gnrer T(X) =L1k=0

    |Xk|

    2

    N(k) log |Xk|2

    N(k) 1

    B fois sous H0 (bruit uniquement),

    ensuite stocker les ralisations dans un vecteur Vde tailleB . Le nombre ditration

    B est donn par la formule empirique B = 100PFA

    2. Calculer B=PFA B3. Trier le vecteur Vpar ordre dcroissant

    4. Le seuil est pris comme tant la composante a la position Bdu vecteur V tri

    En supposant que les statistique du bruit fluctuent moins rapidement que celle du

    signal, ladaptation du seuil se fait chaque fois que la variance du bruit est mise jour

    car le calcul du seuil ne dpend que de ce paramtre.

    Le seuil obtenu par cette mthode est un seuil adaptatif, il change selon le niveau du

    bruit, ce qui va rendre notre VAD robuste, de plus comme on a fixer notre PFA une

    valeur on peut considrer que notre VAD possde le comportement dun CFAR.

    25

  • 7/24/2019 VAD Approche Statistique

    26/46

    EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

    3.4 Estimation des paramtres du bruit

    Lors due ltablissement de la rgle de dcision par le moyen du GLRT, nous avons

    suppos que la variances des chantillons spectraux du bruitw[k]est connu priori. Dans

    cette section on va prsenter une mthode destimation de la puissance du bruit w[k]introduite par Rainer Martin, en 2001 [2],et qui est base sur un lissage du priodogramme

    et une statistique minimale[1].

    Sachant que thoriquement w[k] = Sw(2k/L), nous somme dans lobligation desti-mer la densit spectrale de puissance du bruit, puisque la DFT du signal est disponible,

    on a opt pour le priodogramme.

    Le lissage du priodogramme

    le priodogramme est une mthode paramtrique destimation de la densit spectrale

    de puissance, qui ncessite pour tre calcul, la mise au carr de la Transforme de

    Fourier (DFT) du signal numrique x[n] sur L points.Il est, depuis la mise au point de

    lalgorithme de Transformation de Fourier Rapide FFT par J. Cooley et J. Tuckey en

    1965, lestimateur le plus employ. lexpression de lestimateur :

    P[k] = 1

    L

    L1n=0

    x[n]exp

    j2 kn

    L

    2

    = |Xk|2 (3.15)

    Le priodogramme P[k], obtenu par lquation (1.14), est estim partir des chan-

    tillons de la trame en cours danalyse. Cependant lexistence dun certain degr de cor-

    rlation entre les diffrentes trames due a la nature du signal parole va engendrer des

    fluctuations brusques du priodogramme (figure 1.3) qui vont influencer ngativement les

    performances du VAD. Pour palier ce problme on propose un priodogramme liss,qui

    est obtenu par :

    P[k, nf] =P[k, nf 1] + (1 )|Xk|2 (3.16)Onfest lindice de la trame en cours danalyse et un paramtre de lissage (ou doubli)

    qui est obtenu exprimentalement.En effet au cours des simulations de fonctionnement

    que nous avons effectu, il sest avr que les meilleurs performances sont obtenues pour

    = 0.05.

    La mthode destimation de la variance du bruit est base sur le principe que mme

    26

  • 7/24/2019 VAD Approche Statistique

    27/46

    EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

    Figure3.3 les variations des 2 priodogrammes au cours du temps pour lchantillonspectral k=25

    durant la prsence de la parole, la densit spectrale de puissance du signal bruit atteint

    des minimums qui sont reprsentatives du niveau de puissance du bruit [2].Donc cette

    mthode est fond sur le principe que durant les pauses de silences ou pendant les brefs

    intervalles entre les mots et les syllabes, lnergie du signal parole non bruit est presque

    nulle. Par consquent, on peut suppos que la puissance du bruit est le minimum des

    priodogrammes calculer durant un intervalles de temps dans lequel on suppose que le

    bruit est le mme ou il a subi de lgres variations.

    En gnrale, le bruit prsente une non-stationnarit plus faible que celle de la parole,

    par consquent les priodes de mise jour de la variance du bruit sont beaucoup plus

    grandes que les trames analys.Typiquement les priode de mise jour de w[k] varie

    entre 0.1s et 1s .

    Lors des simulations on a trouv quune priode de mise jour T s = 0.7s et une

    longueur de trames de T w= 30msdonnaient les meilleures performances.

    27

  • 7/24/2019 VAD Approche Statistique

    28/46

    EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

    Figure3.4 lorganigramme du lalgorithme VAD propos

    28

  • 7/24/2019 VAD Approche Statistique

    29/46

    Chapitre 4

    Analyse des performances du VAD

    propos

    4.1 Etude des performances pour diffrents types de

    signaux de parole

    Afin dvaluer les rsultats du VAD propos, on a essayer de dtecter lactivit vocaledans des signaux obtenus partir de la base de donne Aurora qui est une rfrence dans

    le domaine de traitement de la parole, et particulirement la dtection dactivit vocale.

    Les niveaux de SNR des signaux de cette base de donne varient de -5 dB 20 dB. Ces

    niveaux sont rpartis en trois groupes :

    1. Quiet

    2. Medium

    3. High

    Lors des simulations, on a pris un signal de chaque niveau et on les a not : S1 pour le

    signal "Quiet", S2 pour le signal "Medium" et S3 pour le signal "High".

    En observant les figures 4.2, 4.3 et 4.4 dun point de vue subjectif, on peut constater

    que le VAD propos prsente des performances acceptable. Mais une mesure objectives

    de ces performances est donne par lensemble des paramtres : PDet PFA.PDest dfinie

    par le rapport entre le nombre de trames contenant le signal vocal classifi correctement

    et le nombre rel de trames de parole. La PFA est fixe au pralable. La dcision idale

    de rfrence est obtenue par un marquage manuel des rgions de silence et de parole pourle signal non bruit.

    29

  • 7/24/2019 VAD Approche Statistique

    30/46

    EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS

    Figure4.1 signal S1 "Quiet" : a)signal bruit - b)signal non bruit - c)adaptation duseuil

    30

  • 7/24/2019 VAD Approche Statistique

    31/46

    EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS

    Figure4.2 signal S2 "Medium" : a)signal bruit - b)signal non bruit - c)adaptationdu seuil

    31

  • 7/24/2019 VAD Approche Statistique

    32/46

    EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS

    Figure4.3 signal S3 "High" : a)signal bruit - b)signal non bruit - c)adaptation duseuil

    32

  • 7/24/2019 VAD Approche Statistique

    33/46

    EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS

    4.2 tude des performances lies au temps dexcution

    Le nombre requis ditrations de Monte Carlo B est inversement proportionnel la

    PFA (la relation empirique B = 100PFA ), donc pour avoir un seuil qui garantit PFA = 104

    il faut que B = 1000000, sachant que pour B = 100 lexcution de notre algorithmesur Matlab sur un PC portable avec microprocesseur Intel I5 a pris 4.57s, lexcution

    de lalgorithme pour B = 1000000prendra approximativement 4.57 10000 = 45700s=12heureset41minutes. Ce qui rend notre algorithme non pratique pour les petites valeurs

    de PFA. Cependant dans les applications de traitement de parole une PFA de lordre de

    0.01 jusqu 0.1 est largement suffisante [1]. Pour ces valeurs, le temps de traitement pour

    un signal dont la dure est de 10 s est variant de 4 s 40s ce qui est appropri pour

    un traitement "offline". Lanalyse dune seule trame de 30 ms prend 0.270 ms pour une

    PFA= 0.1.

    Pour amliorer le temps de calcul on peut construire au pralable une Look Up Table

    (LUT) qui fait la correspondance entre le seuil et la variance du bruit estim. Ceci nous

    permet dviter de faire des simulations de Monte Carlo chaque excution du pro-

    gramme.

    33

  • 7/24/2019 VAD Approche Statistique

    34/46

  • 7/24/2019 VAD Approche Statistique

    35/46

    EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS

    Figure 4.4 influence de la longueur de la trame :a)Tw=40ms - b)Tw=15ms -c)Tw=30ms - d)signal non bruit

    35

  • 7/24/2019 VAD Approche Statistique

    36/46

    EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS

    Figure 4.5 influence du paramtre alpha :a) = 0.005 - b) = 0.85 - c) = 0.05 -d)signal non bruit

    36

  • 7/24/2019 VAD Approche Statistique

    37/46

  • 7/24/2019 VAD Approche Statistique

    38/46

    Chapitre 5

    Conclusion gnrale

    Llaboration de ce travail dans le cadre du stage de troisime anne ingnieur, nous

    a permis dapprofondir nos connaissances thoriques dans le domaine de la dtection et

    dacqurir des nouvelles mthodes de travail.

    Le stage consistait dvelopper un algorithme de la dtection dactivit vocale pour

    loptimisation de traitement de signal de parole lors des communications mobiles.

    Lalgorithme propos lors de cette tude na t test que sur des signaux de la commu-

    nication mobile noys dans diffrents types de bruits acoustiques pour diffrents niveaux

    de SNR.

    La dtermination de la densit de probabilit de la statistique du test a t difficile,

    donc nous avons opt pour lapplication de la mthode de Monte Carlo.

    Les valeurs qui ont t affectes aux diffrents paramtres sont :

    Tw = 30 msqui est la largeur de la trame.

    a= 0.05qui est le coefficient de lissage.

    Tms= 0.7qui reprsente la largeur de la fentre de lissage.

    Ces paramtres ont t choisis exprimentalement de telle sorte avoir un compromis

    entre la probabilit de dtection et la probabilit de fausse alarme, cest--dire, pour

    amliorer les performance de notre dtecteur dactivit vocale.

    Par contraintes de temps de calcul lies aux simulations de Monte Carlo, nous tions

    obligs de prendre des valeurs de PFA mdiocres, cependant, pour amliorer les perfor-mances, nous avons propos une solution base sur lutilisation dune LUT (Look Up

    38

  • 7/24/2019 VAD Approche Statistique

    39/46

    EMP CHAPITRE 5. CONCLUSION GNRALE

    Table) construite au pralable.

    Comme perspective, on propose de faire limplmentation de notre algorithme sur un

    processeur des signaux (un DSP ou un FPGA).

    Nous avons russi atteindre lobjectif demand qui est llaboration dun algorithme

    de la dtection dactivit vocale, bas sur une approche statistique.

    Ce stage concide avec notre thme de projet de fin dtude, il nous a permis dappli-

    quer nos connaissances thoriques dans le domaine du traitement du signal de la parole.

    En conclusion, ce stage nous a permis dapprendre travailler en autonomie, ainsi qu

    synthtiser une mthodologie de travail pour rsoudre les problmes que peut rencontrer

    un ingnieur.

    39

  • 7/24/2019 VAD Approche Statistique

    40/46

    Annexes

    40

  • 7/24/2019 VAD Approche Statistique

    41/46

    Annexe A

    La variable alatoire gaussienne

    complexe

    On appelle une variable alatoireZ=X+jYune VA gaussienne complexe si sa partie

    relle et sa partie imaginaire sont toutes les deux des VA gaussiennes indpendantes qui

    ont la mme variance.

    Si on suppose que les VA sont centres c--d : E[X] = E[Y] = 0 et de variance

    2X=2Y = 2

    2,la VA Z sera centre et aura comme variance 2Z=

    2X+

    2Y =

    2

    On sait que la PDF dune VA gaussienne 2 dimensions X= [XY]centr est donne

    par :

    fX(X, Y) = 1

    2

    det(C)exp

    XtC1X

    AvecCla matrice de covariance de la VA X. En remplaant C=

    2

    2 0

    0 2

    2

    On trouve :

    f(X,Y)(x, y) = 1

    24

    4

    exp

    (x

    2 + y2)

    2

    On peut crire :

    fZ(z) = 1

    2exp

    |z|

    2

    2

    Cest la PDF quon a utilis pour modliser le signal parole.

    41

  • 7/24/2019 VAD Approche Statistique

    42/46

    Annexe B

    Simulation de Monte Carlo

    Lorsque nous nous somme pas en mesure de determiner la probabilit quune variable

    alatoire dpasse une valeur donne par des mthodes analytiques ou des valuation

    numriques dune forme dexpression proche ,on fait appel aux simulation de Monte

    Carlo.

    Dans les problmes de dtection on cherche la probabilit quune VA ou une statis-

    tique Tdpasse un seuil en dautre termes :P[T > ].Lexemple suivant illustre les

    tapes suivre pour faire une simulation de Monte Carlo. Soit T(x) =Nk=1 x[k] o

    X N(0, 2I)

    Gnration des donnes

    1. Gnrer une vecteur colonne de VA,cela se fait facilement sur Matlabpar

    x=sqrt(var)*randn(N,1)o varest la variance du BBG 2

    2. Calculer T(x) =Nk=1 x[k]et cela se fait sur Matlab par T=sum(x)

    3. Rpter la procdure Mfois pour obtenir Mralisations de Ti{T1, T2, , TN} onprend gnralement M= 100/PFA [1]

    Estimation de la probabilit

    1. Compter Mle nombre de Ti qui dpasse le seuil

    2. Estimer la probabilit P[T > ] =M/M

    42

  • 7/24/2019 VAD Approche Statistique

    43/46

    Annexe C

    Code Matlab de lalgorithme VAD

    clc

    clear

    close all

    [s,Fs]=audioread(C:\Users\Zakari\Desktop\Aurora00\w10180c3.1.wav);%lowSNR

    S1=audioread(C:\Users\Zakari\Desktop\Aurora00\w10180c3.0.wav);

    Ts=1/Fs;

    a=0.05;

    Tms=0.7;

    Tw=30*10^-3;%largeur de la fenetre

    LL=round(Tms/Tw);

    L=Tw/Ts+1;%nbr dechentillons par fenetre

    ch=round(L/2);%chauvauchement entre les trames

    %%% estimation de la variance des echantillons spectraux du bruit

    %%% Initialisation

    ss=s(1:L);

    FF=fft(ss);lambdan=abs(FF).^2;

    Pf=0.1;

    B=100;

    x=zeros(1,B);

    y=zeros(1,B);

    z=zeros(1,B);

    for j=1:B

    Z0=0;for k=1:L

    43

  • 7/24/2019 VAD Approche Statistique

    44/46

    EMP

    x(k)=sqrt(lambdan(k)/2)*randn(1,1);

    y(k)=sqrt(lambdan(k)/2)*randn(1,1);

    z(k)=norm(x(k)+1i*y(k));

    Z0=Z0+z(k)/lambdan(k)-log(z(k)/lambdan(k))-1;

    end

    T0(j)=Z0;

    end

    gammapos=ceil((B+1)*(1-Pf));

    T0=sort(T0);

    gammaamp=T0(gammapos);

    gammaampv=gammaamp;

    %%% analyse de trames

    D=0;P=lambdan;

    PP=[P];

    for i=1+L-ch:L-ch:length(s)-L

    ss=s(i:i+L-1);

    nf=(i-1)/(L-ch);

    FF=abs(fft(ss)).^2;

    P=a*P+(1-a)*FF;%%

    PP=[PP P];%% Adaptation

    if mod(nf,LL)==0

    PPP=PP(:,(nf-LL+1):nf);

    lambdan=min(PPP);

    for j=1:B

    Z0=0;

    for k=1:L

    x(k)=sqrt(lambdan(k)/2)*randn(1,1);

    y(k)=sqrt(lambdan(k)/2)*randn(1,1);

    z(k)=norm(x(k)+1i*y(k));

    Z0=Z0+z(k)/lambdan(k)-log(z(k)/lambdan(k))-1;

    end

    T0(j)=Z0;

    end

    gammapos=ceil((B+1)*(1-Pf));

    T0=sort(T0);

    gammaamp=T0(gammapos);

    gammaampv=[gammaampv gammaamp];

    44

  • 7/24/2019 VAD Approche Statistique

    45/46

    EMP

    end

    %%%

    Z=0;

    for k=1:L

    Z=Z+FF(k)/lambdan(k)-log(FF(k)/lambdan(k))-1;

    end

    if Z>=gammaamp

    D=[D 1];

    else

    D=[D 0];

    end

    end

    %%% trac des resultat

    DD=D(1)*ones(1,L-ch);for k=2:length(D)

    DD=[DD D(k)*ones(1,L-ch)];

    end

    G=gammaampv(1)*ones(1,LL*(L-ch));

    long=length(gammaampv);

    for k=2:long

    G=[G gammaampv(k)*ones(1,LL*(L-ch))];

    endamp=max(s);

    t=0:Ts:(length(s)-1)*Ts;

    subplot(3,1,1)

    plot(t,s)

    title(signal bruit);

    hold on

    t=0:Ts:(length(DD)-1)*Ts;

    plot(t,(amp)*DD,r)

    hold off

    subplot(3,1,2)

    t=0:Ts:(length(S1)-1)*Ts;

    plot(t,S1)

    title(signal parole non bruit);

    subplot (3,1,3)

    t=0:Ts:(length(G)-1)*Ts;

    plot(t,G)

    xlabel(le temps (s))

    title(adaptation du seuil);

    45

  • 7/24/2019 VAD Approche Statistique

    46/46

    Bibliographie

    [1] J. Sohn and W. Sung, "A voice activity detector employing soft decision based

    noise spectrum adaptation",in Proc. Int. Conf. Acoustics, Speech, and Signal Processing,

    1998, pp. 365368.

    [2] R. Martin,"Noise Power Spectral Density Estimation Based on Optimal Smoothing

    and Minimum Statistics", IEEE Trans. Acoust., Speech, Signal Processing , VOL. 9, NO.

    5, JULY 2001.

    [3] Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square

    error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech, Signal Pro-

    cessing, vol. ASSP-32, pp. 11091121, Dec. 1984.