51
Master 2 Recherche AIC & SETI Reconnaissance et interaction vocale Quelques bases de traitement du signal G. Richard « Licence de droits d'usage" http://formation.enst.fr/licences/pedago_sans.html

Master 2 Recherche AIC & SETI - Sites personnels de

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Master 2 Recherche AIC & SETI - Sites personnels de

Master 2 Recherche AIC & SETI Reconnaissance et interaction vocale

Quelques bases de traitement du signal

G. Richard

« Licence de droits d'usage"

http://formation.enst.fr/licences/pedago_sans.html

Page 2: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 2

Le « traitement du Signal » dans la

reconnaissance vocale

Modèles acoustiques

signal de parole

Analyse Décodage

Modèles linguistiques

séquence de mots reconnue

Page 3: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 3

Le « traitement du Signal » dans la

reconnaissance vocale

Modèles acoustiques

signal de parole

Analyse Décodage

Modèles linguistiques

séquence de mots reconnue

Capture du son

•Localisation de la source sonore

•Débruitage, déréverbération

•Séparation de sources

Page 4: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 4

Le « traitement du Signal » dans la

reconnaissance vocale

Modèles acoustiques

signal de parole

Analyse Décodage

Modèles linguistiques

séquence de mots reconnue

Capture du son

•Localisation de la source sonore

•Débruitage, déréverbération

•Séparation de sources

Paramétrisation

•MFCC, LPCC,..

•DNN,…

Page 5: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 5

Contenu

Objectif du cours:

• Présenter quelques bases du traitement du signal

Contenu

• Représentation de Fourier

• Échantillonnage

• Transformée en Z

• Transformée de Fourier Discrète

• Filtrage

• La représentation cepstrale

Page 6: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 6

Représentation des signaux

Qu’est-ce qu’un signal ?

Signal déterministe:

Signal aléatoire

Page 7: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 7

Représentation de Fourier

Séries de Fourier

Tout signal périodique x(t) de période T peut être

décomposé sous la forme d’une série de Fourier :

Page 8: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 8

Formule de Parseval

Soit x(t) et y(t) deux signaux périodiques de période T

Soit Alors

(Exercice)

Page 9: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 9

Formule de Parseval

Soit x(t) et y(t) deux signaux périodiques de période T

Soit Alors

En faisant n=0, on obtient

En faisant x(t) = y(t) on obtient

Interprétation: La puissance d’un signal est égale à la somme des puissances élémentaires de chacune de ses composantes.

Composante = signal « sinusoidal »

Page 10: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 10

Représentation de Fourier (temps continu)

Soit x(t) appartenant à , la transformée de

Fourier existe et appartient à

Page 11: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 11

Propriétés

Parseval

Spectre (ou densité spectrale d’énergie):

Exercice

Important ?

Page 12: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 12

Exemple: Spectre de quel signal ?

Page 13: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 13

Exemple: Spectre d’un segment de /i/

Page 14: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard

Représentation du signal

Soit un signal x(t) à valeurs continues dans le temps:

Soit x(nT) le signal échantillonné à des valeurs discrêtes t=nT

x(t)

t

x(n)=x(nT)

t

T

Page 15: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 15

Échantillonnage: Formule de Poisson

Interprétation: Echantillonnage périodisation du spectre

Page 16: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 16

Reconstruction

2 situations:

-B +B

1/T 2/T

1/T 2/T

Page 17: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 17

Échantillonnage d’un signal à bande

illimitée

Nécessité de filtrer le signal analogique pour obtenir

un signal à bande limitée avant échantillonnage

Page 18: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 18

Transformée en Z / TFTD

La transformée en Z d’un signal x(n) est donnée par:

avec

La Transformée de Fourier à Temps Discrêt (TFTD) est donnée

par:

est périodique de période 1

Page 19: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 19

Quelques résultats

Le domaine de convergence Dc est une couronne circulaire

Si x(n) est de durée finie Dc est le plan tout entier

Causalité: si x(n) est nul à gauche (x(n)= 0 pour n<0) on a

• Exemple:

Re(z)

Im(z)

R2

R1

Dc

Converge pour

Page 20: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 20

Quelques propriétés

Linéarité

Symétrie hermitienne

Convolution

Décalage fréquentiel

Décalage temporel (retard)

Page 21: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 21

Transformée de Fourier Discrète (TFD)

Par définition, la TFTD est une fonction périodique de période 1.

En pratique, nous prenons N échantillons, et on discrétise

l’intervalle de fréquences [0-1] en L valeurs telles que:

On obtient:

La TFD est alors définie par les formules directe et inverse:

Page 22: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 22

Relation TZ <-> TFD

Cela correspond à un échantillonnage de la transformée en z en

N points régulièrement espacés autour du cercle unité

Re(z)

Im(z)

N/2

Page 23: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 23

Représentation temps-fréquence

Transformée de Fourier discrête

xn |Xk| Spectrogramme

Page 24: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 24

Paramétrisation: paramètres spectraux

Paramétrisation spectrale: analyse d’un signal audio (d’après Laroche)

Page 25: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard

Description du signal de parole

Importance de la taille de la fenêtre d’analyse

Bande étroite Large bande

Spectrogrammes sur une voyelle /a/ avec un pitch montant

Page 26: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard

Spectrogramme des voyelles / a e i o u/

Page 27: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 27

Représentations du signal audio

Exemple sur un signal audio: note Do (262 Hz) jouée

par un piano et un violon.

Signal temporel

Spectrogramme

D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of

Signal Processing, oct. 2011

Page 28: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 28

Représentations du signal audio

Exploitation de propriétés perceptives: Echelles

fréquentielles non linéaires

• Transformée à « Q » constant

• Transformée temps- log(fréquence)

D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of

Signal Processing, oct. 2011

Page 29: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 29

Notions de Filtrage

Système linéaire invariant dans le temps

Filtre est caractérisé par sa réponse impulsionnelle h(n) et sa fonction de transfert H(z)

H x(n) y(n)

Entrée =Excitation Sortie

La convolution permet de caractériser la transformation

entrée/sortie réalisée par un filtre linéaire invariant.

Page 30: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 30

Notions de Filtrage (2)

Equation récurrente entrée/sortie (pour un filtre RIF)

Par transformée en Z:

Réponse en fréquence

Module Phase

Page 31: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 31

Modèle source-filtre

enveloppe spectrale, source

Modèle de

Source

Modèle du

résonateur

Source Filtre

f0

f0

f0 xn yn

Page 32: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 32

Echelle Mel

Correspond à une approximation de la sensation

psychologique de hauteur d’un son (Tonie)

Existence de formules analytiques:

Exemples:

• Gamme mel Gamme Hertz

32

Page 33: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 33

Filtre en échelle Mel

Filtrage Mel (d’après Rabiner93)

Energie dans chaque bande

Sj SN S1

33

Page 34: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 34

Représentation cepstrale

Intérêt

• Modèle source filtre de la parole

Modèle source filtre dans le domaine spectral

Cepstre (réél): somme de 2 termes

34

Page 35: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 35

Représentation cepstrale (d’après Furui2001)

Exemples:

• de Spectres à court

terme (gauche)

• et de cepstre c()

(droite)

est homogène à un

temps et est appelé

quéfrence

35

Page 36: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 36

Représentation cepstrale

Séparation de la contribution du conduit vocal et de

la source par liftrage

36

Page 37: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 37

Représentation cepstrale

Contribution de la source

Contribution du conduit vocal

(hypothèse: filtre causal, stable, minimum de phase)

37

Page 38: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 38

Représentation cepstrale

Contribution du conduit vocal

Développement en série

38

Page 39: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 39

Représentation cepstrale

Exemples de liftres (d’après Calliope89)

Gaël RICHARD – SI340 – Parole - Paramétrisation 39

Page 40: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 40

Paramétrisation MFCC

« Mel-Frequency Cepstral Coefficients »

40

Page 41: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 41

Paramétrisation MFCC

Calcul des coefficients MFCC

Une implémentation classique:

• 13 Coefficients (sans C0)

• Filtres Mels espaces de 150 Mel (largeur de bandes

300 Mels)

• Utilisation des dérivées premières et secondes

• Soit des vecteurs de 39 paramètres acoustiques

41

Page 42: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 42

Lissage cepstral

Estimation de l’enveloppe par le cepstre:

• Calcul du cepstre réel Cn, puis lifrage basses quéfrences

• Reconstruction de l’enveloppe spectrale d’amplitude E =FFT(Cn)

Gaël RICHARD – SI340 – Parole - Paramétrisation 42

Page 43: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 43

Quels paramètres aujourd’hui pour la

reconnaissance avec DNN

MFCC toujours possible mais souvent remplacé par :

- Spectrogramme

- Mel-spectrogramme (plusieurs fenêtres successives autour de la

fenêtre courante comme entrée du DNN): le plus courant

- Des « bancs de filtres perceptifs »

- Un réseau spécifique pour des features discriminants

- … voir le signal de parole brut (mais pas encore aussi

performant)

Page 44: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 44

Compléments

Pour en savoir plus:

• G. Blanchet, M. Charbit, « Signaux et images sous

Matlab », Ed. Hermès, 2001

• (existe en anglais chez ISTE, 2006)

Page 45: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 45

Compléments

Quelques transparents supplémentaires pour le

théorème d’échantillonnage

Page 46: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 46

Système linéaire invariant dans le temps

Soit x(t) un signal à énergie finie:

Page 47: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 47

Échantillonnage

Soit x(n) la version échantillonnée de xa(t) :

Peut-on reconstruire xa(t) à partir de x(n) ?

En prenant la Transformée de Fourier

Page 48: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 48

Échantillonnage (2)

Or est périodique:

Et est donc développable en série de Fourier

avec

Page 49: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 49

Échantillonnage (3)

Or

Posons t=nT

posons

Page 50: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 50

Reconstruction (2)

Sans perte d’information possible uniquement si

En choisissant

Formule de reconstruction

-B +B

Page 51: Master 2 Recherche AIC & SETI - Sites personnels de

G. Richard 51

Reconstruction pratique

Bloqueur d’ordre zéro