140
Télécommunications, servi ces & usages TSI Jean-Marie Gorce Traitement de la parole -Introduction-

TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Embed Size (px)

Citation preview

Page 1: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Traitement de la parole

-Introduction-

Page 2: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Analyse-synthèse-modélisation physique-modélisation électrique-analyse spectrale-prédiction linéaire

Codage-quantification-codage par modèles-transmission

Reconnaissance-modélisation du langage-théorie de la décision-intelligence artificielle

Com. Multimodale-multimédia-son-image-les 5 sens

Compréhension-base de données

-grammaire, analyse sémantique

Identification‘speaker specific’

Restauration-analyse SNR-filtrage

Page 3: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

La paroleidée,

niveau cognitif,pensée.

Locuteur

compréhension

Auditeur

constructiongrammaticale.

commandemusculaire.

signalacoustique

=vecteur de la

parolesystème

phonatoire

prétraitementsensoriel

systèmeauditif

traitementcognitif

?????????

objectif : la communication

Page 4: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

‘la parole aux télécoms’

microphone

CAN

signal acoustiqueLocuteur Auditeur

problème : limité dans l’espace

signalélectrique

signalnumérique

CNA

signalnumérique

écouteur

signalélectriquetransmission

électromagnétique

câble

hertzien

Page 5: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Le codage de la paroledegré de complexité

-analogique RE

-numérique quantification échantillonnage

RE CAN CNA

Normes de communication

-codage modélisation compression

RE CAN CNAcodeur décod.

Page 6: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Aspects abordés dans ce cours

• modélisation du signal de parole

• le codage direct (PCM, DPCM, APCM, ADPCM)

• la prédiction linéaire (APC,LPC,RPE-LTP)

• la quantification vectorielle (VSELP, CELP,

ACELP)

• transformée en sous-bande (MBE,MELP)

• signal audio musical : HD, (MPEG, MIDI)

Page 7: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Traitement de la parole

-Etude du signal de parole-

Page 8: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Plan

production naturelle de la parole

modélisation physique

modélisation spectrale, analyse de Fourier

modélisation paramétrique autorégressive

Page 9: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

I-Production naturelle de la parole1) un peu de physiologie

oesophage

Trachée artère

glotte

langue

narines

lèvres

Caviténasale

phar

ynx C. buccale

larynx

Page 10: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Le larynx : - voisé ou non voisé - fréquence fondamentale (pitch)

glotte

épiglotte

Cordesvocales

muqueuse

Page 11: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Un son voisé est défini par :- sa fréquence fondamentale (=hauteur) - son timbre = rapport entre fondamental et harmonique

2) Le rôle des cordes vocales : sons voisés

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

temps

amp

litu

de ‘e’

Page 12: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

PharynxCavitébuccale E

souffle

cordesvocales

Cavité nasale E

3) Représentation simplifiée :

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

-0.4

-0.2

0

0.2

0.4

0.6

temps

amplitude

b on j ou r

Page 13: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

4) Les différents types de sons (phonèmes)

Les voyelles (voisées)

Orales

Nasales

cordesvocales

PharynxCavitébuccale E

souffle

Cavité nasale E

cordesvocales

PharynxCavitébuccale E

souffle

[A, E, I, O, U, OU...]

[IN, UN, AN, ON]

Page 14: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 50 100-0.2

0

0.2

0.4

t (ms)

[e]

0 50 100-0.2

0

0.2

0.4

t (ms)

[on]

0 1 2 3 4 50

10

20

30

40

50PSD [e]

f (kHz)

(dB

)

0 1 2 3 4 50

10

20

30

40

50PSD [on]

f (kHz)

(dB

)

Page 15: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Les consonnes

Liquides

Nasales

cordesvocales

PharynxCavitébuccale E

souffle

Cavité nasale E

cordesvocales Pharynx

Cavitébuccale E

souffle

[R,L]

[M,N,GN]

Page 16: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Fricatives non voisées

Fricatives voisées

PharynxCavitébuccale E

souffle

cordesvocales

[F, S, CH]

[V, Z, J] PharynxCavitébuccale E

souffle

Page 17: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 10 20 30 40 50 60 70 80 90 100-0.1

-0.05

0

0.05

0.1

t (ms)

[ch]

0 1 2 3 4 5 6 7 8 9 10-20

-10

0

10

20

30PSD [ch]

f (kHz)

(dB

)

Page 18: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Occlusives non voisées

Occlusives voisées

PharynxCavitébuccale E

souffle

cordesvocales

[P, T, K]

[B, D, G] PharynxCavitébuccale E

souffle

Cavité nasale E

Page 19: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 50 100 150-1

-0.5

0

0.5

1

t (ms)

[bon]

0 50 100 150-0.1

-0.05

0

0.05

0.1

t (ms)

[par]

[p]

[on]

[r]

[b]

[a]

Page 20: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

II-Modélisation physique

Page 21: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

III-Modélisation harmonique

Modèle de Dudley (VOCODER) également développé en 1930

Bandpass filter 1

Bandpass filter Q

Non-linearity

Non-linearity

Lowpassfilter

Lowpassfilter

Samplingrate

reduction

Samplingrate

reduction

AmplitudeCompression

AmplitudeCompression

speech

Page 22: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

DFT

0 50 100-0.2

0

0.2

0.4

t (ms)

[e]

0 1 2 3 4 50

10

20

30

40

50PSD [e]

f (kHz)

(dB

)

Transformée de Fourier = décomposition spectrale

Page 23: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Quelques propriétés spectrales

•Sons voisés Fondamental (pitch)

0 1 2 3 4 50

10

20

30

40

50PSD [e]

f (kHz)

(dB

)

Harmoniques

Formants

Page 24: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Sons non voisésBruit blanc

(souffle)

0 1 2 3 4 5 6 7 8 9 10-20

-10

0

10

20

30PSD [ch]

f (kHz)

(dB

)

Page 25: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Non stationnarité : le spectrogramme

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

-0.4

-0.20

0.2

0.4

0.6

t (s)

bonjour

t (s)

f (M

Hz)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

Page 26: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-0.1

-0.05

0

0.05

0.1

t (s)

sachez parler

t (s)

f (M

Hz)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

1

2

3

4

Page 27: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Signal aléatoire :

Densité spectrale de puissance

SignalTransformée de Fourier

Processus stationnaire, ergodiquePlusieurs réalisations,Energie finie DSP=mean(TSF)

Page 28: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Processus gaussien non corrélé

Signal

Fourier

0

DSP

Signal

Page 29: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

IV-Modélisation paramétrique

La modélisation paramétrique présentée repose sur les propriétésde la transformée en z et de la modélisation ARMA (filtres IIR; FIR).

Quelques rappels :

- transformée en z

-modélisation ARMA

-les différentes représentations des modèles AR

Page 30: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

1) La transformée en z

la transformée en Z est aux signaux échantillonnés ce que la transformée de Laplace est aux signaux continus (automatisme)

X z x k z k( )

•déf.X(z) est définie comme lasomme d’une série relativeaux échantillons temporels x[k]

étude du domaine de convergence en fonction de z

•prop. linéaritédécalage temporelconvolution temporelle

cf. cours TSI

Page 31: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•liens avec la transformée de Fourier discrète

si on restreint l’espace de z au cercle unité, z=e(j) , on retrouvela transformée de Fourier :

k

fk2jjd e]k[x)ez(X)f(X

la périodicité du spectreapparaît naturellement, enfonction de la fréquence d’échantillonnage

|z|<1

Re(z)

Im(z)

f=0

f=fe

Page 32: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Fonction de transfert numérique H(z)

h[k] x[k] y[k]=(x*h)|k

X(z) H(z) Y(z)=X(z).H(z)

Xd(f) Hd(f) Yd(f)

z=exp(j2f) z=exp(j2f)

Comme pour la TFD, le passage dans le domaine des z, permetde remplacer l’opération de convolution par une opération demultiplication => mathématiquement très intéressant

Page 33: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•cas spécifique où H(z) est un polynôme du type

H zb b z b z

a z a zq

q

pp

( ). . .

. . .

0 1

1

111

remarques : a0=1 pour unicité du modèleai, bi réels si signal réelfactorisation numérateur => q zérosfactorisation dénominateur => p pôles

Tous les pôles dans le cercle unité => stabilité du filtreTous les zéros dans le cercle unité =>phase minimale

Page 34: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•intérêt de cette structure

Y(z)=X(z).H(z)

expression dans le domaine temporel

y k a y k a y k p b x k b x k b x k pp p( ) ( ) . . . ( ) ( ) ( ) . . . ( ) 1 0 11 1

expression dans le domaine spectral

jp

pj

1

jqq

j10j

ea...ea1

eb...ebb)ez(H)f(H

Page 35: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•problème de filtrage :

•problème de modélisation:

H (z) x[k] y[k]

def. d’un gabarit

H (z) u[k] y[k]

x[k]

e[k]+

-

2) Modélisation ARMA

Page 36: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•modélisation AR (autorégressive)

- modèle ’tout pôles’- algorithmes d’estimation très rapides.- spectres présentant des pics.

•modélisation ARMA (moving average autoregressive)

- les zéros caractérisent la partie ‘moyenne ajustée’.- les pôles caractérisent la partie ‘autorégressive’.

•modélisation MA (moyenne ajustée)

- modèle ’tout zéros ’spectres doux

MA AR ordre infini

Page 37: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Exemple de modèles AR, 1 pôle réel

-0.5 0 0.5-5

0

5

10

15

20

fr

réponse spectrale

(dB

)

position des pôles

0.25

-0.25

0.5-0.5

0

0 500

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

n

réponse impulsionnelle

p=0.85p=0.6p=0.3

Page 38: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce-0.5 0 0.5-5

0

5

10

15

20

fr

réponse spectraleposition des pôles

0.25

-0.25

0.5-0.5

0

0 50-1

0

1

n

réponse impulsionnelle

(dB

)

•Exemple de modèles AR, 2 pôles conjuguésp=0.85; 0.3

p=0.85 exp(j/4)p=0.3 exp(j/2)

Page 39: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

3) Modélisation ARMA de la parole

•représentation shématique du signal de parole :

Canal 1 Canal n Esource

la source peut être un bruit blanc (sons non voisés ou chuchotés)ou 1 train périodique pour les sons voisés.

le conduit vocal peut être représenté par une succession de tubes acoustiques,(pharynx, cavité buccale, nasale) modélisés par des résonateurs.

l’émetteur, lèvres ou narines, représente une charge acoustique pour l’onde sonore qui y arrive.

Page 40: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•source pour les sons voisésG(z)

xv(k)

G zG

z z( )

0

1 11 1

0 100 200 300 400 5000

5

10

n

réponse impulsionnelle

0 1 2 3 40

10

20

30

40

50

60

f (kHz)

réponse spectrale

(dB

)

=0.97, =0.85, fE=44kHz

Page 41: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 500 1000 1500 2000 25000

1

2

3

4

5

fE=44kHz

n

Source (sortie de G(z) ) pour les sons voisés

Page 42: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•source pour les sons non voisés

Page 43: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•canal ou tube acoustique

La réponse acoustique d’un tube est caractérisée par un résonateur.

La réponse d’un résonateur est donnée par

V zA

a z a zi

i

i i

( ), ,

1 1

12

2modèle AR d’ordre 2

Chaque résonateur est un ‘formant’ dont la fréquence centrale est :

F fa

ai Ei

i

12

21 1

2cos

/,

,

Le conduit vocal est donc bien modélisé par un modèle AR, ordre 2n

V zA

a z a zi ii

n( )

, ,

1 1

12

2

1

Page 44: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 50 100-1

-0.5

0

0.5

1

1.5

n

réponse impulsionnelle

0 5

-14

-12

-10

-8

-6

-4

-2

0

2

4

f (kHz)

(dB

)

position des pôles

11kHz

-11kHz

22kHz 0

réponse spectrale

Page 45: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•L’émetteur (lèvres ou narines)

La pression observée à une certaine distance des lèvres est proportionnelleà la dérivée du volume des lèvres :

R z C z( ) 1 1modèle MA d’ordre 1

Page 46: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Son voisé

V1(z) Vn(z) R(z)G(z)

V(z)

T zT z

z z a z a zi ii

n( )

01

1 11

12

2

1

1

1 1 1

qui tend vers 1 modèle AR d’ordre 2n+1, si un des pôles de G(z) est proche de l’unité

Page 47: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Son nasalisé

les sons nasalisés font intervenir simultanément les cavités nasale et bucale.

V1(z) Vn(z) R(z)G(z)

T zT

A zT

A zA z T A z T

A z A z( )

( ) ( )( ) ( )

( ) ( )

1

1

2

2

2 1 1 2

1 2

V’ (z) R’(z)

modèle ARMA

Page 48: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

4) En résumé

•complexité de la production de la parole (sons voisés, occlusifs etc...).

•principales propriétés spectrales du signal de parole (électrique ou acoustique) : fondamentale, harmonique, formants, bande passante vocale, non stationnarité, stationnarité locale (20ms), signal stochastique

•modèles ARMA d’un processus physique (intérêt pour le codage)

•un modèle AR pouvait suffire dans certains cas.

Page 49: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Traitement de la parole

-Le codage de la parole-

Page 50: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Compression

Problématique du codage

qualité

débit

complexité coût

Page 51: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Exemple :

norme CCITT G.711Échantillonnage : 8kHzQuantification : non uniforme (A-law ou µ-law) sur 8 bitsDébit : 64kb/s

Page 52: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

A-La quantification scalaire(quantization)

L’échantillonnage

La quantification uniforme

La quantification non uniforme

La quantification différentielle

La quantification adaptative

Page 53: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

I-L’échantillonnage(sampling)

Fréquence d ’échantillonnage ???

Page 54: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Recouvrement spectral

0 1 2 3 4 5 6 7 8 9 10-20

-10

0

10

20

30PSD [ch]

f (kHz)

(dB

)

Théorème de Shannon : fmax=Fe/2•filtre anti-repliement (anti-aliasing)

Initial aliased prefiltered

Page 55: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

II-La quantification

Exemple : quantification sur 3 bits

Page 56: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•La quantification

Q(x)x y D D q qq q n ; , ,1

- L : nombre de valeurs quantifiées- b : nombre de bits de codage; L = 2b

- x(0) ... x(L) : niveaux de décision- x(0),x(L) : seuils- (i)=x(i)-x(i-1) : pas de quantification- y(1) ... y(L) : valeurs quantifiées

1° quelques définitions

Page 57: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•L’erreur de quantification : q(x)=Q(x)-x- granulation : erreur liée au nombre de valeurs choisies (e

2)

- saturation : erreur liée au dépassement des seuils (d2).

•signaux aléatoiresle signal de parole est considéré comme un signal aléatoire à moyenne nulle et variance x

2. l’erreur de quantification sera donc appelée bruit dequantification, en général à moyenne nulle (0,e

2).

x(n) y(n)+ +

q(n) q(n)

Page 58: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

[sachez parler]VS ???

-0.1 0 0.1histogramme

Page 59: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Rapport Signal-Bruit (RSB ou SNR)

22

2

log10de

xRSB

[dB]

•facteur de charge =xs/x

)log(2077.402.6 bRSB

Page 60: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° la quantification uniforme

définition : - y(i)=1/2 ( x(i-1)+x(i) )-(i)= qlqsoit i -valeurs seuils : -xs, xs

propriétés : - =2 xs /L- erreur de granulation |e|< /2

Page 61: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Page 62: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Page 63: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

3° la quantification non-uniforme

Page 64: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Transformation non-linéaire préalable

x(n) y(n)+

q(n)

Compressiondes

amplitudes

Dilatationdes

amplitudes

Signal de distribution uniforme

Page 65: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Norme: Modulation par Impulsions Codées (MIC, 64kbits/s)(Pulse Code Modulation, PCM)

Filtre 100-3400Hz

Éch.fE=8kHz

Compressiond ’amplitude

Quantification8bits

1x

xA);x(sgn

)Aln(1

)xx

Aln(1x)x(F

Ax

x0);x(sgn

)Aln(1

xA)x(F

max

1maxmax

1

max

Norme européenne

Page 66: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Représentation de la loi de compression

Page 67: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Page 68: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Page 69: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

III-La quantification différentielle(differential quantization)

1° Principe

x(n) y(n)+

q(n)

-

z-1x(n-1)

r(n)

)1(12 22xxr Décorrélation >>>

Page 70: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Gain RSB

))1(12

1log(10

x

RSB

Si x(1)>0.5, r2 < x

2,

A nombre de niveaux constant, on peut réduire le pas de quantification

et améliorer le RSB dans un rapport r2/x

2

Page 71: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

3° Mise en œuvre codage-décodage

x(n) +

q(n)

-

z-1x(n-1)

r(n) y(n)

+

z-1y(n-1)

t(n)

Intégration de l ’erreur !!!!

y(n)=x(n)+e(n); e(n)=q(n)+e(n-1)

Page 72: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Idée : coder la différence par rapport à la sortie

x(n) +

q(n)

-y(n-1)

r(n) y(n)

+

z-1y(n-1)

t(n)

Remarque : OK si le signal est correctement codé ; quantification suffisante

Page 73: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Délocalisation du décodage

x(n) +

q(n)

-y(n-1)

r(n) t(n)

z-1

y(n)

+

z-1y(n-1)

+

Page 74: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

4° Prédiction linéaire

r(n)=x(n)-x(n-1)

r(n)=x(n)-a1.x(n-1) - a2.x(n-2) - … - ap.x(n-p)

•Quel ordre p ?•Quels paramètres AR ?•Quel gain ?

•Variance de l ’erreur faible.•Erreur = bruit blanc•Justification de ce modèled’après la théorie de la parole

Page 75: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Modélisation AR

x(n) +

q(n)

-y(n-1)

r(n) t(n)

P(z)

y(n)

+

P(z)y(n-1)

+

P(z)=a1z-1 + a2z-2 + ... + apz-p

Page 76: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Système DPCM (MICD)

-0.1

-0.05

0

0.05

0.1

20ms (160 ech);8kHzARMA(6,2);2-5 bits/ech. (16-64 kb/s)

Page 77: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

IV-La quantification adaptative(adaptive quantization)

1° Principe : adapter au fur et à mesure les paramètres (AR, gain)du signal de parole

couplée avec la quantification différentielle

Modulation par Impulsions Codées Différentielle Adaptative (MICDA)Adaptive Differential Pulse Code Modulation (ADPCM)

Page 78: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Disponible sur le site Texas Instrumenthttp://www.ti.com/sc/docs/psheets/abstract/apps/bpra053.htm

Page 79: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

4) En résumé

•système PCM : fe=8kHz, 8pts/ech. 64kb/sec,

•Système ADPCM : fe=8kHz, 4<.<8pts/ech. 16-64kb/sec

Objectif :<16 kb/sec Moins de

2bits/point !!!!!!!!

Page 80: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

B-La quantification vectorielle

Principe de la quantification vectorielle

Quantification vectorielle prédictive (CELP).

1 exemple de codeur utilisé en téléphonie cellulaire : GSM.

Page 81: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

I-La quantification vectorielle(vectorial quantization)

1° Principe : Regrouper les échantillons pour les transmettre.Mieux rentabiliser chaque bit utilisé.

i(m)

Nm1N1mx)m(V

V(m) Règle du plus proche

voisin

V’1…V’ L

Inspectiondans une

table

V’1…V’ L

V’(m)

Page 82: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Exemple pour M=2 : le codage vectoriel permet d ’adapter la répartition des codes.

Page 83: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Algorithmie : Comment choisir le dicitonnaire ??

algorithme de Lloyd-Max

1- Initialiser le ‘dictionnaire’ >> niveaux

2- Appliquer la règle du plus proche voisin(minimiser l’erreur de codage) >> seuils implicites

3- Appliquer la règle du centroïde (minimiser l’erreur de décodage) >> niveaux

4- Refaire 2 et 3 jusqu’à convergence...

Page 84: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

II-LPC (linear predictive coding)1° Principe : Minimiser la corrélation entre échantillons codés simultanément pour simplifier le travail du ‘ dictionnaire ’.

Coder l ’erreur après modélisation AR

-

R(m)A(z)

i(m)V(m)

Optimisation des paramètres AR

pour chaque vecteur

Règle du plus proche

voisin

R’1…R’ L

V’(m)1/A(z)

Inspectiondans une

table

R’1…R’ L

R’(m)

V(z) = Bruit(z)/A(z)

Page 85: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Codeur prédictif excité par des codes (Code ExcitedLinear Predictive Coding, CELP) :

Minimiser les distorsions en minimisant l ’erreur relative au signal initial.

1/A(z)

i(m)V(m) Règle du

plus prochevoisin

V’1…V’ L

V’(m)Inspectiondans une

table

R’1…R’ L

1/A(z)

V’M

R’1…R’ L

AR(m)

Page 86: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

3° Prédiction long terme (long terme prediction, LTP) :

Ajouter un 2ième étage de prédiction pour prendre en comptela périodicité des sons voisés....

4° Introduction d ’un facteur perceptuel (préfiltrage W(z)) :

Utiliser les principes de ‘masquage du son’ pour concentrerl ’erreur dans les zones non perceptuelles (cf. cours sons audio).

Page 87: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

III-Codeurs GSM

passe-haut(>80Hz)

EstimationAR

Prédictionà long terme

Modélisationdu bruit

Paramètres AR

Paramètres b,Q

Index du dictionnaire

Page 88: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Norme GSM, FR (Full Rate) (RPE-LTP, Regular Pulse Excitation with Long Term Prediction)

1- Pré-accentuation H(z)=(1-0.86z-1 )2- LPC ordre 8, algorithme de Schur sur N=160échantillons.

Codage des coefficients sur 36bits/fen160ech 1.8kbit/s3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (7+2)bits/fen40ech 1.8kbit/s4- Sous échantillonnage par 3 =>4 signaux de 13 éch. On garde seulement le plus énergétique (2bits). Quantification non uniforme sur 3bits des 13 éch. Quantification non uniforme du facteur d’échelle sur 6bits. Codage (2+3*13+6)bits /fen40ech 9.4kbit/s

13kbit/s

Page 89: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Norme GSM, EFR (Enhanced Full Rate) (CELP Code Excited Linear Prediction)(GSM 06.60 version 6.0.1, release 1997)

http://www.etsi.org/

1- Pré-filtrage (passe-haut, 80Hz)2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons

Codage des coefficients sur 38bits/fen160ech 1.9kbit/s

3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (9;6 +4)bits/fen 40ech 2.3kbit/s

4- Dictionnaire à structure algébrique.Codage des coefficients 35 bits/fen 40ech 7 kbit/sCodage du gain statique 5bits/fen 40 ech 1 kbit/s

12.2kbit/s

P:/gorceGSM_juillet2000

Page 90: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons

Estimation d ’un modèle AR ordre 10 après fenêtrage WI(n) et WII(n) :- directement modèles pour les sous-fenêtres f2 et f4.

- par interpolation modèles pour les sous-fenêtres f1 et f3.

f1 f2 f3 f4

Page 91: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Codage des coefficients AR (2 vecteurs) sous forme d ’une matrice, pour les 2 fenêtres.(on code ensemble les modèles des 4 sous fenêtres d ’un ‘ frame ’

Rem : on ne code pas directement les coefficients AR, mais des coefficientséquivalents dans un espace fréquentiel équivalent. (LSF, linear spectral frequencies)

Filtre de synthèse quantifié

On obtient en sortie un bruit

zA)z(H

Filtre de blanchiment

Page 92: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2b- filtrage ‘perceptuel’

/zA

)z(A)z(W

|S(z)|

|W(z)|

s(t)

Limiter le bruit de quantification dans les zones fréquentiellesà haute énergie (formants)

Page 93: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Â(z)

Paramètres AR définis pour des fenêtres de 40 éch. (5ms)Â(z)=1+ a1.z-1 + a2.z-2 + …+a10.z-10

s(n)

160 éch.

w’(n)A(z)/A(z/)

Résumé de la phase de prédiction linéaire

Transmission et codage des paramètres d ’une fenêtre sur 2 regroupement par 2 : codage sur 38bits pour 160 échantillons (20ms), de la différence avec les vecteursprécédents.

w(n)

Page 94: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

s(n)

w’(n)

Reste une certaine périodicité >>> Prédiction long terme

Page 95: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

3- Prédiction à long terme

QLT bz1

1

zB

1)z(H

y(n)=e(n)+b.y(n-Q)

« pitch synthesis filter »

i.e. périodicité de période Q.

FiltrageFiltrage

B(z)w’(n)

160 éch.

w’’(n)

Paramètres b,Q définis pour des fenêtres de 40 éch. B(z)=1-bz-Q

Pour b : 4bits / sous-fenêtrePour Q, codage sur les sous-fenêtres - codage f1 et f3 (9bits x2) - codage de la différence pour f2 et f4 (6bits x2).

Page 96: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

4- Codage Par dictionnaire algébrique

Mot Code Impulsions Positions

1 i0, i5 0,5,10,15,20,25,30,35

2 i1, i6 1,6,11,16,21,26,31,36

3 i2, i7 2,7,12,17,22,27,32,37

4 i3, i8 3,8,13,18,23,28,33,38

5 i4, i9 4,9,14,19,24,29,34,39

Dans une fenêtre, codage des 10 / 40 échantillons les plus forts10 ech = 5 mots de 2 impulsions

Page 97: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Codage de l ’erreur W’’(n) par mots codes : c1+c2+c3+c4+c5Codage de l ’erreur W’’(n) par mots codes : c1+c2+c3+c4+c5

Mot Code i : 2 impulsions => - position de chaque impulsion (8 positions) sur 3bits.- signe de la première sur 1 bit (l ’autre signe est déduit).

code Gray 000 001 011 010 110 111 101 100

Code à transmettre : 1 101 0117 bits par mot code => 35 bits / ssfen

Codage d ’un coefficient de gain statique :Codage d ’un coefficient de gain statique :5 bits /ssfenConservation de l ’énergie du signal

Minimisation de l ’erreur de synthèse

Page 98: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

En résumé

•Codage de base (PCM) 64kbit/s. qualité téléphonique (pas audio).

•Codage adaptatif différentiel (ADPCM), même qualité à 32kbit/s. Acceptable jusqu’à 16kbit/s.

•Codage vectoriel : regrouper les valeurs à coder pour diminuer la redondance. Autour de 10kbit/s. (militaire : 4.kbit/s).

•Complexité des méthodes hybrides. Augmentation des performances. Codage en sous-bandes???

Page 99: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Traitement de la parole

-Le codage du son-

Page 100: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Compression

Problématique du codage

qualité

débit

complexité coût

Page 101: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

A-Qu ’est-ce qu ’un son ?

La parole (cf. cours précédent)

La musique

Les autres sons

Page 102: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

I-La parole(résumé)

Propriétés connues :

- fmax=3,4kHz (=> Fe=8kHz)- Processus de formation (formants, pitch, harmoniques)- Modélisation AR performante.- Loi de distribution ~ Laplace (=>A-law, µ-law)

Mise en œuvre de codeurs spécifiques très performants

Objectif :transmission d ’unmessage compréhensibleet reconnaissance du locuteur

Page 103: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

II-La musique(naturelle ou synthétique)

1° Les notespitch, fondamental, tonalité…do, re….

0La

440HzLa

220HzLa

110Hzf

même note, octave différente

1 octave = x2

Page 104: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Les harmoniques

0 5 10 15 20 25-1

0

1

Page 105: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

3° Le timbre (forme d ’onde; waveform)

Page 106: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

4° Musique :

- Somme de plusieurs notes (pitch)- Différentes formes d ’ondes (les instruments)+ chant =parole modulée.

IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE

Page 107: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

III-Les autres sons

Applications : TVHD, Vidéo, Multimédia ….

Les bruits ambiants, les onomatopées, etc….Bruits sourds (chute d ’eau…)Bruits brusques (bris de glace…)

= transmettre tout ce qui est susceptible d ’être perçupar l ’auditeur.

Page 108: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

B-Codage ‘ Audio ’

codeur décodeur

Récepteur

?

Émetteur

N ’autoriser que les pertes non perceptibles

Page 109: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

I-Modèle psychoacoustique1° Bande passante : Seuil d’audibilité d’une sinusoïde

BP=[20Hz ; 20kHz] fE>40kHz

Page 110: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

3° Masquage fréquentiel

(f1,P1=80 dB) : sinusoïde masquante(f2,P2) : P2 à émettre pour entendre f2

Page 111: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Bandes critiques fréquentielles (critical bands)

Détection de f+df ??

10 100 1k 10k

1

10

Bark

f(Hz)

1

600

f

600

flog6fB

2

Passage des Hertz au Bark

Page 112: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Courbes de masquage >> segments de droite indépendante de f1

Page 113: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

20 40 60 80 100 120 140 160 180 2000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

Exemple de bande critique en BF (120Hz)

f

1 bark

32 bandes critiques de 20 Hz à 20 kHz, f : 80-3500 Hz

Page 114: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

4° Masquage temporel

Après un son relativement fort, masquage de la bande critique(et voisines…) pendant un certain délai.

Page 115: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

4° Masquage fréquentiel et temporel

Page 116: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

5° Nouvelle approche de compression :utilisée dans MPEG

Principe : utiliser les propriétés de masquage de certaineszones de fréquence pour réduire le débit nécessaire.

Pertes non perceptibles

Passage dans le domaine de Fourier nécessaire

Codage en sous-bandes

Page 117: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

II-norme MPEG Audio

1°) Etat des lieux

Qualité Audio Numérique44.1kHz16bit (96dB relativement au seuil d ’audibilité)loi de distribution inconnue (pas de A-law)stéréo

Débit de 1,4Mbit/s

Page 118: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2°) Objectifs

•Stockage (CD) : morceau de musique de 50 ’1.4Mbit/s*50*60=5.05Gbit=630MO

•Transmission (TVHD, multimedia) : temps réel diminuer le débit pour améliorer les capacités de transmission.

Compression sans pertes audiblesNormalisation nécessaire

Page 119: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

3°) MPEG Audio

Moving Pictures Coding Experts Group

Janvier 1988 : naissance, groupe mandaté par ISO/EICMPEG = normalisation vidéo / audio / system

MPEG-1 : qualité VHS sur CD-rom(352x288 + CD audio @ 1.5Mbit/s)

MPEG-2 : TVHS, multimedia ==>TV numérique AAC (fin Avril97) Advanced Audio Coding

MPEG-4 : diminuer le débit; coder infos complémentaires ==>Multimédia

http://drogo.cselt.it/mpeg/

Page 120: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

4°) MPEG-1 audio

3 couches définies (qualité/complexité du codage)pour qualité audio :

layer 1 : 384 kb/s 1/4layer 2 : 256…192 kb/s 1/6..1/8layer 3 : 128…112 kb/s 1/10..1/12

Tx de réduction

Mais différentes fréquences d ’échantillonnage et débitsautorisés (32kHz, 44.1kHz, 48kHz)

Page 121: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

sound quality bandwidth mode bitrate reduction ratio

telephone sound 2.5 kHz mono 8 kbps * 96:1 better than shortwave 4.5 kHz mono 16 kbps 48:1 better than AM radio 7.5 kHz mono 32 kbps 24:1 similar to FM radio 11 kHz stereo 56...64 kbps 26...24:1 near-CD 15 kHz stereo 96 kbps 16:1 CD >15 kHz stereo 112..128kbps 14..12:1

*) Fraunhofer uses a non-ISO extension of MPEG Layer-3 for enhanced performance ("MPEG 2.5")

From the Fraunhofer Institute for Integrated Circuits, Applied ElectronicsCenter, IIS-A, http://www.iis.fhg.de/about/index.html

Qualité de compression, couche 3

Page 122: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Principe général de MPEG-1 (et suivants)

FiltresDécomposition

en bandes critiques

Allocation desbits (f(²))

Exploitationmasquage

Quantification+-

Codagein

Page 123: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

384 ech.

Layer 1 : Masquage fréquentiel + QScalLayer 2 : + Masquage temporelLayer 3 : + Redondance stéréo + Huffman

Page 124: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

III-Codage en sous-bandes

1°) Sous-échantillonnage

Page 125: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Spectre d ’un signal échantillonné

Constante, Sinusoïde f0=fE, ou f0=2.fE

f0-fE fEfE/2-fE/2

A

Composante continue ??

Page 126: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Recouvrement spectral

f0-fE fEfE/2-fE/2

A

Sous-échantillonnage

f0-fE fEfE/2-fE/2

A/2

Page 127: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Filtre anti-repliement

f0-fE fEfE/2-fE/2

A/2

fE/4

f0-fE fEfE/2-fE/2

A/2

Page 128: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2°) Décomposition en 2 sous-bandes

f0-fE fEfE/2-fE/2

A

Périodicité!!!

f0-fE fEfE/2-fE/2

A

Page 129: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Représentation des 2 sous-bandes

f0-fE fEfE/2-fE/2

A

f0-fE fEfE/2-fE/2

A

Page 130: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Sous-échantillonnage des 2 sous-bandes

f0-fE fEfE/2-fE/2

A/2

f0-fE fEfE/2-fE/2

A/2

Page 131: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

3°) Sur-échantillonnage

f0-fE fEfE/2-fE/2

A

f0-fE fEfE/2-fE/2

A

2.fE-2.fE

Page 132: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

dans le domaine temporel

Page 133: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Filtre passe-bas=interpolateur

f0-fE fEfE/2-fE/2

A

2.fE-2.fE

Page 134: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

4°) Sous / Sur-échantillonnage d ’un facteur m

H(z) m

m F(z)

x(n)

x’(n)

xSE(n)

xSE(n)

perte d ’information

Page 135: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

2

2

Schéma de principe de la décomposition en 2 sous-bandes

H0(z)x(n) x0(n)

H1(z)x1(n)N points

N/2 points

N/2 points

H0 : filtre réel [0; fe/4]H1 : filtre réel [fe/4; fe/2]

Page 136: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

5°) Généralisation en N sous-bandes

m

H0(z)x(n) x0(n)

H1(z)x1(n)

N points

N/m points

m

mHm(z)

F0(z) m

F1(z) m

Fm(z) mxm(n)

Page 137: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Page 138: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

6°) Les problèmes techniques

1) Le choix des filtres H : parfaits => IIR2) Approximation => choix des filtres F adaptés

(transformée en Cosinus)3) Sélectionner la bonne longueur de vecteur initial4) Nombre de bandes de fréquences

Page 139: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

7°) Les progrès MPEG-2, 4

Utiliser le modèle psycho-acoustique pour choisir le nombrede bits par bande de fréquence.

Utiliser une répartition non homogène de l’ échelle des fréquences.

Utiliser la redondance entre voies stéréo (ou 5 voies, surround).

Intégration du codage vectoriel / prédiction linéaire sur lesbandes de fréquences.

Page 140: TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

IV-ConclusionCodageaudio

(musique)

Codageparole

(téléphonie)full-duplex

Un bon codeur = répondre à des contraintes spécifiquesau plus près.

Interactions entre vectoriel / sous-bandes