60
Multimédia Licence LIOVIS Parole Modélisation & reconnaissance

Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Multimédia Licence LIOVIS

Parole Modélisation & reconnaissance

Page 2: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Plan du cours

1.  Introduction au multimédia et à la parole

2.  Acquisition

3.  Codage

4.  Reconnaissance

Page 3: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

L’avènement du « tout numérique » •  Montée en puissance progressive du « tout numérique »

Informatique

Télécommunications Médias et industries de la communication

Page 4: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Etape 1 : l’informatique •  La machine à différences de Babbage (1791) •  Les ordinateurs à lampes (1950) •  Les microprocesseurs (1980)

Un outil dont l’utilisation se propage à un nombre croissant d’utilisateurs

Page 5: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Etape 2 : les télécommunications •  L’évolution de l’informatique catalyse les télécommunications •  Les lignes téléphoniques ne supportent que le signal analogique

TELEMATIQUE = TELEcommunications + inforMATIQUE

•  Numérisation des lignes téléphoniques : Modulation par impulsion et codage (MIC) ou PCM (Pulse Code Modulation) •  Cable, fibre optique, liaison hertzienne, satellite

1ère cohabitation données/son : utilisation d’un convertisseur ou MODulateur/DEModulateur : Le MODEM

Page 6: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Etape 3 : la communication

•  Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur

•  Le numérique est une opportunité pour les industries de la communication : - informatisation des procédés et techniques de travail, - élargissement des supports (compression de l’information = plus de place

aux médias) •  Mais également une menace : les frontières des différents secteurs s’estompent.

•  Le développement de la communication est directement le fruit d’innovations

L’écrit Le son L’image

manuscrits livre

presse radio disque dessin et peinture

cinéma photographie

télévision

Imprimerie Gutemberg

Phonographe Cros

Liaison hertzienne Hertz

Tube cathodique Edison, Senlecq

Page 7: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Du « tout numérique » au multimédia

•  MULTIMEDIA : élaboration de documents comprenant de MULTiples MEDIAS

De nouveaux types de produits et services émergent peu à peu

Nouveaux modes de représentation du réel

•  Synthèse, simulations, réalité virtuelle

Enrichissement et redimensionnement

de l’information

Encyclopédie : texte + image

+ commentaire oral + séquence vidéo

Synthèse : jeux vidéo

Presse électronique

Interactivité et navigation

Cours magistral Dialogue conversation

Sens multiples : texte et hypertexte

Enchaînement linéaire des idées

Assemblage d’explorations possibles autour d’une idée

Page 8: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Support technologique de l’émergence du multimédia

•  L’acquisition et la numérisation permettent la création des objets multimédia

•  Compression et codage réduisent la quantité de données de façon réversible et non réversible

•  L’objet multimédia peut être stocké sur un support ou utilisé comme un service

•  Le service multimédia nécessite des structures de transmission adaptées à des flux importants de données numériques

Création distribution Numérisation Codage compression

Stockage infrastructure

Émergence du multimédia

Commercialisation

produits services

Page 9: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Numérisation du son •  Le son est une information complexe car dynamique •  Analogique, à variations continues, on peut représenter le son comme un flux

d’ondes •  Étendue du spectre auditif : de 20Hz à 20kHz •  Bande passante du téléphone : entre 300Hz et 3400Hz •  Bande passante du disque CD : jusqu’à 20kHz

Page 10: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Conversion AN-NA •  Étape difficile : sensibilité au bruit et perturbations, coût élevé •  Instabilités temporelles : le jitter

•  du 16 au 24 bits : fiabilité limitée dans les bits de poids faibles

•  Repliement du spectre ou aliasing

Tops théoriques

Tops échantillons

-60dB

0dB

16 bits = 65536 niveaux (96dB) ~ 14 bits réels 24bits = 16777216 niveaux (144dB) ~ 21.22 bits réels

•  Dynamique limitée : problème de la saturation des signaux numériques

Page 11: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Multimédia

La parole

Page 12: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Mécanisme de la phonation

Page 13: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Production de la parole

Trois grandes étapes

La souflerie

Le voisement

La gestuelle articulatoire poumons

Cordes vocales

Conduit vocal et

fosses nasales

Page 14: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Les sons de la parole

Mécanismes de production

Vibration des cordes vocales

Turbulences de l’air dans le conduit vocal

Relâchement d’une occlusion dans le conduit vocal

Source de voisement

Sources de bruit

Caractéristiques acoustiques de la parole

Page 15: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Description phonétique

Établir des distinctions entre les unités de signification

Les phonèmes sont les éléments sonores les plus brefs qui permettent de distinguer différents mots

[k] dans « qui » == [k] dans « cou »

Articulations différentes

même phonème en français

phonèmes différents en hongrois

Les phonèmes ne tiennent compte que des caractéristiques acoustiques pertinentes

pour les distinctions de signification

Les 36 phonèmes français

Page 16: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Classification en traits distinctifs Les phonèmes et les traits distinctifs sont des éléments abstraits

Liés aux éléments de signification. Ils ne spécifient pas Complètement le signal acoustique

nasalité

Degré d’ouverture Du conduit vocal Position de la constriction principale

Du conduit vocal

Protrusion des lèvres (arrondissement)

voisement Mode d’articulation

Position de la constriction principale (lieu d’articulation)

voyelles

consonnes

-  orales -  nasales

-  antérieures -  postérieures

- arrondies - non arrondies

-  voisées - non voisées - occlusif

- nasal - fricatif - glissant - liquide

- labiales - dentales - vélo-palatales

Page 17: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Audition

Page 18: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Analyse acoustique descriptive L’analyse fréquentielle

Équivalence des représentations Temps et fréquences

Exemple : le « la 440 Hz »

Page 19: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Signal de la parole

« She had your dark suit in greasy Wash water all year »

temps

temps

« Suit »

Page 20: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Spectre

« Suit »

Page 21: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Représentation spectrographique

Page 22: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Applications en parole

Reconnaissance de la parole Transmission

de la parole

Reconnaissance du locuteur

- IHM - Parole continue - Mots isolés - Locuteur

(Vérification) (identification)

- Téléphonie filaire - GSM, GPRS, UMTS - Transmissions audiovisuelles - Stockage, restitution de message vocaux

- IHM - Synthèse à partir du texte

(lecture automatique de messages écrits) (questionnement de bases de données) (alarmes dans les centres de surveillance) (aide aux handicapés) (etc.)

Page 23: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Pré-traitement pour la reconnaissance

Preacc. fenêtrage Codage Vecteurs acoustiques

Segmentation Découpage en trames signal

Page 24: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

0 0.5 1 1.5 2 2.5 3 3.5

x 104

-1

-0.5

0

0.5

1

0 0.5 1 1.5 2 2.5 3 3.5

x 104

-1

-0.5

0

0.5

1

1.25 1.3 1.35 1.4 1.45 1.5 1.55

x 104

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0 50 100 150 200 250 300-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Élimination du bruit

Découpage en trames

acquisition

Page 25: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Détection parole / bruit

Variance court terme du mot parenthèse

Variance du signal à comparer avec la variance du bruit

Page 26: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Segmentation phonétique

1.25 1.3 1.35 1.4 1.45 1.5 1.55

x 104

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Découpage du signal en trames entrelacées

Occurrences Du même phonème

Phonème

Décision sur plusieurs trames

Page 27: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

0 50 100 150 200 250 300-1

0

1

0 50 100 150 200 250 3000

20

40

0 50 100 150 200 250 300-0.2

0

0.2

0 50 100 150 200 250 3000

2

4

0 50 100 150 200 250 300-0.2

0

0.2

0 50 100 150 200 250 3000

1

2

trame

spectre

Pré-accentuation

Fenêtrage (Hamming)

Page 28: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

0 50 100 150 200 250 300-0.1

-0.05

0

0.05

0.1

0.15

a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12

Preacc. fenêtre Codage Vecteurs acoustiques

signal

Codages MFCC LPC FFT …

Page 29: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Codage LPC

a)  Conduit vocal b)  Modèle acoustique à

réflexion c)  Modélisation par

lignes électriques

Modèle du conduit vocal

Page 30: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Modélisation linéaire (LPC)

Coefficients LPC

Page 31: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Reconnaissance niveaux de complexité

•  Dépendance du locuteur

•  Mots isolés ou parole continue

•  Taille du vocabulaire

•  Conditions d’acquisition

Variabilité inter et intra-locuteur

Détection et reconnaissance de mots clés

Le degré de confusion augmente avec la taille

Dégradation rapide des performances

Page 32: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Robustesse des reconnaisseurs de parole

•  Bruits d’environnement •  Bruits corrélés au signal de parole (ex :reverb.)

•  Microphones, prise de son •  Bande passante fréquentielle limitée •  Élocution inhabituelle

Page 33: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Etapes de la reconnaissance

Acquisition des vecteurs acoustiques

Classification des vecteurs

Alignement temporel

Analyse syntaxique, sémantique, pragmatique

Hypothèses locales

Score global au niveau de la phrase

Contraintes vocabulaire, grammaire, sens

Acquisition et Codage

Page 34: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Méthodes de reconnaissance

•  Statistiques

•  Directes

•  Connexionnistes

•  Structurelles

Décision Bayésienne Chaînes de Markov cachées (HMM)

K-ppv et Distances Fonctions discriminantes

Modélisation Discrimination

Programmation dynamique (DTW)

Page 35: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Décision par les plus proches voisins

Aucune hypothèse sur la forme des classes ou sur celle de leurs séparatrices

Simple à mettre en oeuvre

Statistiquement efficace

Temps de calcul prohibitifs

Problème de la métrique

Page 36: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Méthodes structurelles : DTW

Classification phonétique

Étape intermédiaire (classification locale)

Etape entachée d’erreurs (variabilité spectrale importante)

Contraintes de niveau supérieur Nécessaires pour réduire les erreurs

Reconnaissance de mots

Page 37: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Reconnaissance de mots

Comparaison de séquences de vecteurs acoustiques

5000 6000 7000 8000 9000 10000 11000 12000 13000 14000-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Séquence de 59 trames 59 vecteurs acoustiques

« sept »

Page 38: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Reconnaissance de mots (suite)

1.2 1.25 1.3 1.35 1.4 1.45 1.5 1.55 1.6

x 104

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

« un »

Séquence de 25 trames 25 vecteurs acoustiques

Séquences de longueurs différentes

Page 39: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Distance entre chaînes : la distance d’édition

•  On note S(u,v) la substitution de u par v •  X.$ = $.x = x pour tout mot x •  Insertion = substitution de $ (S($,u)) •  Suppression = substitution par $ (S(u,$)) •  Matrice des coûts : C(u,v) : C(u,u) = 0 et C(u,v) > 0

La matrice des coûts permet de palier aux problèmes de mauvaise Segmentation si la différence de coût est faible pour une erreur donnée

Page 40: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Distance d’édition : algorithme

Calcul par récurrence d’une fonction D(i,j) : les distances cumulées

X = a1a2a3…an Y = b1b2b3…bm

X(i) = a1a2a3…ai Y(j) = b1b2b3…bj

X(0) = y(0) = $ D(n,m) = d(x,y) D(0,0) = d($,$) = 0

D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj)

Page 41: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

$ a a b c c b d e e a b b d $ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 a 1 0 1 2 3 4 5 6 7 8 9 10 11 12 b 2 1 1 1 2 3 4 5 6 7 8 9 10 11 c 3 2 2 2 1 2 3 4 5 6 7 8 9 10 b 4 3 3 2 2 2 2 3 4 5 6 7 8 9 d 5 4 4 3 3 3 3 2 3 4 5 6 7 8 e 6 5 5 4 4 4 4 3 2 3 4 5 6 7 e 7 6 6 5 5 5 5 4 3 2 3 4 5 6 b 8 7 7 6 6 6 5 5 4 3 3 3 4 5 d 9 8 8 7 7 7 6 5 5 4 4 4 4 4 a 10 9 8 8 8 8 7 6 6 5 4 5 5 5

Distance d’édition : exemple x = aabccbdeeabbd y=abcbdeebda Les coûts non nuls sont tous égaux à 1

Distance = 5

Page 42: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

$ a a b a c $ 0 0.5 1 1.5 2 2.5 a 0.5 0 0.5 1 1.5 2 b 1 0.5 1 0.5 1 1.5 d 1.5 1 1.5 1 1.5 2

x = aabac y=abd

Distance d’édition : autre exemple

Coûts d’insertion/suppression : 0.5,

Coûts de substitution si symboles différents : 1, sinon 0

Distance = 2

Page 43: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Distance d’édition : les limites de cette métrique

• Limitation aux substitutions d’ordre 1 • Non prise en compte de paramètres numériques

On ne dispose que de l’alphabet des symboles pour représenter la réalité des formes

Page 44: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Distance d’édition avec attributs numériques :

Distance de Bellman :

D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj)

D(i-1,j) + d(ai,bj) D(i,j) = min D(i,j-1) + d(ai,bj) D(i-1,j-1) + 2d(ai,bj)

C(ai,$) = || ai || C($,bj) = || bj || C(ai,bj) = || bj – ai ||

Exemple : d(ai,bj) = || bj – ai ||

Page 45: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Algorithme DTW (Dynamic Time Warping)

D(i-2,j-1) + 2d(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) + d(i,j) D(i-1,j-2) + 2d(i,j-1)

D(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) D(i-1,j-2)

D(i-1,j) D(i,j) = d(i,j) + min D(i,j-1) + d(i,j) D(i-1,j-1) 1

1 2

1

1

2

2 2

1 1 1

i-2

i-1

i j j-1 j-2

j j-1 j-2

j j-1 j-2

i-2

i-1

i

i-2

i-1

i

Bellman

Itakura

Page 46: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Distances locales

Distance euclidienne

Distance de Mahalanobis (Euclidienne pondérée : toutes les classes ont même matrice de covariance)

Distance d’Itakura (vecteurs LPC)

Le choix de la distance influence fortement la classification

Ex (problème des distances cumulées dans le temps): Bé, Cé, Dé, Gué, Té, Vé

Vers des métriques perceptives

Page 47: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Distances associées aux normes Ln

n = 1 (simple à évaluer)

n = 2 (euclidienne : la plus utilisée)

n = infini (tchebichef)

Problème des distances cumulées dans le temps

Page 48: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Distance de Mahalanobis

Prise en compte des densités de probabilité

Estimation des densités de probabilité

Méthode paramétrique : hypothèse gaussienne

Grand nombre d’exemples nécessaire pour l’estimation des moyennes et variances

d(a,b) = (b-a) Γ-1 (b-a)T

dM dE

mx my

Page 49: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Distance d’Itakura

Coefficients d’autocorrélation Du signal à reconnaître

Coefficients du filtre modélisant le signal à reconnaître

Coefficients du filtre modélisant le signal de référence

Page 50: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Distance d’Itakura (suite)

a = 1/A Erreur de prédiction

Signal de parole

A Signal de parole

Bruit blanc ou Peigne de Dirac

a = 1/A

b = 1/B

Signal de parole à reconnaître

Xb Erreurs de prédiction

Page 51: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Filtre inverse

Page 52: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

DTW : contraintes

Longueur du mot de référence

Longueur du kème mot testé

Contraintes locales : prédécesseurs limités garantissant un chemin strictement gauche-droite

Contraintes globales : réduction de l’espace de recherche

Contraintes de monotonicité du chemin : Début en (1,1), fin en (N,J(k))

Page 53: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

0 0.5 1 1.5 2 2.5 3 3.5

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-1

0

1

1

2

3

4

5

6

7

8

Modèles

Page 54: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

1 2 3 4 5 6 7 80

20

40

1 2 3 4 5 6 7 80

10

20

1 2 3 4 5 6 7 80

20

40

1 2 3 4 5 6 7 80

10

20

1 2 3 4 5 6 7 80

50

1 2 3 4 5 6 7 80

20

40

1 2 3 4 5 6 7 80

10

20

1 2 3 4 5 6 7 80

20

40

1

2

3

6

4

5

7

8

Les 8 modèles

Les 8 tests

Page 55: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Méthodes connexionnistes

Réseaux prédictifs

Réseaux MLP

Réseaux à poids partagés (TDNN)

Page 56: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Classification phonétique

Par discrimination Par modélisation

Trames codées

Réseau

phonème

Trames codées

Erreurs de prédiction

C4

C3

C2

C1

e2

e1

e3

e4

Page 57: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Réseaux prédictifs

Erreurs de prédiction

C4

C3

C2

C1

e2

e1

e3

e4 Trames codées

classes

Réseaux prédictifs

Page 58: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

•  But de l’apprentissage : déterminer les paramètres des prédicteurs pour minimiser l’erreur de prédiction

•  Approche par modélisation : chaque réseau modélise un

phonème, un groupe de phonèmes ou un mot •  Reconnaissance : comparaison des traits acoustiques avec

Chacun des modèles par calcul de l’erreur de prédiction

Page 59: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

MLP

Trames précédentes Trames suivantes

Trames acoustiques

Trames prédites

Matrice de distorsions

Page 60: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est

Performances en vérification du locuteur