1-Traitement de La Parole 2007-03-16

Preview:

Citation preview

TRAITEMENT DE LA PAROLEhttp://scgwww.epfl.ch/courses

Dr. Andrzej Drygajlo, ELE 233andrzej.drygajlo@epfl.ch

Speech Processing and Biometrics Group (GTPB)Laboratoire de IDIAP (LIDIAP)

Signal Processing Institute (ITS)Swiss Federal Institute of Technology Lausanne (EPFL)

National Center of Competence in Research (NCCR)“Interactive Multimodal Information Management (IM)2”

IDIAP Research Institute, Martigny

InterSpeech - Eurospeech 2003

• 8th European Conference on Speech Communication andTechnology

• Organizer: International Speech Communication Association (ISCA)

• 1110 registered participants from47 countries

Knowledge Navigator

Implications technologiques

• Integration du téléphone– Mains libres/micro HiFi– Majordome d’accueil vocal– Vidéoconférence

• Codage de la parole– Débit/coût/qualité– Standardisation

• Synthèse– Vocabulaire illimité– Intonation naturelle– Synthèse à partir de

concepts

• Reconnaissance, compréhension– Vocabulaire illimité– Système indépendant

du locuteur

Speech/Music Discrimination and Recognition

entropy

dynamism

Music/ othersounds

Speech

CRAZY JOE

Interactive Tour-Guide Robot

Face

Loud speakers

Microphone array

Buttons

SICK laser scanner

Bumpers

Mobile robot

RoboX

EXPO.02 – Robotics Exhibition

Pourquoi?

Quelle est votre définition de la parole?

• Moyen de communication par excellence.• Information qui est véhiculée par les ondes

sonores.• C’est un bruit qui a un sens.• C’est le vecteur d’information qui différencie

l’homme de l’animal.• Signal permettant la communication entre

humains.• Je ne sais pas en français. J’espere que ça sera

plus clair après ce cours.

L’homme est-il fait pour parler?

La parole

• La parole – faculté de communiquer la pensée par un système de sons articulés émis par les organes de la phonation

• La parole – expression verbale de la pensée

Le Petit Robert 1993

La voix et le langage

• La voix – ensemble de sons produits par le système phonatoire et articulatoire

• Le langage – fonction d’expression de la pensée et de communication entre les hommes, mise en œuvre au moyen d’un système de signes vocaux (parole) et éventuellement de signes graphiques (écriture) qui constitue une langue

Le cerveau et le langage

• Le langage nous aide àstructurer le monde en concepts et à reduire la complexité des structures abstraites afin de les appréhender: c’est la propriété de « compression cognitive »

• La perception – fonction par laquelle l’esprit se représente les objets

Act de communication parlée

LOCUTEUR AUDITEUR

Idée

Traitement cognitif

Comprehénsion

Traitement cognitif Traitement cognitif

Traitement linguistique et

phonétique

Production du son

Traitement linguistique et

phonétique

Traitement linguistique et

phonétique

Système auditifpériphérique

Système auditifpériphérique

Phonétique et Phonologie

• La phonétique s’intéresse à la manière dont les sons du langage sont produits, transmis et perçus par les sujets parlants

• La phonétique – branche de la linguistique qui étudie les phonèmes

• La phonologie – science qui étudie les phonèmes non en eux-mêmes, mais quant à leur fonction dans la langue

Phonème

• Phonème (notion phonologique) – unitéminimale du langage porteuse d’une signification linguistique

• Allophone – realisationd’un phonème (un phonème peut avoir plusieurs allophones)

Phonèmes utilisés en français

La parole

• La parole est un signal réel (4D), continu, d’énergie finie, non stationnaire.

• Sa structure est complexe et variable dans le temps:– Tantôt périodique (plus exactement pseudo-

périodique) pour les sons voisés,– Tantôt aléatoire pour les sons fricatifs,– Tantôt impulsionnelle dans les phases

explosives des sons occlusifs.

• Exemple: voix-parole

Speech synthesis• Synthesis by rule• Text-to-speech

Speech synthesis• Synthesis by rule• Text-to-speech

Individuality• Speaker recognition• Speaker adaptation/normalization• Voice conversion

Individuality• Speaker recognition• Speaker adaptation/normalization• Voice conversion

Human-machine interface• Ergonomics• Subjective/objective evaluation

Human-machine interface• Ergonomics• Subjective/objective evaluation

Speech recognition/understanding

• Speaker-independent• Spontaneous speech

Speech recognition/understanding

• Speaker-independent• Spontaneous speech Speech coding

• Wide/narrow-band• Very-low-bit-rate

Speech coding• Wide/narrow-band• Very-low-bit-rateRobustness

• Noise/distortionRobustness

• Noise/distortion

Psychology

Physiology

ArticulationAcoustic

phonetics

Memory/learning

Artificial Intelligence

Acoustics

Signal processingSpeech perception

Nerve system

Speech production

Speech analysis

DatabaseDatabaseFeature extraction

(dynamics)

Speech information processing "tree" (Furui)

SpeechRecognition

SpeakerRecognition

LanguageRecognition

SpeechSynthesis

SpeechInput

SpeechOutput

MultimodalInterface

LanguageUnderstanding

LanguageGeneration

Dialogue System Database

Communication parlée homme-machine

Invention du téléphone

L’émetteur à liquide de Bell

L’émetteur à induction de Bell

0110-05

InternetInternet

VoIPVoIP

PSTNPSTN

Voice

Traffic ContentContent servers

Voice portal environment

UMTS

• UMTS – Universal Mobile TelecommunicationsSystem

• Le téléphone mobile de la 3e génération

UMTS - Swisscom

• L’opérateur propose depuis 16 novembre 2004 l’UMTS

• Swisscom à investi ‘plusieurs centaines’ de millions de francs pour créer son réseau UMTS fort de 12’000 antennes, parallèle au GMS actuel

• L’UMTS permet un débit maximal de 384 kbit/s

• Swisscom se vante de couvrir 89,74% de la population en UMTS, soit 45% du territoire suisse

MIT wearable computing people

Traitement automatique de la parole

Objectifs

A la fin du cours, les étudiants seront capablesd’appliquer les principales méthodes de traitement numérique du signal pour l’analyse, la compression, la synthèse et la reconnaissance de la parole.

Bibliographie

• A. Drygajlo, “Traitement de la parole”, EPFL, Lausanne, 2005

• R. Boite, H. Bourlard, T. Dutoit, J. Hancq, H. Leich, “Traitement de la parole”, PPUR, Lausanne 2000.

Bibliographie

• B. Gold, N. Morgan, “Speech and Audio Signal Processing”, John Wiley and Sons, New York, 2000

• T. Quatieri, “Discrete-TimeSpeech Signal Processing: Principles and Practice”, PrenticeHall PTR, Upper Saddle River, 2002.

• X. Huang, A. Acero, H.-W. Hon, “Spoken Language Processing”, Prentice Hall PTR, Upper SaddleRiver, 2001.

Contenu

• Production et perception de la parole• Analyse et modélisation de la parole• Reconnaissance de la parole• Reconnaissance du locuteur• Synthèse de la parole• Compression et codage de la parole• Communication vocale homme-machine

Production et perception de la parole

• Aperçu anatomique

• Mécanisme de la phonation• Phonétique articulatoire• Acoustique de la phonation

• Mécanisme de l’audition• Psychoacoustique

– Masquage– Bandes critiques

Modélisation de la parole

Analyse et modélisation de la parole

• Représentation numérique du signal vocal• Analyse temporelle• Analyse spectrale• Modélisation spectro-temporelle et

spectrogrammes• Analyse homomorphique• Modélisation basée sur la prédiction linéaire• Estimation des formants• Estimation de la période du fondamental

Spectrogramme d’enveloppe

Reconnaissance de la parole

• Difficultés• Méthodes déterministes

– Comparaison dynamique (DTW)– Quantification vectorielle (VQ)

• Méthodes statistiques– Modèles de Markov cachés (HMM)– Algorithmes de Baum-Welch et de Viterbi– Réseaux de neurones artificiels (ANN)

• Reconnaissance:– de mots isolés – de mots connectés – de la parole continue

Comparaison dynamique (DTW)

R

T

w

0103-19

Enveloppes spectrales Dictionnaire

Quantification vectorielle (VQ)

Gaussian Mixture Model (GMM)

1 2

1 2

1 2

( ) ( )

(1) (1) (1)

(

(2) (2) (2)

)T

T

T

v D v D

vv v

vv

v

v

D

⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥• • •• • •⎢ ⎥ ⎢ ⎥ ⎢ ⎥• • •⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Vecteurs acoustiquesd’entraînement

GMM

Paramètre 1 Paramètre 2 Paramètre D

Histogrammes

Distance = Score = vraisemblance (parole | modèle)

0104-08

Phonememodels

Featurevectors

Phoneme k-1 Phoneme k Phoneme k+1time

11 3322

Outputprobabilities

b1(x) b2(x) b3(x)

x x x

0.2 0.4 0.7

0.5 0.6 0.3

0.3

Modèles de Markov cachés (HMM)

Reconnaissance du locuteur

• Variabilité intra- et inter-locuteur• Vérification et identification du locuteur• Méthodes déterministes et statistiques• Méthodes dépendantes du texte

– Comparaison dynamique (DTW)– Modèles de Markov cachés (HMM)

• Méthodes indépendantes du texte– Quantification vectorielle (VQ)– Modèles à mélanges de gaussiens (GMM)

Identification biométrique

Empreinte digitale

Voix

Visage

Rétine

Signature

Iris

Bases de données

Trace

Population

Suspect

Population potentielle

RéférencesContrôles

Paramètres Paramètres

Affaire Données

Base des données de référence (R) du suspect

Base des données de contrôle (C) du suspect

Base des données de la population potentielle (P)

Synthèse de la parole

• Prosodie• Techniques de synthèse

– Synthèse directe– Synthèse à travers un modèle– Simulation du conduit vocal

• Systèmes de synthèse– Synthèse de messages– Synthèse à partir du texte

- Traitements linguistico-prosodiques- Synthèse par règles- Synthèse par diphones

•The DAVO articulatory synthesizer developed by George Rosen at MIT, 1958. The English Alphabet Song!

Compression et codage de la parole

• Enjeux actuels- Signal de parole dans la bande téléphonique- Signal de parole en bande élargie- Signal de parole en bande large

• Méthodes temporelles (codeurs d’onde)- MIC (PCM), MICD (DPCM), MICDA (ADPCM)- Codage en sous-bandes

• Méthodes paramétriques (vocodeurs)• Méthodes hybrides (CELP)• Normes internationales

Représentation numérique du signal vocal

• Bande large20 Hz – 20 kHzFréquence d’échantillonage – 44.1 kHz

• Bande élargie50 Hz – 7 kHzFréquence d’échantillonage – 16 kHz

• Bande téléphonique300 Hz – 3.4 kHzFréquence d’échantillonage – 8 kHz

Frequency Band of Telephone Speech

Telephone channel: 300 Hz – 3.4 kHz•Recognition of syllables 91%•Recognition of sentences 99%

20 Hz – 20 kHz

50 Hz – 7 kHz

Quantification

Bits: 16 8 4 3 2 1

Communication vocale homme-machine

• Intégration de sous-systèmes• Systèmes de dialogue• Serveurs vocaux interactifs• Systèmes de dictée• Communication vocale homme-robot

Recommended