Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page 1Page 1S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Comment analyser le signal vocal.Séance 12, 1 heureVersion : mercredi 5 mai 2004Auteur: Jean-Paul Stromboni

Contenu de la séance :Le langage parlé est constitué de phonèmes Il y a des phonèmes voisés et des phonèmes non voisés, Les phonèmes voisés sont quasi-périodiques et leur spectre présente des résonances et des anti résonancesL’analyse du signal vocal avec la FFT impose des durées allant de 10 à 30 milliseconde, ce qui limite la résolutionLa technique des fenêtres OLA permet d’enchainer les phonèmes et de créer l’intonation de la voix ou prosodie

1. Le traitement de la parole, M. Kunt, R. Boite, Presses Polytechniques Romandes, 1987

2. Introduction au traitement automatique de la parole, Thierry Dutoit, Faculté Polytechnique de Mons, 2000

3. http://tcts.fpms.ac.be/, en plus du cours précédent, ce site contient de nombreuses adresses utiles et intéressantes.

Références utilisées :

Page Page 22S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Le langage parlé se compose de phonèmes

Pour lire à voix haute un texte ou une chaîne de caractères, un ordinateur devra enchaîner des phonèmes, et leur donner une intonation.

la langue française contient 37 phonèmes, la langue anglaise plus de 40 phonèmes, …

Avec l’alphabet phonétique SAMPA (utilisé par MBROLA), écrire le mot ‘bonjour’ phonétiquement :

SAMPA EXAMPLESi idiot, amie ému, étéE perdu, maisona alarme, patteA bâton, patteO obstacle, corpso auditeur, beauu coupable, loupy punir, élu2 creuser, deux9 malheureux, peur@ petite, fortemente~ peinture, matina~ vantardise, tempso~ rondeur, bon9~ lundi, brunj piétiner, choyerw quoi, fouineH huile, nuage

Note: 'h' (halte,hop) is not defined.

SAMPA EXAMPLES

H huile, nuagep patte, repas, capt tête, netk carte, écaille, becb bête, habile, robed dire, rondeur, chaudg gauche, égal, baguef feu, affiche, chefs soeur, assez, passeS chanter, machine, pochev vent, inventer, rêvez zéro, raisonner, roseZ jardin, manger, piègel long, élire, balR rond, charriot, sentirm madame, aimer, pommen nous, punir, bonneN ping, pong_ (silence marker)


Dans le signal de parole, on différencie des phonèmes voisés et des phonèmes non voisés

Les phonèmes voisés sont quasi périodiques, au contraire des phonèmes non voisés on trouve ces deux types dans le diagramme ci-dessus.En réalité, les phonèmes non voisés n’utilisent pas les cordes vocales, comme quand on siffle et qu’on utilise la bouche comme une cavitérésonante :

C’est le cas de certains phonèmes, ‘s’ et ‘f’entre autres,C’est aussi le cas quand on chuchote.


Le spectre d’un signal voisé présente des résonances et des antirésonances.

quasi périodicité ou pitch de période P (seconde)et de fréquence F0=1/P (Hz)durée d’analyse limitée à 10ms à 30 ms (le spectre du signal vocal est non stationnaire) formants F0, F1, F2 et éventuellement F3. spectre constitué d’harmoniques de F0 = 1/Pmodulés par les résonances et les anti résonances de l’appareil phonatoire


La position relative des formants est un moyen de différencier les phonèmes voisés


On peut distinguer phonèmes voisés et phonèmes non voisés avec le spectre

Pourquoi utiliser un filtre préaccentuateur ?


Pour analyser un signal vocal avec la FFT, il faut respecter un ensemble de contraintesLe spectre est périodique, de période feOn découpe une fenêtre d’analyse de durée D=N/feou de N pointsLe nombre de points N limite la résolution fe/N de la FFT (largeur des lo-bes de la FFT)Exemple: pour 10ms de signal vocal et pour fe=8kHz, on a N=80 et fe/N=100HzSpectre à bande étroite : pour D=30ms, la résolution devient 33,3Hz


Lire une phrase, c’est (1) enchaîner des phonèmes et (2) y ajouter une intonation

Pour lire à voix haute un texte écrit, il ne suffit pas de le traduire en phonèmes et de synthétiser les sons associés aux phonèmes, il faut en plus :

enchaîner les phonèmes de manière fluidey ajouter une intonation, ou prosodie pour éviter la ‘voix du robot’.

Enchaîner les phonèmes à la manière fluide d’un locuteur humain est un problème trop difficile, on enregistre plutôt des diphones :

un diphone est la liaison de deux phonè-mes voisins ; par exemple, voici les cinq diphones du mot ‘salut’ :

_s + sa + al + lu + u_ ( _ est le silence)mais le nombre de diphones possibles avec 38 phonèmes est 382 (plus important).

Créer la prosodie, c’est moduler le pitch P au cours du temps, selon la ponctuation par exemple,

en augmentant F0 pour une interrogation ou une virgule (la voix devient plus aigüe) en diminuant F0 pour un point final (c’est-à-dire que la voix devient plus grave).


La technique des fenêtres OLA permet à la fois d’enchaîner les phonèmes et de créer la prosodie

OLA (pour OverLap and Add) est utilisée entre autres dans MBROLA.on enregistre un locuteur (homme, femme, français, anglais, …) dont on isole les diphones. on découpe les diphones au moyen de fenêtres de durée 2*P entrelacées (voir ci-dessous), on constitue ensuite les sons par addition de ces fenêtres entrelacées pour obtenir la fusion des diphonesen faisant varier l’intervalle de temps entre les fenêtres, on fait varier P et on crée facilement la prosodie


Voici comment MBROLA code la prosodie

La syntaxe d’une ligne suit le schéma suivantphonème durée [%durée F0] n foisLes variations de la fréquence F0=1/P où P est le pitch sont linéaires. Ainsi : u 96 29 123 81 128 spécifie une durée de 96 ms, età 29% de la durée, on a F0=123Hz, à 81% de la durée, on aura F0 = 128Hz

)(mst

)(0 HzF

133

120118

123

128

0 74 99 73 96 84 100


Le fonctionnement de l’appareil phonatoire explique les caractéristiques du signal vocal

Les observations précédentes conduisent à modé-liser la phonation par le filtre 1/A(z) ci-dessous dont l’entrée est soit :1. une suite d’impulsions périodiques (cas voisé) 2. un bruit blanc (cas non voisé)


La fréquence d’échantillonnage fe doit être choisie en fonction de l’appareil auditif

Définition du son en décibel, on convient que le 0dB est le seuil d’audition 10-12 W/m2

Quelles sont les limites de l’audition ?

Quelle est la zone de fréquence la plus audible ?

Quel est le seuil de dou-leur, volume sonore insupportable ?


Étapes de conversion texte parole


Loi de répartition du signal vocal

Documents

Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de