14
Page 1 Page 1 S.S.I., ESSI1, dimanche 9 mai 2004 S.S.I., ESSI1, dimanche 9 mai 2004 Comment analyser le signal vocal. Séance 12, 1 heure Version : mercredi 5 mai 2004 Auteur: Jean-Paul Stromboni Contenu de la séance : Le langage parlé est constitué de phonèmes Il y a des phonèmes voisés et des phonèmes non voisés, Les phonèmes voisés sont quasi-périodiques et leur spectre présente des résonances et des anti résonances L’analyse du signal vocal avec la FFT impose des durées allant de 10 à 30 milliseconde, ce qui limite la résolution La technique des fenêtres OLA permet d’enchainer les phonèmes et de créer l’intonation de la voix ou prosodie 1. Le traitement de la parole, M. Kunt, R. Boite, Presses Polytechniques Romandes, 1987 2. Introduction au traitement automatique de la parole, Thierry Dutoit, Faculté Polytechnique de Mons, 2000 3. http://tcts.fpms.ac.be/ , en plus du cours précédent, ce site contient de nombreuses adresses utiles et intéressantes. Références utilisées :

Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page 1Page 1S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Comment analyser le signal vocal.Séance 12, 1 heureVersion : mercredi 5 mai 2004Auteur: Jean-Paul Stromboni

Contenu de la séance :Le langage parlé est constitué de phonèmes Il y a des phonèmes voisés et des phonèmes non voisés, Les phonèmes voisés sont quasi-périodiques et leur spectre présente des résonances et des anti résonancesL’analyse du signal vocal avec la FFT impose des durées allant de 10 à 30 milliseconde, ce qui limite la résolutionLa technique des fenêtres OLA permet d’enchainer les phonèmes et de créer l’intonation de la voix ou prosodie

1. Le traitement de la parole, M. Kunt, R. Boite, Presses Polytechniques Romandes, 1987

2. Introduction au traitement automatique de la parole, Thierry Dutoit, Faculté Polytechnique de Mons, 2000

3. http://tcts.fpms.ac.be/, en plus du cours précédent, ce site contient de nombreuses adresses utiles et intéressantes.

Références utilisées :

Page 2: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 22S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Le langage parlé se compose de phonèmes

Pour lire à voix haute un texte ou une chaîne de caractères, un ordinateur devra enchaîner des phonèmes, et leur donner une intonation.

la langue française contient 37 phonèmes, la langue anglaise plus de 40 phonèmes, …

Avec l’alphabet phonétique SAMPA (utilisé par MBROLA), écrire le mot ‘bonjour’ phonétiquement :

SAMPA EXAMPLESi idiot, amie ému, étéE perdu, maisona alarme, patteA bâton, patteO obstacle, corpso auditeur, beauu coupable, loupy punir, élu2 creuser, deux9 malheureux, peur@ petite, fortemente~ peinture, matina~ vantardise, tempso~ rondeur, bon9~ lundi, brunj piétiner, choyerw quoi, fouineH huile, nuage

Note: 'h' (halte,hop) is not defined.

SAMPA EXAMPLES

H huile, nuagep patte, repas, capt tête, netk carte, écaille, becb bête, habile, robed dire, rondeur, chaudg gauche, égal, baguef feu, affiche, chefs soeur, assez, passeS chanter, machine, pochev vent, inventer, rêvez zéro, raisonner, roseZ jardin, manger, piègel long, élire, balR rond, charriot, sentirm madame, aimer, pommen nous, punir, bonneN ping, pong_ (silence marker)

Page 3: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 33S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Dans le signal de parole, on différencie des phonèmes voisés et des phonèmes non voisés

Les phonèmes voisés sont quasi périodiques, au contraire des phonèmes non voisés on trouve ces deux types dans le diagramme ci-dessus.En réalité, les phonèmes non voisés n’utilisent pas les cordes vocales, comme quand on siffle et qu’on utilise la bouche comme une cavitérésonante :

C’est le cas de certains phonèmes, ‘s’ et ‘f’entre autres,C’est aussi le cas quand on chuchote.

Page 4: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 44S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Le spectre d’un signal voisé présente des résonances et des antirésonances.

quasi périodicité ou pitch de période P (seconde)et de fréquence F0=1/P (Hz)durée d’analyse limitée à 10ms à 30 ms (le spectre du signal vocal est non stationnaire) formants F0, F1, F2 et éventuellement F3. spectre constitué d’harmoniques de F0 = 1/Pmodulés par les résonances et les anti résonances de l’appareil phonatoire

Page 5: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 55S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

La position relative des formants est un moyen de différencier les phonèmes voisés

Page 6: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 66S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

On peut distinguer phonèmes voisés et phonèmes non voisés avec le spectre

Pourquoi utiliser un filtre préaccentuateur ?

Page 7: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 77S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Pour analyser un signal vocal avec la FFT, il faut respecter un ensemble de contraintesLe spectre est périodique, de période feOn découpe une fenêtre d’analyse de durée D=N/feou de N pointsLe nombre de points N limite la résolution fe/N de la FFT (largeur des lo-bes de la FFT)Exemple: pour 10ms de signal vocal et pour fe=8kHz, on a N=80 et fe/N=100HzSpectre à bande étroite : pour D=30ms, la résolution devient 33,3Hz

Page 8: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 88S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Lire une phrase, c’est (1) enchaîner des phonèmes et (2) y ajouter une intonation

Pour lire à voix haute un texte écrit, il ne suffit pas de le traduire en phonèmes et de synthétiser les sons associés aux phonèmes, il faut en plus :

enchaîner les phonèmes de manière fluidey ajouter une intonation, ou prosodie pour éviter la ‘voix du robot’.

Enchaîner les phonèmes à la manière fluide d’un locuteur humain est un problème trop difficile, on enregistre plutôt des diphones :

un diphone est la liaison de deux phonè-mes voisins ; par exemple, voici les cinq diphones du mot ‘salut’ :

_s + sa + al + lu + u_ ( _ est le silence)mais le nombre de diphones possibles avec 38 phonèmes est 382 (plus important).

Créer la prosodie, c’est moduler le pitch P au cours du temps, selon la ponctuation par exemple,

en augmentant F0 pour une interrogation ou une virgule (la voix devient plus aigüe) en diminuant F0 pour un point final (c’est-à-dire que la voix devient plus grave).

Page 9: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 99S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

La technique des fenêtres OLA permet à la fois d’enchaîner les phonèmes et de créer la prosodie

OLA (pour OverLap and Add) est utilisée entre autres dans MBROLA.on enregistre un locuteur (homme, femme, français, anglais, …) dont on isole les diphones. on découpe les diphones au moyen de fenêtres de durée 2*P entrelacées (voir ci-dessous), on constitue ensuite les sons par addition de ces fenêtres entrelacées pour obtenir la fusion des diphonesen faisant varier l’intervalle de temps entre les fenêtres, on fait varier P et on crée facilement la prosodie

Page 10: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 1010S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Voici comment MBROLA code la prosodie

La syntaxe d’une ligne suit le schéma suivantphonème durée [%durée F0] n foisLes variations de la fréquence F0=1/P où P est le pitch sont linéaires. Ainsi : u 96 29 123 81 128 spécifie une durée de 96 ms, età 29% de la durée, on a F0=123Hz, à 81% de la durée, on aura F0 = 128Hz

)(mst

)(0 HzF

133

120118

123

128

0 74 99 73 96 84 100

Page 11: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 1111S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Le fonctionnement de l’appareil phonatoire explique les caractéristiques du signal vocal

Les observations précédentes conduisent à modé-liser la phonation par le filtre 1/A(z) ci-dessous dont l’entrée est soit :1. une suite d’impulsions périodiques (cas voisé) 2. un bruit blanc (cas non voisé)

Page 12: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 1212S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

La fréquence d’échantillonnage fe doit être choisie en fonction de l’appareil auditif

Définition du son en décibel, on convient que le 0dB est le seuil d’audition 10-12 W/m2

Quelles sont les limites de l’audition ?

Quelle est la zone de fréquence la plus audible ?

Quel est le seuil de dou-leur, volume sonore insupportable ?

Page 13: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 1313S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Étapes de conversion texte parole

Page 14: Comment analyser le signal vocal. - unice.frusers.polytech.unice.fr/~strombon/Formation/SSI... · la résolution fe/N de la FFT (largeur des lo-bes de la FFT) Exemple: pour 10ms de

Page Page 1414S.S.I., ESSI1, dimanche 9 mai 2004S.S.I., ESSI1, dimanche 9 mai 2004

Loi de répartition du signal vocal