Upload
vanhuong
View
242
Download
2
Embed Size (px)
Citation preview
TP7La reconnaissance de la paroleLa reconnaissance de la parole
(Mots-clés : voix, reconnaissance vocale)
Source : Apple
Identifier une personne par sa voix est une tâche complexe. La voix dépend de nombreux paramètres physiologiques. Les Smartphones, les ordinateurs ou les plateformes téléphonique utilisent de plus en plus la reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) pour que l’homme puisse communiquer avec les machines.
Comment fonctionne cette technique ?
DOCUMENTS MIS A DISPOSITION :
DOC. 1DOC. 1 :: Les phonèmesL’une des étapes de la reconnaissance vocale est le repérage des phonèmes. La voix peut être décomposée en une suite de sons distinctifs appelés phonèmes. Par exemple, les mots « lait » et « loup » diffèrent par un phonème respectivement repéré, en alphabet phonique, par [] et [u].
Quelques phonèmes classiques de la langue française sont donnésci-dessous :[i] : il ; ami ; souris ; lit ;[] : colère ; lait ; jamais ; fer ;[o] : mot ; peau ; dos ; faux ;[y] : rue ; but ; abus ; culotte ;[ə] : le ; me ; semer ; premier ;[ᾶ] : sans ; temps; banc ; dent ;
[e] : blé ; clé ; donner, nez ;[a] : plat ; rat ; maman ;[u] : genou ; loup ; clou ; mou ;[ø] : peu ; deux ; feu ; jeu ;[ ] : plɛ̃ ein ; fin ; pain ; demain ;[ɔ] : bon ; fond ; ombre ; mon ;
DOC. 2DOC. 2 :: Les techniques de la reconnaissance vocalePour identifier le langage parlé, deux techniques peuvent être employées en fonction de l’application utilisée.
L’approche globale s’intéresse directement aux mots. Une image acoustique (ou profil acoustique) d’un certain nombre de mots est enregistrée dans une base de données et comparée à l’image acoustique du mot prononcé. En usage normal, pour reconnaître un mot prononcé par l’utilisateur, l’appareil compare son image acoustique à celles qu’il possède en mémoire puis lui attribue alors des notes statistiques de ressemblance et décrète que le mot prononcé est celui qui a obtenu la meilleure note. Cette technique est efficace mais le nombre de mots est limité, à cause de la capacité de stockage et de traitement de la machine ;
L’approche analytique est basée sur la reconnaissance des phonèmes et syllabes. Après amplification et tri par fréquences, grâce à un jeu de filtres électroniques rappelant les « égaliseurs » des chaines haute-fidélité, un spectrogramme de la phrase prononcée est obtenu. Pour l’ordinateur, la première tâche consiste à séparer chaque phonème. Il le transforme alors en un fichier numérique sous forme de tableau de données. Il compare ensuite les tableaux obtenus à ceux que contient un dictionnaire stocké dans une base de données où sont associés phonèmes (ou groupes de phonèmes) et mots réels. L’avantage est incomparable : tous les mots de la langue française peuvent être prononcés avec seulement 36 phonèmes. Pour pallier les différences d’accents, de timbre ou de rythme de parole, on « entraîne » le système de reconnaissance en faisant lire au locuteur des phrases choisies. La plus grande difficulté est que la machine doit interpréter le sens du discours pour ne pas confondre deux phrases phonétiquement identiques (comme par exemple : « la citerne est pleine d’eau » et « la scie terne est plaine dos »).
Émetteurs et récepteurs sonores 1
DOC. 3DOC. 3 :: Spectre d’un phonème
Le spectre d’un son correspondant à un phonème fait apparaître plusieurs pics, appelés formants. Ils sont dus à des phénomènes de résonance à l’intérieur du conduit vocal ; leur fréquence dépend de la position des divers organes mis en jeu dans la voix (langues, lèvres, etc.). Les formants sont caractéristiques du phonème prononcé. Les analyses spectrales montrent que quatre à cinq formants importants sont présents dans tous les spectres de voix.
DOC. 4DOC. 4 :: Les sonagrammes (ou sonogrammes)Un sonagramme (« spectrogram » en anglais) est la représentation visuelle d’un son : il est utilisé pour identifier un son.
Il représente la fréquence en fonction du temps et l’intensité sonore associée à chaque fréquence est représentée par un code couleur qui dépend du logiciel utilisé : sur le sonagramme ci-contre, plus le point est de couleur foncée, plus l’intensité est élevée.
Sur un sonagramme, les formants sont repérés par des zones nettement colorées.
Répondre aux questions suivantes en utilisant Word ou PowerPoint. Utilisez des copies d’écrans pour illustrer les réponses ainsi que des extraits sonores enregistrés avec le logiciel Audacity.
1. Analyse d’un sonagramme Branchez le micro sur la borne bleue à l’avant de l’unité centrale et ouvrir le micro (si nécessaire) ; Ouvrez le logiciel « Frequency Analyseur » ; Réalisez le sonagramme du phonème [], suffisamment fort, pendant 2 à 3 secondes environ.
Q1.Q1. Décrire l’allure du sonagramme réalisé.Q2.Q2. Comment repère-t-on les formants sur le sonagramme ? Repérez les cinq premiers. À quoi correspondent-ils ? Q3.Q3. À quel paramètre du son du phonème correspond la fréquence du premier formant ?Q4.Q4. Comparez les sonagrammes des phonèmes [] prononcés par une voix féminine et une voix masculine.Q5.Q5. Montrez, en réalisant quelques enregistrements, qu’il est possible de reconnaître des phonèmes dans un mot par l’observation de leur sonagramme.
2. Analyse par phonèmes Branchez le micro sur la borne bleue à l’avant de l’unité centrale et ouvrir le micro (si nécessaire) ; Ouvrez le logiciel « Audacity » ; Enregistrez le signal sonore associé au phonème [] et en affichez son spectre.
Q6.Q6. Repérez les fréquences des cinq premiers formants. Que remarque-t-on ? Q7.Q7. Enregistrez les signaux sonores associés à deux phonèmes parmi ceux du document 1 puis, sur le même enregistrement, celui d’un mot contenant ces deux phonèmes. Comparez les formes des signaux et des sonagrammes.
Émetteurs et récepteurs sonores 2
Spectre du phonème []
Questions
Questions
3. Application Les voix des personnes de sexe féminin sont souvent plus aigües que celle des personnes de sexe masculin.Dans les documents ci-dessous, deux personnes, de sexes opposés, ont été enregistrées prononçant les mêmes mots.
Fig. 1 : Sonagramme du mot « envoyer » Fig. 2 : Sonagramme du mot « annuler »
Fig. 3 : Sonagramme inconnu n°1 Fig. 4 : Sonagramme inconnu n°2
Q8.Q8. Quel est le mot prononcé sur la figure 3 ? Sur la figure 4 ?Q9.Q9. Retrouvez la paire de mots prononcée par chaque personne. Associez à la personne le sexe le plus probable.
4. Conclusion Après avoir résumé le principe de la reconnaissance de la voix par approche analytique (par un schéma par exemple), montrez, à travers un ou plusieurs exemples judicieusement choisis, que la seule lecture d’un sonagramme (sans l’écoute du signal correspondant) permet de retrouver le contenu d’un message parlé.
Émetteurs et récepteurs sonores 3
Questions
TTABLEAUABLEAU DESDES COMPÉTENCESCOMPÉTENCES MISESMISES ENEN ŒUVREŒUVRE DANSDANS LL’’ACTIVITÉACTIVITÉ
COMPÉTENCES Exemples de capacités et d’aptitudes
MOBILISER SESCONNAISSANCES
Connaître les notions scientifiques du programme, le vocabulaire approprié, les symboles adaptés, les unités.
S’APPROPRIER
Rechercher, extraire et organiser l’information utile.
Adopter une attitude critique vis-à-vis de l’information.
Questionner, identifier, formuler un problème.
Reformuler.
Identifier les risques.
RÉALISER
Réaliser un montage à partir d’un schéma.
Suivre un protocole donné.
Utiliser, dans un contexte donné, le matériel à disposition.
Savoir choisir, combiner et réaliser plusieurs actions.
Effectuer un relevé de mesures.
Schématiser, construire un graphique, un tableau, etc.
Exploiter une relation, un calcul littéral.
Effectuer un calcul numérique, utiliser les symboles et les unités appropriés, utiliser la calculatrice.
Reconnaître et utiliser la proportionnalité.
Respecter les règles de sécurité, manipuler avec soin, veiller au rangement du plan de travail, etc.
ANALYSER
Émettre une hypothèse.
Identifier les paramètres qui influencent un phénomène, choisir les grandeurs à mesurer.
Élaborer ou justifier un protocole.
Proposer une méthode, un calcul, un outil adapté ; faire des essais (choisir, adapter une méthode, un protocole).
Proposer, décrire un modèle ; utiliser un modèle pour prévoir, décrire et expliquer.
Percevoir la différence entre un modèle et la réalité, entre la réalité et une simulation.
VALIDER
Estimer l’incertitude d’une mesure, faire un traitement statistique d’une série de mesures, etc.
Interpréter des résultats, juger de la qualité d’une mesure, etc.
Confronter le résultat au résultat attendu, mettre en relation, déduire.
Valider ou invalider une information, une hypothèse, etc.
COMMUNIQUER À L’AIDE DE LANGAGES OU D'OUTILS SCIENTIFIQUES
Communiquer des résultats, rédiger une solution.
Exprimer un résultat (grandeur ─ unité ─ chiffres significatifs).
Rendre compte à l’écrit ou à l’oral en utilisant un vocabulaire adapté.
ÊTRE AUTONOME, FAIRE PREUVE D’INITIATIVE
S’impliquer.
Prendre des initiatives, anticiper, faire preuve de créativité.
Travailler en autonomie.
Travailler en équipe.
Émetteurs et récepteurs sonores 4
Émetteurs et récepteurs sonores 5
CORRECTIONCORRECTION1. Analyse d’un spectrogramme Q1.Q1.
Voix masculin Voix féminine
On obtient plusieurs formants d’intensités variables et qui se trouvent à des fréquences différents selon qu’il s’agisse de l’enregistrement d’une voie féminine ou masculine.
Q2.Q2. Les formants sont repérés grâce aux lignes colorées horizontales. Le premier formant correspond à l’harmonique fondamental, les quatre autres correspondent aux harmoniques de rang 2, 3, 4 et 5. Les formants de grande intensité sonore sont repérés en blanc. Le formant de rang 1, 2, 4, 11 et 12 de la voix masculine sont de grande intensité sonore.
Les formants :
Q3.Q3. La fréquence du premier formant correspond à la hauteur du son du phonème.Q4.Q4. Les formants du phonème [], prononcé par une voix féminine, ont des fréquences plus élevée que celles d’une voix masculine. Le son du phonème est plus aigu donc l’écart en fréquence entre deux formants consécutifs est plus grand.
Q5.Q5. Grâce à la position et à l’intensité des différents formants, on peut reconnaître les phonèmes dans les mots prononcés.
Par exemple, on reconnaît dans le mot « poulet » (ci-après) les deux phonèmes [u] et [e] et dans le mot « colère » on repère les phonèmes [o], [] et [ə].
Spectrogramme du mot poulet et des phonèmes associés :
2. Analyse par phonèmes Q6.Q6. Signal sonore du phonème [] et son spectre avec Audacity :
Fréquences des 5 premiers formants :
f1 = 51 Hz f2 = 154 Hz 3 f1 f3 = 304 Hz 6 f1 (grande intensité sonore) f4 = 455 Hz 9 f1 (grande intensité sonore)f5 = 609 Hz 12 f1
On remarque que les fréquences des différents formants sont des multiples du premier (le fondamental).
Q7.Q7. Enregistrement de deux phonèmes suivant d’un mot :
Enregistrement des signaux acoustiques
Spectrogrammes
On reconnait les phonèmes [a] et [i] dans la forme du signal sonore et dans le spectrogramme associé au mot « ami ».
Enregistrements avec le logiciel « Frequency Analyser » :
Voix masculine Voix féminine
3. Application Q8.Q8. En comparant l’allure générale des différents mots, on identifie que le mot prononcé à la figure 3 est « envoyer ». À la figure 4, il s’agit du mot « annuler ».Q9.Q9. La même personne a prononcé les mots des figures 1 et 4. Les fréquences atteignent des valeurs plus grandes que dans les autres figures. Il s’agit a priori d’une personne de sexe féminin. Du coup, les figures 2 et 3 ont a priori été prononcées par la même personne de sexe masculin.
4. Conclusion
La reconnaissance vocale, domaine scientifique en plein essor, peut se décomposer en quatre étapes :
Le traitement acoustique, qui numérise le signal et le traite par analyse spectrale (appelée analyse de Fourier) ;
La décomposition du mot en phonèmes ;
L’apprentissage automatique, qui compare des séquences enregistrées à une base de séquences connues ;
Le décodage, qui reconstitue le discours le plus probable en assemblant les séquences apprises précédemment.
FICHE TP N°7 – FICHE TP N°7 – La reconnaissance de la paroleLa reconnaissance de la paroleType d’activité : Activité expérimentale (TP 1 h)
Conditions de mise en œuvre : manipulation en binômes.
Pré- requis :
DOMAINE D’ÉTUDE MOTS-CLÉS
Émetteurs et récepteurs sonores Reconnaissance vocale.
Compétences transversales :
Matériel (par table) :
- Microphone à électret, à brancher directement sur l’ordinateur.
Bureau professeur :
Rien !
COMPLÉMENTS
Spectrogramme :
Sonagramme :
Sources de l’activitéSources de l’activitéActivité n°6 p96-97 (BORDAS TLES Enseignement de Spécialité, Collection E.S.P.A.C.E Lycée)Activité n°4 p74 (HACHETTE TS Ens. Spécialité, Collection Dulaurans Durupthy)Document de Éric DAINI – Lycée Paul Cézanne – Aix en Provence (http://labotp.org)
http://outilsrecherche.over-blog.com/pages/Notes_311_Decodage_du_Signal_de_la_Parole-3082466.htmlhttp://alluin.fr/article.php?id_article=12http://alluin.fr/article.php?id_article=13http://alluin.fr/article.php?id_article=11
https://fr.wikipedia.org/wiki/Liste_des_graphies_des_phon%C3%A8mes_du_fran%C3%A7ais