Primitives sonores des langues : techniques et finalits de la
phontique de corpus Martine Toda IRCOM et LPP, UMR 7018
[email protected]
Page 3
Plan I. Primitives phontiques : les units sonores de la parole
Phonmes, traits Indices contrastifs des fricatives sibilantes
Plusieurs corrlats articulatoires Stratgies spcifiques aux
locuteurs Pertinence des indices acoustiques en fonction des
langues Conclusion partielle Convergence phontique, changement
historique, mergence des systmes phonologiques II. Vers une
approche ascendante de la diversit sonore des langues Principes
Etat de lart des ressources linguistiques et outils disponibles
Archives linguistiques Outils : transcription automatique,
alignement automatique, annotation automatique, concordanciers,
fouille Mthodes non supervises dextraction dinformation III.
Conclusion et perspectives 222/05/2012Sminaire IPS -
Strasbourg
Page 4
I. Primitives phontiques : les units sonores de la parole Etude
de cas des fricatives sibilantes
Page 5
Phonmes, traits 4 franais s japonais s s j antrieur /
postrieurnon-palatal / palatal Phonmes Gomtrie des traits
(Clements, 1985) [C ORONAL ] [+ antrieur] Lieu vocalique [+ arrire]
Trait vocalique (articulation secondaire) Trait consonantique Lieu
/s/ fr /s/ jp [C ORONAL ] [- antrieur] [+ arrondi] //// Trait de
renforcement (Stevens et al. ) 22/05/2012Sminaire IPS -
Strasbourg
Page 6
Excursus : tude de corpus laide de lchographie de la langue
toda_poster_ICPhS_2011.pdf 522/05/2012Sminaire IPS -
Strasbourg
Page 7
Questions de fond Quelles sont les primitives qui composent la
parole ? Existe-t-il un ensemble fini ? Les traits permettent-ils
une bonne reprsentation des systmes sonores des langues, ou y
aurait-il une meilleure reprsentation 622/05/2012Sminaire IPS -
Strasbourg
Page 8
Manuvres articulatoires possibles et 2 pour les lvres Analyse
en composantes principales des mouvements du visage pendant la
parole : Maeda et al. ICSLP 2002 ; Toda et al, ICPhS 2003 (n = 3)
Forme plate bombe (Au moins) 2 degrs de libert pour la langue
Position antrieure postrieure Coupes sagittales IRM (chinois), Toda
et Honda, ISSP 2003 s ( ) /r, u, w/ / / 722/05/2012Sminaire IPS -
Strasbourg
Page 9
Stratgies propres aux locuteurs En franais (n = 7 ; production
tenue, IRM) Pas de protrusion des lvres pour / / en rfrence /s/
chez certains locuteurs Recul de la langue pour / / Bombement du
dos de la langue pour / / -> cration dun chenal palatal long et
troit Toda, JEP 2006 ; thse 2009 822/05/2012Sminaire IPS -
Strasbourg
Page 10
/s/ frjp Type de contraste [+/- antrieur] [+/- arrire] les deux
japonais chinois franais lieu palatal/non-palatal franais (7) et
anglais (5)japonais (9)chinois (4), sudois (1) et polonais (2)
Etude articulatoire (IRM), Toda et Honda, ISSP2003
922/05/2012Sminaire IPS - Strasbourg
Page 11
10 quivalence acoustique Hz lCA (mm) lCPal (mm) Frquence de
coupure des 104 combinaisons (dformation) (recul) Simulations
acoustiques laide de VTF_fric (Maeda, 1982), Toda et Maeda, ISSP
2006 Complmentarit entre cavit antrieure et chenal palatal :
quivalence acoustique du spectre de bruit des deux types
articulatoires de / / 22/05/2012Sminaire IPS - Strasbourg
Page 12
Stratgies articulatoires : consquences dynamiques
pres\posterISSP2008.pdf Les articulations acoustiquement
quivalentes sur le plan statique ne sont pas ncessairement
quivalentes sur le plan dynamique (transition formantiques) En
raison de la morphologie du conduit vocal En fonction de la
combinaison de cibles articulatoires successives Simulation
acoustique (VTCalcs), Toda et Maeda, ISSP 2008 1122/05/2012Sminaire
IPS - Strasbourg
Page 13
Pertinence des indices acoustiques en fonction des langues /s/,
/ / en franais, dans les contextes /a_a/, /i_i/ et /u_u/ ; /s/ et
/s j / en japonais, dans les contextes /a_a/ et /u_u/ ; /u/ [ ]
Opposition neutralise en contexte antrieur (sauf emprunts rcents)
Bruit de friction et frquence des formants Estimation de la
robustesse des contrastes (score de distinctivit) entre /s/-/ / et
/s/-/s j / laide de la formule du T de Student Etude acoustique,
Toda, ICPhS 2007 (Hz) 1222/05/2012Sminaire IPS - Strasbourg
Page 14
Bruit de friction (CoG) JapaneseFrench DS = Contraste plus
robuste en franais 1322/05/2012Sminaire IPS - Strasbourg
Page 15
Score de distinctivit ContexteDs Jpa1.66* u1.41* Fra3.54*
i3.80* u1.91* Centre de gravit du bruit de friction Frquence
normalise des formants la jonction FV (dbut de transition) Contexte
Ds (F1) Ds (F2) Ds (F3) Ds (F4) Jpa0.33-1.39*-0.30.34
u-0.1-2.27*-0.551.46* Fra0.37-1.41*0.23.11* i0.05-0.260.180.27
u0.190.380.620.54 Calcul avec : * : diffrence significative (test T
de rangs apparis de Wilcoxon, bilatral, seuil de 0,05) |Ds| >
1,9 : moins de 10% |Ds| > 3,5 : moins de 1% de superposition
dans la distribution du T de Student 1422/05/2012Sminaire IPS -
Strasbourg
Page 16
Contraste des sibilantes : rsum En franais, langue o le bruit
de friction constitue un indice robuste pour la distinction /s/-/
/, les locuteurs ont recours des stratgies articulatoires
exploitant lquivalence acoustique du bruit, Par opposition au
japonais, langue o les transitions formantiques constituent un
indice complmentaire. 1522/05/2012Sminaire IPS - Strasbourg
Page 17
Conclusion partielle Les oppositions phonmiques (dun point de
vue statique) se ralisent diffremment en fonction des systmes
phonologiques des langues A lintrieur dune mme langue, plusieurs
solutions articulatoires peuvent tre mises en uvre, qui permettent
toutes de rpondre aux besoins de la communication Boucle
production-perception-production (Ohala 1981) Convergence phontique
(cf. Pardo 2006) Isolats (changements historiques) La recherche
dune reprsentation unique du systme phontico- phonologique dune
langue un instant t est un problme mal pos On peut toutefois dcrire
quantitativement des tendances rgulires, ou la robustesse des
indices contrastifs 1622/05/2012Sminaire IPS - Strasbourg
Page 18
II. Vers une approche ascendante de la diversit sonore des
langues Prospection
Page 19
Principes Il existe des rgularits dans les systmes sonores des
langues (principes phonologiques, universaux). La phontique vise
expliquer ces mcanismes en termes causaux, objectifs et
quantitatifs Il serait intressant de pouvoir dcrire ces phnomnes de
manire plus gnrale, dans une perspective typologique Si les
appareils phonatoire, auditif et cognitif humains sont
fonctionnellement communs tous les individus, Alors, on devrait
pouvoir isoler un nombre assez restreint de variables (primitives),
dcoulant de contraintes et proprits physiques, qui permettent de
composer le code de la parole dans toute sa varit Il sagirait de
faire une typologie fonctionnelle plutt quune typologie gntique
(apparentement linguistique) Quelle mthode ? 1822/05/2012Sminaire
IPS - Strasbourg
Page 20
Ressources et techniques mergentes Linguistique et phontique de
corpus Ressources linguistiques de plus en plus nombreuses et plus
exhaustives Outils de traitement Techniques dextraction et de
fusion de linformation sur des donnes massives Exploitation des
ressources secondaires produites par des humains Utilisation de
mthodes semi- ou non- supervises 1922/05/2012Sminaire IPS -
Strasbourg
Page 21
Ressources linguistiques orales Archives et corpus
linguistiques OLAC (Open Language Archive Community
http://www.language- archives.org/) 100000 ressources, couvrant la
moiti des langues du monde. Il ne sagit pas dun centre unique qui
stocke les donnes, mais dun rseau avec un protocole : les
ressources documentes avec des mtadonnes OLACmtadonnes OLAC
Archives du LACITO : transcriptions phontiques alignes au niveau de
la phrase + autres annotations (>1300 ressources, dont
principalement des rcits) DoBeS (MPI) : ressources (audio, vido,
texte, photos) sur les langues en danger (deux tiers des quelques
6500 langues du monde seraient voues la disparition au cours 21 me
sicle), mtadonnes IMDI AILLA (Archive of the Indigenous Languages
of Latin America), BNC (British National Corpus 10 000 000 mots),
CGN (Corpus Gesproken Nederlands 10 000 000 mots), ESTER 1 (100 h
transcrites) CRDO-Paris et SLDR (ex-CRDO-Aix) : entrepts OLAC ;
archivage institutionnel en France 2022/05/2012Sminaire IPS -
Strasbourg
Page 22
Ressources secondaires (annotations) produites par des humains
Avantages Permet dencoder de linformation linguistique complexe
(comprhension du code) Taux derreur faible Inconvnients Formats
disparates Conventions variables Standards variables (cf. TEI,
ISOcat) A priori thoriques Formats variables dus des logiciels
divers (Transcriber, Praat, Exmaralda, Elan) coteux x 10 ou x 100
le temps rel 2122/05/2012Sminaire IPS - Strasbourg
Page 23
Outils de traitement automatique dans une perspective
linguistique Alignement automatique Alignement phontique partir de
transcription phontique phrase par phrase Easyalign (extension de
Praat), Sailalign, systme du LIA Dtournement pour les langues non
prvues (via transphonologisation) Calcul dindices phontiques
(acoustiques, articulatoires, physiologiques) Approche phontique
creuser Grille de calcul ou Grille de services TGE-Adonis ?
2222/05/2012Sminaire IPS - Strasbourg
Page 24
Discrtisation de linformation contenue dans le signal de parole
Etude articulatoire (EMA) ; implmentation des points critiques
dAnanthakrishnan et Engwall, 2008. Toda, LabPhon 2010 Trajectoire
de la pointe de la langue durant la production dun nonc Points
critiques dsynchroniss dun articulateur un autre Dos de la langue
Pointe de la langue Mchoire 2322/05/2012Sminaire IPS -
Strasbourg
Page 25
Outils de fouille, de visualisation et danalyse Nombreux outils
pour la langue crite Segmentation morphologique automatique
Annotation automatique en parties du discours (Part Of Speech
tagging) et en arbres syntaxiques Concordanciers Statistiques
cooccurrences, distributions complmentaires En phontique, on aurait
besoin, en plus, de pouvoir visualiser le signal (ex. logiciel en
cours de dveloppement au LORIA, Jconc cf. http://hal.archives-
ouvertes.fr/docs/00/52/33/97/PDF/Pratiques_TCOFMVE C2010.pdf)
2422/05/2012Sminaire IPS - Strasbourg
Page 26
Alternative lannotation humaine : approches non supervises Pas
da priori Pas de biais thorique Mme mthode applicable toute
ressource sans connaissance (ou enrichissement = annotation)
pralable de la langue, c.--d. peu coteuse en travail humain
Peut-tre dcouvrirait-on des choses quon navait pas pens tudier
auparavant ? Indexation et dcouverte de motifs Catgorisation
automatique 2522/05/2012Sminaire IPS - Strasbourg
Page 27
Reprsentation simplifie, non (ou juste moins) redondante, de la
parole Utilisation des coefficients MFCC (Mel Frequency Cepstral
Coefficients) Utilisation possible dautres variables (ex.
quantification spcifiques des voyelles ex. Pellegrino 1998) Hz Mel
2622/05/2012Sminaire IPS - Strasbourg
Page 28
Dcouverte de motifs / catgorisation non-supervise Dcouverte de
motifs audio : ex. Muscariello et al. 2009a et b Technique utilise
dans ltude du gnome Dcouverte non supervise de mots (extraction de
mots clefs), malgr les variantes de production Comparaison de
portions audio laide de la programmation dynamique (dynamic time
warping) Extrait du diaporama Classification automatique, F. Rossi
2009 http://apiacoa.org/publications/teaching/dat
a-mining/clustering.pdf x y 2722/05/2012Sminaire IPS -
Strasbourg
Page 29
Conclusion et perspectives
Page 30
Rvolution numrique => rvolution scientifique ? Confronter
les paradigmes scientifiques (cf. Kuhn, 1962) une nouvelle face des
donnes Ex. OCP (Obligatory Contour Principle) et lieu consonantique
dans les racines verbales en arabe (McCarthy, 1986) Nouvelles
ressources, besoin de nouveaux outils (surtout en phontique)
Exploitation (dtournement) doutils existants Linguistique de lcrit
en avance sur loral (dans le domaine de ltude de corpus) annotation
(discrtisation) laide dindices phontiques Collaboration
transdisciplinaires TAP : Traitement automatique de la parole
(informatique - STIC) 2922/05/2012Sminaire IPS - Strasbourg
Page 31
Phontique de corpus Pour une meilleure comprhension de la
diversit sonore des langues Investigation outille Utilisation
dannotations manuelles ou dindices issus de connaissances
linguistique et phontique : ex. concordanciers Contextes
doccurrence Frquences doccurrence Variation inter-locuteurs,
rgularits intra-locuteurs Robustesse des oppositions Relation entre
vnements phontiques et fonctions linguistiques (transcriptions
phontiques) Co-occurrences ou distribution complmentaire entre
vnements phontiques Recours des mthodes non-supervises tude des
phnomnes phontiques lchelle de grands corpus Multilingues et
multi-locuteurs, plus reprsentatifs de la ralit linguistique
3022/05/2012Sminaire IPS - Strasbourg
Page 32
Rfrences Clements, 1985, The geometry of phonological features,
Phonology 2 : pp 225-252 P. A. Keating: "Phonetic and phonological
representation of stop consonant voicing", Language 60.2, 286-319,
1984 T. S. Kuhn, La structure des rvolutions scientifiques,
Flammarion 1983 (1962) McCarthy, John J. 1986. OCP Effects:
Gemination and Antigemination, Linguistic Inquiry 17, 207 263.
Muscariello, A., Gravier, G., Bimbot, F.: Variability tolerant
audio motif discovery. Multimedia Modeling 2009. Muscariello, A.,
Gravier, G., Bimbot, F. : Audio keyword extraction by unsupervised
word discovery, Interspeech 2009 Ohala, J. J. 1981. The listener as
a source of sound change. In: C. S. Masek, R. A. Hendrick, & M.
F. Miller (eds.), Papers from the Parasession on Language and
Behavior. Chicago: Chicago Ling. Soc. 178 - 203. Pellegrino, F.,
1998, "Une approche phontique en identification automatique des
langues: la modlisation acoustique des systmes vocaliques",
Doctorat, 1998, Universit Paul Sabatier, Toulouse J.S. Pardo. On
phonetic convergence during conversational interaction. JASA 119
:23822393, 2006. Stevens, K.N. and Keyser, S.J. 1989. Primary
features and their enhancement in consonants. Language 65.1,
81-106. 3122/05/2012Sminaire IPS - Strasbourg
Page 33
Bibliographie Articles et prsentations en version intgrale :
http://www.martinetoda.org/publis.htm 3222/05/2012Sminaire IPS -
Strasbourg
Page 34
Bonus A quoi servent les lvres dans /s/-/ /
Page 35
34 Constrictions dentale et linguale Coupe sagittaleCoupes
coronales Coupes sagittales et coronales IRM ( , polonais), Toda,
thse 2009 22/05/2012Sminaire IPS - Strasbourg
Page 36
35 ssssjsj s s Franais (n=7) Anglais (n=5) Japonais (n=9)
Chinois (n=4) Polonais (n=2) Aires de constriction linguale et
dentale Constriction dentale entre 2 et 8 fois la constriction
linguale Aire variable selon la sibilante et la langue
22/05/2012Sminaire IPS - Strasbourg
37 Rapport daire COA/constriction dentale ssssjsj s s Franais
(n=7) Anglais (n=5) Japonais (n=9) Chinois (n=4) Polonais (n=2)
Rapport = 22/05/2012Sminaire IPS - Strasbourg
Page 39
38 Effet de la cavit labiale sur la fonction de transfert de /
/ Normal Lvres seulement Sans lvres Locuteur Fr1 (stratgie recul )
Simulation acoustique 3D lments finis ; cf. Toda et Kitamura, IEEE
2003 22/05/2012Sminaire IPS - Strasbourg
Page 40
39 Fonctions de transfert calcules (simulation 3D ; mthode des
lments finis) Spectre moyen du bruit rel Normal Lvres seulement
Sans lvres Les lvres donnent lieu un formant labial Leur prsence a
galement comme consquence dabaisser la frquence du pic principal
affili principalement la cavit orale antrieure 22/05/2012Sminaire
IPS - Strasbourg
Page 41
40 Frquence thorique de la premire rsonance labiale La
protrusion (allongement) abaisse le formant labial Larrondissement
(diminution de laire) na pas cet effet Le statut des lvres diffre
entre les sibilantes et les vocodes tels que [u, w, ] o les lvres
font partie intgrante dun rsonateur de Helmholtz avec la cavit
orale. 14 mm10 mm FR1 = c x 1 4 x l lvres 1 cm 8750 Hz FR1 = c x 1
4 x l lvres 1,4 cm 6250 Hz /s/ //// 35000 cm/s 22/05/2012Sminaire
IPS - Strasbourg
Page 42
41 +/- 1 //// /s//s/ Spectres moyens de tous les locuteurs -
franais (n = 7) 1,5 4 kHz 5 kHz et + Abaissement du formant labial
par protrusion 22/05/2012Sminaire IPS - Strasbourg