3 U R J U D P P H H W U H F X H L O G H V U p V X P p Vmajecstic2009.univ-avignon.fr/Actes_MajecSTIC_RJCP/RJCP/... · 2009. 11. 25. · Reconnaissance vocale : front-end, robustesse,

http://rjcp2009.univ-avignon.fr

Programme et recueil des résumés

Organisée par de jeunes chercheurspour de jeunes chercheurs

RencontresJeunes Chercheurs

en Parole

8ième CONFÉRENCE

Les 16, 17 et 18 novembre 2009A l'Université d'Avignon et des Pays de Vaucluse

La huitième édition des Rencontres Jeunes Chercheurs en Parole

Avignon, 16-18 Novembre 2009

Cette manifestation est organisée par les associations NP-LIA et AFCP ainsi que le LIA.

L’Association des Non-Permanents du Laboratoire Informatique d’Avignon,Le Laboratoire Informatique d’Avignon, l’Association Francophone de la Communication Parlée

et l’Université d’Avignon et des Pays de Vaucluse.

Le comité scientifique est composé de :

Georges Linarès, présidentNicolas AudibertOdile BagouFrédéric BéchetJean-François BonastreNathalie CamelinEric Charton

Richard DufourAnika FalkertBenoit FavreCorinne FredouilleFabrice LefèvreDriss MatroufMarie-Jean Meurs

Vladimir PopescuAlbert RillardSolange RossatoIsabelle RoussetChristophe ServanPascal Vaillant

Le comité d’organisation est composé de :

Présidente Claire Petiteau Correspondants Scientifiques Christophe ServanVice-président Raphaël Rubino Rémi Lavalley

Resp. Logistique Pierre Gotab Resp. Communication Johanne TremblayGrégory Senay Bessam FallahCaroline Buffoni Frédéric DuvertEssaid Sabir Resp. Partenaires Industriels Khalil Ibrahimi

Resp. Trésorerie Juliette Kahn Florian PinaultFlorian Verdet Daniela MaftuleacRodrigo Acuna Resp. Web Mickaël Rouvier

Resp. Edition Electronique Stanislas Oger Carlos Diego Rodrigues

4233107829539

ISBN 978-2-9534233-1-0

PROGRAMMEM

ercr

edi 1

8/1

1M

ard

i 17

/11

Lun

di 1

6/1

1

Co

nfé

ren

ce c

on

join

te

09h

00

09h

45D

isco

urs

d’in

tro

du

ctio

n

10h

15

10h

30

11h

30

13h

30

AT0

5

AT0

5

O1.

Pro

du

ctio

n

0w

19

13

2, 1

52

, 72

, 16

2

15h

15

15h

35O

2. P

ath

olo

gies

0w

19

26

2, 2

82

, 82

17h

30

12h

05

13h

20O

4. T

AP

1w08

10

2, 1

72

, 21

2, 2

72

, 62

15h

05

15h

25

09h

45

09h

00

O3.

Ph

on

étiq

ue

1w08

11

2, 2

22

, 23

2, 2

42

, 92

Co

nfé

ren

ce c

on

join

te

AT0

5Fr

édér

ic B

eau

gen

dre

Yves

Jea

nn

eret

09h

30

10h

15

11h

45

13h

40O

5.

Perc

epti

on

1w08

12

2, 1

82

, 20

2, 2

52

15h

25

Co

nfé

ren

ce a

cad

émiq

ue

1w08

Sola

nge

Ro

ssat

o

18h

00D

iner

de

gala

Vis

ite

du

Pal

ais

des

Pap

es e

t d

égu

stat

ion

de

vin

sPro

gram

me

de

la c

on

fére

nce

RJC

P 2

00

9

No

ms

com

ple

ts d

es s

essi

on

s :

O1

Pro

du

ctio

nO

2P

ath

olo

gies

O3

Ph

on

étiq

ue

O4

Trai

tem

ent a

uto

mat

iqu

e d

e la

par

ole

O5

Per

cep

tio

n

Foru

m

0w16

15h

40R

emis

e d

es B

est

Pap

ers

Dis

cou

rs d

e cl

ôtu

re

Ph

ilip

pe

Mic

hel

on

Acc

uei

lH

all d

’en

trée

Pau

seH

all d

’en

trée

Déj

eun

erR

esta

ura

nt

Pau

seH

all d

’en

trée

Déj

eun

erR

esta

ura

nt

Déj

eun

erR

esta

ura

nt

Acc

uei

lH

all d

’en

trée

Pau

seH

all d

’en

trée

Acc

uei

lH

all d

’en

trée

17h

15

20h

0018

h15

Tap

alo

cas

Tab

le

ron

de 0w

16

Hal

l d’e

ntr

ée

i

CONFÉRENCES INVITÉES

Conférence conjointe MajecSTIC et RJCPLundi 16/11 de 10h30 à 11h30 Amphithéâtre AT05

Yves JEANNERETLaboratoire Culture et Communication, Université d’Avignon et des Pays de Vaucluse

“Sciences de la communication, sciences de l’information et de la communication, sciences ettechnologies de l’information et de la communication : un sens peut en cacher un autre”

voir page iii

Conférence conjointe MajecSTIC et RJCPMardi 17/11 de 17h15 à 18h15 Amphithéâtre AT05

Frédéric BEAUGENDREVoice-Insight, Bruxelles

“Perspectives industrielles dans le domaine des technologies vocales”

voir page iv

Conférence académique RJCPMercredi 18/11 de 10h15 à 11h45 Salle 1w08

Solange ROSSATOLaboratoire d’Informatique de Grenoble

“Phonétique acoustique et articulatoire : des résonnances aux coefficients utilisés en TA”

voir page v

ii

Conférence conjointe MajecSTIC et RJCP

Lundi 16/11 de 10h30 à 11h30 Amphithéâtre AT05

Président : Philippe Michelon

Sciences de la communication, sciences de l’information et de la communication,sciences et technologies de l’information et de la communication : un sens peut en

cacher un autre

Yves JEANNERETLaboratoire Culture et Communication, Université d’Avignon et des Pays de Vaucluse

Biographie

Professeur à l’Université d’Avignon et des Pays de Vaucluse, membre du Laboratoire Culture et Communica-tion et directeur de recherche dans le programme de doctorat international Muséologie, médiation, patrimoine,Yves Jeanneret mène des recherches sur la circulation des savoirs, l’écriture, les transformations médiatiqueset l’épistémologie de sciences sociales. Il est aussi membre du Collège des Etudes Doctorales et membredu Conseil Scientifique de l’Université d’Avignon et des Pays de Vaucluse. Yves Jeanneret s’intéresse auxthématiques de recherche suivantes :– Analyse de la circulation des savoirs et des objets culturels dans la société : médiation, divulgation, com-

munication scientifique et technique, médiatisation de la littérature, muséologie.– Analyse des médiations écrites : sémiotique de l’écriture, modalités de circulation et de transformation des

écrits, rôle de l’énonciation écrite, des supports de l’écriture et des pouvoirs éditoriaux dans la culture.– Analyse des transformations médiatiques : étude du rapport entre médiatisation technique et médiation

symbolique, étude des médias informatisés et du texte de réseau, analyse des usages et de leurs normes– Épistémologie des sciences sociales : analyse de l’activité d’écriture et de textualisation dans la recherche,

de la circulation des savoirs en sciences sociales, étude des critères et ressorts de l’analyse communication-nelle, étude des rapports entre sémiotique et communication.

Résumé

La communication, fondée sur une expérience subjective de participation à l’animation de recherche dansune discipline et à la reconnaissance d’un champ disciplinaire complexe au CNRS et à l’ANR, interrogerales relations qui peuvent s’établir entre constructions institutionnelles, schèmes d’intelligibilité et enjeuxdes recherches dans un domaine que certains définissent comme un secteur, d’autres un champ d’analyseet d’autres un objet théorique. De même que certains ne voyaient pas la nécessité de créer une sociologie àla fin du 19ème siècle parce que tout le monde peut penser le social, beaucoup estiment aujourd’hui que lacommunication ne mérite pas d’être instituée en discipline. Pour discuter cette question, il faut se débattreentre l’institution sociale, l’institution cognitive et la poétique des savoirs. On ne fera ici qu’esquisser cetteréflexion ambitieuse et pourtant essentielle, dans une société qui revendique en permanence la communicationsans réellement la prendre au sérieux comme objet conceptuel. Plus personne ne pense qu’observer la chutedes corps suffit pour être physicien. Quand en viendra-t-on là pour les faits de communication dans la société ?

iii

Conférence conjointe MajecSTIC et RJCP

Mardi 17/11 de 17h15 à 18h15 Amphithéâtre AT05

Président : Georges Linarès

Perspectives industrielles dans le domaine des technologies vocales

Frédéric BEAUGENDREVoice-Insight, Bruxelles

Biographie

Frédéric Beaugendre est spécialiste dans le domaine des technologies vocales depuis le début des années 1990.Après avoir réalisé une thèse de doctorat et un post-doctorat en synthèse vocale dans le milieu académique, il apu exercer depuis 1997 les fontions de chercheur et chef de projets au sein de trois entreprises spécialisées dansles différentes disciplines du domaine vocale et du traitement du langage naturel. Cette expérience industriellea été acquise au sein d’entreprises développant les technologies de base (reconnaissance et synthèse vocalenotamment) aussi bien que d’intégrateurs de ces technologies pour des applications industrielles et grand-public. Frédéric Beaugendre s’intéresse aux thématiques de recherche suivantes :– Reconnaissance vocale : front-end, robustesse, adaptation, modélisation acoustique, langue tonales, mod-

èles de langage– Synthèse vocale : Synthèse par concaténation, par HMMs, prosodie, perception, évaluation

Résumé

La marché des technologies vocales se divise aujourd’hui en deux segments principaux que sont les applica-tions dans le domaine de la téléphonie d’une part, et les applications multimedia, industrielles et embarquéesd’autre part. Après un fourmillement d’activités dans le domaine pendant des années 1990, les analyses finan-cières promettant une croissance importante des revenus à court terme sur ce marché, le nombre d’entreprisesfournisseur de cette technologie a substantiellement diminué depuis le début des années 2000. Aujourd’hui,peu d’acteurs subsistent, même si paradoxalement la technologie n’a jamais atteint un tel niveau de maturité.Dans ce contexte, l’objectif de cet exposé est de faire un survol des technologies vocales et leur évolutionrécente, et d’en présenter les principales perspectives industrielles associées à court et moyen terme.

iv

Conférence académique RJCP

Mercredi 18/11 de 10h15 à 11h45 Salle 1w08

Président : Georges Linarès

Phonétique acoustique et articulatoire : des résonnances aux coefficientsutilisés en TA

Solange ROSSATOLaboratoire d’Informatique de Grenoble

Biographie

Solange Rossato est Maître de Conférence en Sciences du Langage à l’Université Stendhal Grenoble III. Elleeffectue sa recherche au Laboratoire d’Informatique de Grenoble, au sein de l’équipe GETALP ainsi qu’àGIPSA-Lab. Ses thématiques de recherche se situent dans le cadre de la phonétique acoustique et de l’interfaceentre phonétique et phonologie. Elle a travaillé plus spécifiquement sur la nasalisation et l’émergence desvoyelles nasales ainsi que sur certaines caractéristiques spécifiques de la voix (affects, reconnaissance dulocuteur...) en étudiant aussi bien les processus humains que le traitement automatique de la parole.

Résumé

Cette présentation s’attache à décrire les liens simples entre forme du conduit vocal et résonnances, en reliantles formants des voyelles aux cavités. L’interprétation des formants en termes de résonnances de cavitéspermet d’expliquer les effets acoustiques de l’arrondissement ou la différence des valeurs formantiques entrehommes, femmes et jeunes enfants. Ces modélisations facilitent la lecture de spectrogramme en français. Ladeuxième partie s’intéressent aux coefficients utilisés en Traitement Automatique tels que les LPCC, MFCC,PLP et aux théories phonétiques qui y sont rattachées.Une partie pourra se faire sous forme de TD.

v

INDEX DES SESSIONS

• Lundi 16/11 de 13h30 à 15h15- Session Orale - O1 - Production ................................................................................................................... 1

Président : Nicolas Audibert

• Lundi 16/11 de 15h35 à 17h30- Session Orale - O2 - Pathologies .................................................................................................................. 2

Président : Gilles Pouchoulin

• Mardi 17/11 de 9h45 à 12h05- Session Orale - O3 - Phonétique ................................................................................................................... 2

Présidente : Christine Meunier

• Mardi 17/11 de 13h20 à 15h05- Session Orale - O4 - Traitement automatique de la parole .............................................................................. 3

Président : Yannick Estève

• Mercredi 18/11 de 13h40 à 15h25- Session Orale - O5 - Perception .................................................................................................................... 4

Présidente : Corinne Fredouille

vi

PROGRAMME DÉTAILLÉ

LUNDI 16/11 DE 13H30 À 15H15

• Session Orale - O1Production

Lundi 16/11 de 13h30 à 15h15, 0w19

132 : Etude articulatoire du mouvement d’étirement etd’ouverture des lèvres lors d’émotions et une attitudesimulées.Laurianne Georgeton

– ilpga

RésuméDans cette étude, nous nous sommes intéressée aux varia-tions articulatoires des lèvres (étirement et ouverture auxlèvres) pour quatre voyelles du français /a/, /i/, /u/ et /y/lors d’émotions (anxiété, dégoût, colère, joie et tristesse)et une attitude (tendresse) simulée. Nous avons utilisé desmarqueurs placés autours des lèvres. Le mouvement deslèvres a été étudié grâce au Qualisys qui utilisent un sys-tème de caméra infra-rouge. Les coordonnées en 3D desmarqueurs sont ensuite reconstruites puis étudiées. Cetteétude a montré que les contrastes intrinsèques (donc atten-dus) des voyelles ne sont pas observables lors de la parolenormale. Le geste d’étirement est maximisé lors de la réal-isation de la joie et de la tendresse. Le geste d’ouvertureaux lèvres est maximisé lors de la colère, du dégoût et del’anxiété.

152 : Représentations cérébrales des articulateurs dela paroleKrystyna Grabski, Marc Sato, Jean-Luc Schwartz, LaurentLamalle, Coriandre Vilain

– Gipsa-Lab– INSERM

RésuméIn order to localize cerebral regions involved in articula-tory control processes, ten subjects were examined usingfunctional magnetic resonance imaging while executinglip, tongue and jaw movements. Although the three motortasks activated a set of common brain areas classically in-volved in motor control, distinct movement representationsites were found in the motor cortex. These results supportand extend previous brain imaging studies by demonstrat-ing a sequential dorsoventral somatotopic organization oflips, jaw and tongue in the motor cortex.

72 : Utilisation d’une grille polaire adaptative pour laconstruction d’un modèle articulatoire de la langueJulie Busset

– LORIA

RésuméThe construction of articulatory models from medical im-ages of the vocal tract, especially X-ray images, relies onthe application of an articulatory grid before deriving de-formation modes via some factor analysis method. Onedifficulty faced with the classical semi-polar grid is thatsome tongue contours do not intersect the grid what givesrise to incomplete input vectors, and consequently poortongue modeling in the front part of the mouth cavitywhich plays an important role in the articulation of manyconsonants. First, this paper describes preparation of data,i.e. drawing or tracking articulator contours, compensationof head movements and the construction of the adaptivepolar grid. Then, the results of the principal componentanalysis are presented and compared with those obtainedwith the semi-polar grid.

162 : Peut-on utiliser la voix chantée pour améliorerla correction phonétique segmentale en langueétrangère ?Sandra Cornaz, Nathalie Henrich, Antonio Romano,Nathalie Vallée

– GIPSA-Lab, DPC - Département Parole et Cognition -UMR 5216 CNRS/Université de Grenoble

– LPEAG, Laboratorio di Fonetica Sperimentale “ArturoGenre” di Torino

RésuméMusic may have a positive impact on learning processes.In linguistics, the positive role of music on perception ofprosodic features has been pointed out, and a recent studyshows that the segmentation of words in a foreign lan-guage would be facilitated by sung. In the present study,we aim at investigating whether singing-voice tasks couldhelp to improve the learning of French phonemes. Forcomparison purpose, a traditional phonetic method wasslightly modified to introduce singing-voice tasks. Nativespeakers of Italian were divided into two groups : onefor the common phonetic teaching, and one for the pho-netic teaching including singing-voice tasks. The resultsshow that the subjects who were taught with additionalsinging-voice tasks learn faster than the others, producebetter than the other one the anterior phonemes /y/ and/ø/ in the acoustical regions expected for these vowels inFrench, and the overlap of acoustic scatterings is less im-portant.

1

LUNDI 16/11 DE 15H35 À 17H30

• Session Orale - O2Pathologies

Lundi 16/11 de 15h35 à 17h30, 0w19

262 : Étude descriptive préliminaire de la voix de l’en-fant implanté cochléaire à partir des mesures aérody-namiquesHarold Andrés Guerrero Lopez, Benoit Amy De LaBreteque, Michel Mondain, Patrick Serrafero, CatherineTrottier, Melissa Barkat-Defradas

– CHU Gui de Chauliac, Montpellier– Ecole Centrale de Lyon– Praxiling UMR 5267 CNRS - Montpellier III– UMR I3M - Université Montpellier II

RésuméThe purpose of this study was to describe the voice physi-ological characteristics of cochlear implanted children byvoice aerodynamic measurements. Subjects were 6 girlsand 14 boys prelingual or congenital profound deaf chil-dren. Voice aerodynamic measurements were obtainedfrom the children by EVA’2 system : estimated subgloticpressure (PSGE), oral airflow mean (DAB), intensity, glot-tal efficiency, laryngeal efficiency. Although our findingsare descriptive and not have been compared to other pop-ulations at the present study (such as children with normalhearing and hearing aids), we can assume that cochlear im-planted children’s voice physiological behavior is similarto the phonatory behavior of children with normal hear-ing.

282 : Méthodes objectives issues du traitement au-tomatique de la parole pour la recherche de zones ’dé-viantes’ dans la parole dysarthriquePierre Clement, Corinne Fredouille

– Laboratoire Informatique d’Avignon

RésuméUne déficience ou un dysfonctionnement d’une enzymeprésente dans les lysosomes est à l’origine des maladies desurcharge lysosomale (ou maladies lysosomales). Parmiles nombreux symptômes pouvant être liés à ces mal-adies, les patients peuvent être atteints de dysarthrie. Ladysarthrie se définit par un trouble de l’élocution dû àune lésion du système nerveux. A l’heure actuelle, l’é-valuation du degré de sévérité de la dysarthrie se faitde façon perceptive par les cliniciens. Bien qu’il existedes critères perceptuels et visuels définis sur lesquels lescliniciens peuvent s’appuyer pour évaluer la dysarthrie,cette évaluation reste très dépendante du clinicien l’ef-fectuant, et revêt par conséquent un caractère très sub-jectif. Pour cette raison, la mise en place de méthodesplus objectives de l’évaluation de la dysarthrie devientune nécessité. Cette mise en place doit reposer au préal-able sur une meilleure connaissance et compréhension

des phénomènes acoustico-phonétiques liés à la paroledysarthrique. Cet article décrit les méthodologies objec-tive mise en place afin de rechercher des zones ’déviantes’dans la parole dysarthrique. Cette analyse de la paroledysarthrique sera effectuée grâce à des outils de traitementautomatique de la parole.

82 : L’analyse prédicative des données orales des sujetsAlzheimer et des patients MCI peut-elle contribuer audiagnostic précoce de la maladie ?Hye Ran Lee, Melissa Barkat-Defradas

– Laboratoire Praxling, UMR5267-CNRS/ UniversitéMontpellier 3

RésuméL’objet de nos travaux est de déterminer – à travers l’-analyse du discours oral de personnes âgées saines vs.à risque (patients MCI) vs. pathologiques (patients souf-frant de démences de type Alzheimer légère à modérée)– des indices pré-morbides de la maladie. Parmi les in-dicateurs linguistiques, nous avons nous intéressé spéci-fiquement à la densité des idées (DI), c’est-à-dire la qual-ité informative des propositions langagières. Pour mesurerla DI, nous avons adopté l’analyse prédicative pratiquéepar Denhière (1991). Nous avons également calculer lacomplexité des propositions de chaque échantillon. La DImoyenne obtenue par l’analyse prédicative des donnéesorales varie significativement selon les groupes de sujets.La qualité informative du discours oral des patients at-teints de la maladie d’Alzheimer est plus faible que celledes patients MCI. Aussi, ce résultat montre que la densitédes idées est un indicateur sensible pour différencier lespatients MCI des personnes âgées saines.

MARDI 17/11 DE 9H45 À 12H05

• Session Orale - O3Phonétique

Mardi 17/11 de 9h45 à 12h05, 1w08

112 : Identification des consonnes finales du viet-namien par des locuteurs natifsThi-Thuy-Hien Tran, Nathalie Vallée

– Département Parole et Cognition de GIPSA-lab

RésuméA great difficulty encountered by Vietnamese subjects,who learn French, is that consonant clusters, which donot exist in Vietnamese, are mispronounced. This problempersists even after several years of practicing, and evenwhen the French clusters correspond to Vietnamese conso-nant sequences. The general aim of our project is to iden-tify the factors which are the main cause of this problem.In this paper, we examine the perception of syllable-finalstops (/p/, /t/, /k/, /m/, /n/, / g/) in Vietnamese by 20 na-tive Northern-Vietnamese listeners. Our findings suggest

2

that specific acoustic characteristics and probably the lex-ical frequency of final consonants lead the subjects in theirchoice of responses.

222 : Caractérisation automatique des accentsétrangersAbdelkarim Mars

– Laboratoire d’informatique de grenoble

RésuméParmi les phénomènes qui affectent la manière dont nousparlons, l’accent est une des composantes principales dela variation observée. La prononciation d’un locuteur peuten effet nous renseigner sur son origine, géographique etsociale. La description des caractéristiques phonétiquesqui sous-tendent les différences d’accent perçues con-stitue donc un intérêt scientifique particulier. De plus,la recherche dans le domaine des accents contribue al’amélioration d’applications technologiques telles que lareconnaissance de la parole et l’indexation du locuteur.Ce papier propose une étude phonétique acoustique desaccents étrangers en français. Afin d’analyser à grandeéchelle les variations liées a l’origine de locuteur, nousavons évalue l’apport des outils automatiques décodageacoustico-phonétique et alignement force.

232 : Une Base de données Etiquetée Formantique-ment en Langue Arabe StandardImen Jemaa, Oussama Rekhis, Kais Ouni, Yves Laprie

– Equipe Parole, LORIA Nancy1, France– Unité de Recherche Traiement du Signal, Traitement de

l’image et Reconnaissance de Formes

RésuméWhile formant frequencies are known to play a critical rolein human speech perception and in computer speech pro-cessing, there has been a lack of standard databases neededfor the quantitative evaluation of automatic formant ex-traction techniques especially in Arabic language. We re-port in this paper our recent effort to create a referencedatabase of the first three formant tracks. The manuallyFormant labeling is carried out used the Winsnoori tool.Furthermore, we present in this paper an exploratory useof the database to quantitatively evaluate the automaticLPC method implemented in the popular open sourcePraat using the hand edited formant trajectories as refer-ence.

242 : Construction d’un corpus robuste de différentsdialectes arabesMohamed Belgacem

– Laboratoire LIDILEM

RésuméNotre article s’intègre dans le cadre du projet intitulé’Oréodule’ : un système embarqué temps réel de recon-naissance, de traduction et de synthèse de la parole arabe.L’objet de notre intérêt dans cet article est la présentation

d’un corpus vocal de la parole arabe. Nous détaillerons lesétapes de constitution de ce corpus et les difficultés ren-contrées lors de son élaboration. Nous intègrerons égale-ment les différents résultats pratiques obtenus lors dechaque phase (tailles des enregistrements, volume total dunotre corpus, etc.).

92 : Perception d’expressions multimodales du Feelingof Thinking (états mentaux et affectifs, intentions, atti-tudes) en interactionAnne Vanpé, Véronique Aubergé

– GIPSA-lab, Département Parole et Cognition (ex-ICP),UMR 5216 CNRS/Université de Grenoble

RésuméHuman-Machine Interaction, as interaction between twohumans, can be considered as a dynamic process wherethe human is continuously communicating, even when heis “expressively” listening (informative backchannel andfeedback). The present study analyses the audio-visualnon speech expressions for two subjects in spontaneousHMI corpora, following an ethology-based methodology.First results reveal a large panel of values expressed out-side of turns (e.g. mental states, intentions, attitudes, emo-tions) that we have globally called Feeling of Thinking.We have shown the role of static vs. dynamic processingof visual information and we are now attempting to in-vestigate some specific non speech “vocal events”. Theirtemporal distribution seems to be particularly relevant forthe perception of Feeling of Thinking expressions.

MARDI 17/11 DE 13H20 À 15H05

• Session Orale - O4Traitement automatique de la parole

Mardi 17/11 de 13h20 à 15h05, 1w08

102 : Traduction automatique de la parolearabe/anglais par segmentations multiplesFethi Bougares

– Laboratoire d’Informatique de Grenoble

RésuméLa traduction de la parole est un thème de recherche ré-cent, car il combine deux problèmes scientifiques com-plexes : la reconnaissance de la parole et la traductionautomatique. Dans ce contexte, nous nous intéressons àla construction de système de traduction statistique pourla paire de langues arabe/anglais. Ces deux langues sontde structures éloignées, ce qui nécessite plus d’effort depréparation et de segmentation des données textuelles ouorales à traduire. Après avoir mis en lumière la relationentre l’analyse morphologique de l’arabe et la qualité detraduction, nous abordons les problèmes relatifs à l’am-biguïté segmentale de l’arabe avec la formulation et l’in-tégration de la multi-segmentation dans un système de tra-duction statistique.

3

172 : Architecture d’un Système de Vérification Au-tomatique du Locuteur appuyée par la Détection duGenreHayet Djellali, Radia Amirouche, Mohamed Tayeb Laskri

– Universite de badji mokhtar Annaba– Université de Badji Mokhtar Annaba

RésuméWe propose a new approach in Automatic speaker verifi-cation ASV based on detection Gender (male,female). Wedetermine with speaker voice his gender. Knowing that,the speaker could be an impostor with opposite genderthat he claims. The aim of this work is to experiment ifdetection gender module can improve speaker verificationdecision when we compare it with baseline ASV system.

212 : Corrections spécifiques du français sur les sys-tèmes de reconnaissance automatique de la paroleRichard Dufour, Yannick Estève, Paul Deléglise

– LIUM - Université du Maine

RésuméAutomatic speech recognition (ASR) systems are used ina large number of applications, in spite of the inevitablerecognition errors. In this study we propose a pragmaticapproach to automatically repair ASR outputs by takinginto account linguistic and acoustic information, using for-mal rules or stochastic methods. The proposed strategyconsists in developing a specific correction solution foreach specific kind of errors. In this paper, we apply thisstrategy on two case studies specific to French language.We show that it is possible, on automatic transcriptions ofFrench broadcast news, to decrease the error rate of a spe-cific error by 11.4% in one of two the case studies, and86.4% in the other one. These results are encouraging andshow the interest of developing more specific solutions tocover a wider set of errors in a future work.

272 : Modélisation Stochastique du Dialogue parStructures SémantiquesFlorian Pinault

– CERI-LIA

RésuméDans le domaine de l’interaction Homme-Machine, lessystèmes de dialogue à initiative mixte sont actuellementétudiés, afin de permettre aux utilisateurs de parler libre-ment avec la machine. Cependant, les système de dia-logue en langue naturelle manque souvent de la robustessenécessaire pour assurer la satisfaction de l’utilisateur. Unesolution consiste à utiliser une représentation sémantiqueriche du dialogue, ainsi qu’une modélisation statistique ducours du dialogue.

62 : Vers des Modèles Autonomes de ReconnaissanceAutomatique de la Parole MultilingueSethserey Sam

– Laboratoire d’Informatique de Grenoble (LIG)

RésuméIn multilingual automatic speech recognition, one inter-esting research challenge is how to deal with a multilin-gual speech utterance (the utterance that contains differ-ent speech languages and/or native or non-native speech) ?In order to overcome this problem, we focus our researchon autonomous acoustic models (AM) and language mod-els (LM). Autonomous means the multilingual AM andLM are automatically re-adapted themselves, in everygiven time slot (5s or 10s), before final decoding. The re-adaptation of AM and ML models could be done basedon a module called Autonomous observer. In this article,we introduce the concept of autonomous AM and ML inmultilingual ASR system (for automatic phone transcrip-tion purpose) and also the techniques to create an observermodule

MERCREDI 18/11 DE 13H40 À 15H25

• Session Orale - O5Perception

Mercredi 18/11 de 13h40 à 15h25, 1w08

122 : Perception de la variation linguistique : étudecomparative entre l’aire de Lesbos (Grèce) et celle des« vallées vaudoises » du Piémont occidental (Italie)Silvia Gally, Maria Goudi

– GIPSA-lab UMR 5216, DPC – SLD Université Stend-hal - Grenoble 3

RésuméDans cet article nous proposons une étude de dialectolo-gie perceptuelle (DP) qui met en parallèle des travaux ef-fectués dans deux aires linguistiques bien distinctes : l’îlede Lesbos, en Grèce, et une zone du Piémont occidental,en Italie. Les données traitées dans ces études sont issuesd’enquêtes de terrain dans les deux aires respectives.

182 : HMMs and GMMs based methods in acoustic-to-articulatory speech inversionAtef Ben Youssef, Viet-Ahn Tran, Pierre Badin, GérardBailly

– DPC / GIPSA-lab, UMR 5216, Grenoble

RésuméAfin de récupérer les mouvements des articulateurs telsque les lèvres, la mâchoire ou la langue, nous avonsdéveloppé et comparé deux méthodes d’inversion baséesl’une sur les modèles de Markov cachés (HMMs) et l’autresur les modèles de mélanges de gaussiennes (GMMs).

4

Les mouvements des articulateurs sont représentés parles coordonnées médiosagittale de bobines d’un articu-lographe électromagnétique (EMA) fixées sur les artic-ulateurs. Dans la première méthode, des HMMs à deuxflux, acoustique et articulatoire, sont entrainés à partirdes de signaux acoustique et articulatoire synchrones. LeHMM acoustique sert à reconnaitre les phones, ainsi queleurs durées. Ces informations sont ensuite utilisées par leHMM articulatoire pour synthétiser les trajectoires artic-ulatoires. Pour la deuxième méthode, un GMM s’associa-tion entre traits acoustique et articulatoire est entrainé surle même corpus suivant le critère de minumum d’erreurquadratique moyenne (MMSE) à partir des trames acous-tiques d’empan temporel plus ou moins grand. Pour uncorpus de données EMA mono-locuteur enregistré par unlocuteur français, l’erreur RMS de reconstruction sur lecorpus de test pour la méthode fondée sur les HMMs sesitue entre 1.96 et 2.32 mm, tandis qu’elle se situe entre2.46 et 2.95 mm pour la méthode basé sur les GMMs.

202 : Rôle de l’information visuelle dans l’accès au lex-ique mentalMathilde Fort, Justine Chipot, Sonia Kandel, ChristopheSavariaux, Elsa Spinelli

– GIPSA-Lab– Laboratoire de Psychologie et de Neurocognition

RésuméCette étude vise à déterminer le rôle de l’information vi-suelle dans l’accès au lexique.Pour cela,nous avons util-isé un paradigme d’amorçage phonologique. Les partic-ipants devaient effectuer une tâche de décision lexicalesur une cible présentée en modalité auditive.Cette cibleétait toujours précédée par une syllabe en amorce : cettedernière pouvait être présentée en modalité audiovisuelle(AV), auditive (A), ou visuelle seule (V). L’analyse desrésultats sur les mots cibles indique un effet d’amorçagepour toutes les modalités de présentations de la syllabe.En conséquence, notre étude suggère que l’information vi-suelle seule permet d’activer les représentations de motscontenues dans le lexique mental.

252 : Espace perceptuel de similarité : étude sur 17languesMarie Rimbault Joffard

RésuméThe goal of the present study was to device a means ofrepresenting languages in a perceptual similarity spacebased on their overall sound structures. In experiment 1,native French listeners performed a free classification taskin which they grouped 17 diverse languages based on theiroverall similarity. A similarity matrix of the grouping pat-terns was then submitted to clustering and multidimen-sional scaling analyses. In experiment 2, the same groupof French listeners sorted the 17 languages in term of theirdistance to French. Taken together, the results of the twoexperiments provide the basis for estimating the distancebetween a given mother tongue and other languages andfor understanding the role of the phonological filter.

5

INDEX PAR AUTEURS – RJCP

Amirouche Radia ........................ 4Amy De La Breteque Benoit ........ 2Aubergé Véronique ..................... 3Badin Pierre ............................... 4Bailly Gérard ............................. 4Barkat-Defradas Melissa ............. 2Barkat-Defradas Melissa ............. 2Belgacem Mohamed ................... 3Ben Youssef Atef ........................ 4Bougares Fethi ........................... 3Busset Julie ................................ 1Chipot Justine ............................ 5Clement Pierre ........................... 2Cornaz Sandra ............................ 1Deléglise Paul ............................ 4Djellali Hayet ............................. 4Dufour Richard .......................... 4Estève Yannick ........................... 4

Fort Mathilde ............................. 5Fredouille Corinne ...................... 2Gally Silvia ................................ 4Georgeton Laurianne ................... 1Goudi Maria .............................. 4Grabski Krystyna ........................ 1Guerrero Lopez Harold Andrés .... 2Henrich Nathalie ........................ 1Jemaa Imen ................................ 3Kandel Sonia ............................. 5Lamalle Laurent ......................... 1Laprie Yves ............................... 3Laskri Mohamed Tayeb ............... 4Lee Hye Ran .............................. 2Mars Abdelkarim ........................ 3Mondain Michel ......................... 2Ouni Kais .................................. 3Pinault Florian ........................... 4

Rekhis Oussama ......................... 3Rimbault Joffard Marie ............... 5Romano Antonio ........................ 1Sam Sethserey ............................ 4Sato Marc .................................. 1Savariaux Christophe .................. 5Schwartz Jean-Luc ...................... 1Serrafero Patrick ......................... 2Spinelli Elsa ............................... 5Tran Thi-Thuy-Hien .................... 2Tran Viet-Ahn ............................ 4Trottier Catherine ....................... 2Vallée Nathalie ....................... 1, 2Vanpé Anne ............................... 3Vilain Coriandre ......................... 1

6

Documents

3 U R J U D P P H H W U H F X H L O G H V U p V X P p Vmajecstic2009.univ-avignon.fr/Actes_MajecSTIC_RJCP/RJCP/... · 2009. 11. 25. · Reconnaissance vocale : front-end, robustesse,