14

3 U R J U D P P H H W U H F X H L O G H V U p V X P p Vmajecstic2009.univ-avignon.fr/Actes_MajecSTIC_RJCP/RJCP/... · 2009. 11. 25. · Reconnaissance vocale : front-end, robustesse,

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • http://rjcp2009.univ-avignon.fr

    Programme et recueil des résumés

    Organisée par de jeunes chercheurspour de jeunes chercheurs

    RencontresJeunes Chercheurs

    en Parole

    8ième CONFÉRENCE

    Les 16, 17 et 18 novembre 2009A l'Université d'Avignon et des Pays de Vaucluse

  • La huitième édition des Rencontres Jeunes Chercheurs en Parole

    Avignon, 16-18 Novembre 2009

    Cette manifestation est organisée par les associations NP-LIA et AFCP ainsi que le LIA.

    L’Association des Non-Permanents du Laboratoire Informatique d’Avignon,Le Laboratoire Informatique d’Avignon, l’Association Francophone de la Communication Parlée

    et l’Université d’Avignon et des Pays de Vaucluse.

    Le comité scientifique est composé de :

    Georges Linarès, présidentNicolas AudibertOdile BagouFrédéric BéchetJean-François BonastreNathalie CamelinEric Charton

    Richard DufourAnika FalkertBenoit FavreCorinne FredouilleFabrice LefèvreDriss MatroufMarie-Jean Meurs

    Vladimir PopescuAlbert RillardSolange RossatoIsabelle RoussetChristophe ServanPascal Vaillant

    Le comité d’organisation est composé de :

    Présidente Claire Petiteau Correspondants Scientifiques Christophe ServanVice-président Raphaël Rubino Rémi Lavalley

    Resp. Logistique Pierre Gotab Resp. Communication Johanne TremblayGrégory Senay Bessam FallahCaroline Buffoni Frédéric DuvertEssaid Sabir Resp. Partenaires Industriels Khalil Ibrahimi

    Resp. Trésorerie Juliette Kahn Florian PinaultFlorian Verdet Daniela MaftuleacRodrigo Acuna Resp. Web Mickaël Rouvier

    Resp. Edition Electronique Stanislas Oger Carlos Diego Rodrigues

    4233107829539

    ISBN 978-2-9534233-1-0

  • PROGRAMMEM

    ercr

    edi 1

    8/1

    1M

    ard

    i 17

    /11

    Lun

    di 1

    6/1

    1

    Co

    nfé

    ren

    ce c

    on

    join

    te

    09h

    00

    09h

    45D

    isco

    urs

    d’in

    tro

    du

    ctio

    n

    10h

    15

    10h

    30

    11h

    30

    13h

    30

    AT0

    5

    AT0

    5

    O1.

    Pro

    du

    ctio

    n

    0w

    19

    13

    2, 1

    52

    , 72

    , 16

    2

    15h

    15

    15h

    35O

    2. P

    ath

    olo

    gies

    0w

    19

    26

    2, 2

    82

    , 82

    17h

    30

    12h

    05

    13h

    20O

    4. T

    AP

    1w08

    10

    2, 1

    72

    , 21

    2, 2

    72

    , 62

    15h

    05

    15h

    25

    09h

    45

    09h

    00

    O3.

    Ph

    on

    étiq

    ue

    1w08

    11

    2, 2

    22

    , 23

    2, 2

    42

    , 92

    Co

    nfé

    ren

    ce c

    on

    join

    te

    AT0

    5Fr

    édér

    ic B

    eau

    gen

    dre

    Yves

    Jea

    nn

    eret

    09h

    30

    10h

    15

    11h

    45

    13h

    40O

    5.

    Perc

    epti

    on

    1w08

    12

    2, 1

    82

    , 20

    2, 2

    52

    15h

    25

    Co

    nfé

    ren

    ce a

    cad

    émiq

    ue

    1w08

    Sola

    nge

    Ro

    ssat

    o

    18h

    00D

    iner

    de

    gala

    Vis

    ite

    du

    Pal

    ais

    des

    Pap

    es e

    t d

    égu

    stat

    ion

    de

    vin

    sPro

    gram

    me

    de

    la c

    on

    fére

    nce

    RJC

    P 2

    00

    9

    No

    ms

    com

    ple

    ts d

    es s

    essi

    on

    s :

    O1

    Pro

    du

    ctio

    nO

    2P

    ath

    olo

    gies

    O3

    Ph

    on

    étiq

    ue

    O4

    Trai

    tem

    ent a

    uto

    mat

    iqu

    e d

    e la

    par

    ole

    O5

    Per

    cep

    tio

    n

    Foru

    m

    0w16

    15h

    40R

    emis

    e d

    es B

    est

    Pap

    ers

    Dis

    cou

    rs d

    e cl

    ôtu

    re

    Ph

    ilip

    pe

    Mic

    hel

    on

    Acc

    uei

    lH

    all d

    ’en

    trée

    Pau

    seH

    all d

    ’en

    trée

    Déj

    eun

    erR

    esta

    ura

    nt

    Pau

    seH

    all d

    ’en

    trée

    Déj

    eun

    erR

    esta

    ura

    nt

    Déj

    eun

    erR

    esta

    ura

    nt

    Acc

    uei

    lH

    all d

    ’en

    trée

    Pau

    seH

    all d

    ’en

    trée

    Acc

    uei

    lH

    all d

    ’en

    trée

    17h

    15

    20h

    0018

    h15

    Tap

    alo

    cas

    Tab

    le

    ron

    de 0w

    16

    Hal

    l d’e

    ntr

    ée

    i

  • CONFÉRENCES INVITÉES

    Conférence conjointe MajecSTIC et RJCPLundi 16/11 de 10h30 à 11h30 Amphithéâtre AT05

    Yves JEANNERETLaboratoire Culture et Communication, Université d’Avignon et des Pays de Vaucluse

    “Sciences de la communication, sciences de l’information et de la communication, sciences ettechnologies de l’information et de la communication : un sens peut en cacher un autre”

    voir page iii

    Conférence conjointe MajecSTIC et RJCPMardi 17/11 de 17h15 à 18h15 Amphithéâtre AT05

    Frédéric BEAUGENDREVoice-Insight, Bruxelles

    “Perspectives industrielles dans le domaine des technologies vocales”

    voir page iv

    Conférence académique RJCPMercredi 18/11 de 10h15 à 11h45 Salle 1w08

    Solange ROSSATOLaboratoire d’Informatique de Grenoble

    “Phonétique acoustique et articulatoire : des résonnances aux coefficients utilisés en TA”

    voir page v

    ii

  • Conférence conjointe MajecSTIC et RJCP

    Lundi 16/11 de 10h30 à 11h30 Amphithéâtre AT05

    Président : Philippe Michelon

    Sciences de la communication, sciences de l’information et de la communication,sciences et technologies de l’information et de la communication : un sens peut en

    cacher un autre

    Yves JEANNERETLaboratoire Culture et Communication, Université d’Avignon et des Pays de Vaucluse

    Biographie

    Professeur à l’Université d’Avignon et des Pays de Vaucluse, membre du Laboratoire Culture et Communica-tion et directeur de recherche dans le programme de doctorat international Muséologie, médiation, patrimoine,Yves Jeanneret mène des recherches sur la circulation des savoirs, l’écriture, les transformations médiatiqueset l’épistémologie de sciences sociales. Il est aussi membre du Collège des Etudes Doctorales et membredu Conseil Scientifique de l’Université d’Avignon et des Pays de Vaucluse. Yves Jeanneret s’intéresse auxthématiques de recherche suivantes :– Analyse de la circulation des savoirs et des objets culturels dans la société : médiation, divulgation, com-

    munication scientifique et technique, médiatisation de la littérature, muséologie.– Analyse des médiations écrites : sémiotique de l’écriture, modalités de circulation et de transformation des

    écrits, rôle de l’énonciation écrite, des supports de l’écriture et des pouvoirs éditoriaux dans la culture.– Analyse des transformations médiatiques : étude du rapport entre médiatisation technique et médiation

    symbolique, étude des médias informatisés et du texte de réseau, analyse des usages et de leurs normes– Épistémologie des sciences sociales : analyse de l’activité d’écriture et de textualisation dans la recherche,

    de la circulation des savoirs en sciences sociales, étude des critères et ressorts de l’analyse communication-nelle, étude des rapports entre sémiotique et communication.

    Résumé

    La communication, fondée sur une expérience subjective de participation à l’animation de recherche dansune discipline et à la reconnaissance d’un champ disciplinaire complexe au CNRS et à l’ANR, interrogerales relations qui peuvent s’établir entre constructions institutionnelles, schèmes d’intelligibilité et enjeuxdes recherches dans un domaine que certains définissent comme un secteur, d’autres un champ d’analyseet d’autres un objet théorique. De même que certains ne voyaient pas la nécessité de créer une sociologie àla fin du 19ème siècle parce que tout le monde peut penser le social, beaucoup estiment aujourd’hui que lacommunication ne mérite pas d’être instituée en discipline. Pour discuter cette question, il faut se débattreentre l’institution sociale, l’institution cognitive et la poétique des savoirs. On ne fera ici qu’esquisser cetteréflexion ambitieuse et pourtant essentielle, dans une société qui revendique en permanence la communicationsans réellement la prendre au sérieux comme objet conceptuel. Plus personne ne pense qu’observer la chutedes corps suffit pour être physicien. Quand en viendra-t-on là pour les faits de communication dans la société ?

    iii

  • Conférence conjointe MajecSTIC et RJCP

    Mardi 17/11 de 17h15 à 18h15 Amphithéâtre AT05

    Président : Georges Linarès

    Perspectives industrielles dans le domaine des technologies vocales

    Frédéric BEAUGENDREVoice-Insight, Bruxelles

    Biographie

    Frédéric Beaugendre est spécialiste dans le domaine des technologies vocales depuis le début des années 1990.Après avoir réalisé une thèse de doctorat et un post-doctorat en synthèse vocale dans le milieu académique, il apu exercer depuis 1997 les fontions de chercheur et chef de projets au sein de trois entreprises spécialisées dansles différentes disciplines du domaine vocale et du traitement du langage naturel. Cette expérience industriellea été acquise au sein d’entreprises développant les technologies de base (reconnaissance et synthèse vocalenotamment) aussi bien que d’intégrateurs de ces technologies pour des applications industrielles et grand-public. Frédéric Beaugendre s’intéresse aux thématiques de recherche suivantes :– Reconnaissance vocale : front-end, robustesse, adaptation, modélisation acoustique, langue tonales, mod-

    èles de langage– Synthèse vocale : Synthèse par concaténation, par HMMs, prosodie, perception, évaluation

    Résumé

    La marché des technologies vocales se divise aujourd’hui en deux segments principaux que sont les applica-tions dans le domaine de la téléphonie d’une part, et les applications multimedia, industrielles et embarquéesd’autre part. Après un fourmillement d’activités dans le domaine pendant des années 1990, les analyses finan-cières promettant une croissance importante des revenus à court terme sur ce marché, le nombre d’entreprisesfournisseur de cette technologie a substantiellement diminué depuis le début des années 2000. Aujourd’hui,peu d’acteurs subsistent, même si paradoxalement la technologie n’a jamais atteint un tel niveau de maturité.Dans ce contexte, l’objectif de cet exposé est de faire un survol des technologies vocales et leur évolutionrécente, et d’en présenter les principales perspectives industrielles associées à court et moyen terme.

    iv

  • Conférence académique RJCP

    Mercredi 18/11 de 10h15 à 11h45 Salle 1w08

    Président : Georges Linarès

    Phonétique acoustique et articulatoire : des résonnances aux coefficientsutilisés en TA

    Solange ROSSATOLaboratoire d’Informatique de Grenoble

    Biographie

    Solange Rossato est Maître de Conférence en Sciences du Langage à l’Université Stendhal Grenoble III. Elleeffectue sa recherche au Laboratoire d’Informatique de Grenoble, au sein de l’équipe GETALP ainsi qu’àGIPSA-Lab. Ses thématiques de recherche se situent dans le cadre de la phonétique acoustique et de l’interfaceentre phonétique et phonologie. Elle a travaillé plus spécifiquement sur la nasalisation et l’émergence desvoyelles nasales ainsi que sur certaines caractéristiques spécifiques de la voix (affects, reconnaissance dulocuteur...) en étudiant aussi bien les processus humains que le traitement automatique de la parole.

    Résumé

    Cette présentation s’attache à décrire les liens simples entre forme du conduit vocal et résonnances, en reliantles formants des voyelles aux cavités. L’interprétation des formants en termes de résonnances de cavitéspermet d’expliquer les effets acoustiques de l’arrondissement ou la différence des valeurs formantiques entrehommes, femmes et jeunes enfants. Ces modélisations facilitent la lecture de spectrogramme en français. Ladeuxième partie s’intéressent aux coefficients utilisés en Traitement Automatique tels que les LPCC, MFCC,PLP et aux théories phonétiques qui y sont rattachées.Une partie pourra se faire sous forme de TD.

    v

  • INDEX DES SESSIONS

    • Lundi 16/11 de 13h30 à 15h15- Session Orale - O1 - Production ................................................................................................................... 1

    Président : Nicolas Audibert

    • Lundi 16/11 de 15h35 à 17h30- Session Orale - O2 - Pathologies .................................................................................................................. 2

    Président : Gilles Pouchoulin

    • Mardi 17/11 de 9h45 à 12h05- Session Orale - O3 - Phonétique ................................................................................................................... 2

    Présidente : Christine Meunier

    • Mardi 17/11 de 13h20 à 15h05- Session Orale - O4 - Traitement automatique de la parole .............................................................................. 3

    Président : Yannick Estève

    • Mercredi 18/11 de 13h40 à 15h25- Session Orale - O5 - Perception .................................................................................................................... 4

    Présidente : Corinne Fredouille

    vi

  • PROGRAMME DÉTAILLÉ

    LUNDI 16/11 DE 13H30 À 15H15

    • Session Orale - O1Production

    Lundi 16/11 de 13h30 à 15h15, 0w19

    132 : Etude articulatoire du mouvement d’étirement etd’ouverture des lèvres lors d’émotions et une attitudesimulées.Laurianne Georgeton

    – ilpga

    RésuméDans cette étude, nous nous sommes intéressée aux varia-tions articulatoires des lèvres (étirement et ouverture auxlèvres) pour quatre voyelles du français /a/, /i/, /u/ et /y/lors d’émotions (anxiété, dégoût, colère, joie et tristesse)et une attitude (tendresse) simulée. Nous avons utilisé desmarqueurs placés autours des lèvres. Le mouvement deslèvres a été étudié grâce au Qualisys qui utilisent un sys-tème de caméra infra-rouge. Les coordonnées en 3D desmarqueurs sont ensuite reconstruites puis étudiées. Cetteétude a montré que les contrastes intrinsèques (donc atten-dus) des voyelles ne sont pas observables lors de la parolenormale. Le geste d’étirement est maximisé lors de la réal-isation de la joie et de la tendresse. Le geste d’ouvertureaux lèvres est maximisé lors de la colère, du dégoût et del’anxiété.

    152 : Représentations cérébrales des articulateurs dela paroleKrystyna Grabski, Marc Sato, Jean-Luc Schwartz, LaurentLamalle, Coriandre Vilain

    – Gipsa-Lab– INSERM

    RésuméIn order to localize cerebral regions involved in articula-tory control processes, ten subjects were examined usingfunctional magnetic resonance imaging while executinglip, tongue and jaw movements. Although the three motortasks activated a set of common brain areas classically in-volved in motor control, distinct movement representationsites were found in the motor cortex. These results supportand extend previous brain imaging studies by demonstrat-ing a sequential dorsoventral somatotopic organization oflips, jaw and tongue in the motor cortex.

    72 : Utilisation d’une grille polaire adaptative pour laconstruction d’un modèle articulatoire de la langueJulie Busset

    – LORIA

    RésuméThe construction of articulatory models from medical im-ages of the vocal tract, especially X-ray images, relies onthe application of an articulatory grid before deriving de-formation modes via some factor analysis method. Onedifficulty faced with the classical semi-polar grid is thatsome tongue contours do not intersect the grid what givesrise to incomplete input vectors, and consequently poortongue modeling in the front part of the mouth cavitywhich plays an important role in the articulation of manyconsonants. First, this paper describes preparation of data,i.e. drawing or tracking articulator contours, compensationof head movements and the construction of the adaptivepolar grid. Then, the results of the principal componentanalysis are presented and compared with those obtainedwith the semi-polar grid.

    162 : Peut-on utiliser la voix chantée pour améliorerla correction phonétique segmentale en langueétrangère ?Sandra Cornaz, Nathalie Henrich, Antonio Romano,Nathalie Vallée

    – GIPSA-Lab, DPC - Département Parole et Cognition -UMR 5216 CNRS/Université de Grenoble

    – LPEAG, Laboratorio di Fonetica Sperimentale “ArturoGenre” di Torino

    RésuméMusic may have a positive impact on learning processes.In linguistics, the positive role of music on perception ofprosodic features has been pointed out, and a recent studyshows that the segmentation of words in a foreign lan-guage would be facilitated by sung. In the present study,we aim at investigating whether singing-voice tasks couldhelp to improve the learning of French phonemes. Forcomparison purpose, a traditional phonetic method wasslightly modified to introduce singing-voice tasks. Nativespeakers of Italian were divided into two groups : onefor the common phonetic teaching, and one for the pho-netic teaching including singing-voice tasks. The resultsshow that the subjects who were taught with additionalsinging-voice tasks learn faster than the others, producebetter than the other one the anterior phonemes /y/ and/ø/ in the acoustical regions expected for these vowels inFrench, and the overlap of acoustic scatterings is less im-portant.

    1

  • LUNDI 16/11 DE 15H35 À 17H30

    • Session Orale - O2Pathologies

    Lundi 16/11 de 15h35 à 17h30, 0w19

    262 : Étude descriptive préliminaire de la voix de l’en-fant implanté cochléaire à partir des mesures aérody-namiquesHarold Andrés Guerrero Lopez, Benoit Amy De LaBreteque, Michel Mondain, Patrick Serrafero, CatherineTrottier, Melissa Barkat-Defradas

    – CHU Gui de Chauliac, Montpellier– Ecole Centrale de Lyon– Praxiling UMR 5267 CNRS - Montpellier III– UMR I3M - Université Montpellier II

    RésuméThe purpose of this study was to describe the voice physi-ological characteristics of cochlear implanted children byvoice aerodynamic measurements. Subjects were 6 girlsand 14 boys prelingual or congenital profound deaf chil-dren. Voice aerodynamic measurements were obtainedfrom the children by EVA’2 system : estimated subgloticpressure (PSGE), oral airflow mean (DAB), intensity, glot-tal efficiency, laryngeal efficiency. Although our findingsare descriptive and not have been compared to other pop-ulations at the present study (such as children with normalhearing and hearing aids), we can assume that cochlear im-planted children’s voice physiological behavior is similarto the phonatory behavior of children with normal hear-ing.

    282 : Méthodes objectives issues du traitement au-tomatique de la parole pour la recherche de zones ’dé-viantes’ dans la parole dysarthriquePierre Clement, Corinne Fredouille

    – Laboratoire Informatique d’Avignon

    RésuméUne déficience ou un dysfonctionnement d’une enzymeprésente dans les lysosomes est à l’origine des maladies desurcharge lysosomale (ou maladies lysosomales). Parmiles nombreux symptômes pouvant être liés à ces mal-adies, les patients peuvent être atteints de dysarthrie. Ladysarthrie se définit par un trouble de l’élocution dû àune lésion du système nerveux. A l’heure actuelle, l’é-valuation du degré de sévérité de la dysarthrie se faitde façon perceptive par les cliniciens. Bien qu’il existedes critères perceptuels et visuels définis sur lesquels lescliniciens peuvent s’appuyer pour évaluer la dysarthrie,cette évaluation reste très dépendante du clinicien l’ef-fectuant, et revêt par conséquent un caractère très sub-jectif. Pour cette raison, la mise en place de méthodesplus objectives de l’évaluation de la dysarthrie devientune nécessité. Cette mise en place doit reposer au préal-able sur une meilleure connaissance et compréhension

    des phénomènes acoustico-phonétiques liés à la paroledysarthrique. Cet article décrit les méthodologies objec-tive mise en place afin de rechercher des zones ’déviantes’dans la parole dysarthrique. Cette analyse de la paroledysarthrique sera effectuée grâce à des outils de traitementautomatique de la parole.

    82 : L’analyse prédicative des données orales des sujetsAlzheimer et des patients MCI peut-elle contribuer audiagnostic précoce de la maladie ?Hye Ran Lee, Melissa Barkat-Defradas

    – Laboratoire Praxling, UMR5267-CNRS/ UniversitéMontpellier 3

    RésuméL’objet de nos travaux est de déterminer – à travers l’-analyse du discours oral de personnes âgées saines vs.à risque (patients MCI) vs. pathologiques (patients souf-frant de démences de type Alzheimer légère à modérée)– des indices pré-morbides de la maladie. Parmi les in-dicateurs linguistiques, nous avons nous intéressé spéci-fiquement à la densité des idées (DI), c’est-à-dire la qual-ité informative des propositions langagières. Pour mesurerla DI, nous avons adopté l’analyse prédicative pratiquéepar Denhière (1991). Nous avons également calculer lacomplexité des propositions de chaque échantillon. La DImoyenne obtenue par l’analyse prédicative des donnéesorales varie significativement selon les groupes de sujets.La qualité informative du discours oral des patients at-teints de la maladie d’Alzheimer est plus faible que celledes patients MCI. Aussi, ce résultat montre que la densitédes idées est un indicateur sensible pour différencier lespatients MCI des personnes âgées saines.

    MARDI 17/11 DE 9H45 À 12H05

    • Session Orale - O3Phonétique

    Mardi 17/11 de 9h45 à 12h05, 1w08

    112 : Identification des consonnes finales du viet-namien par des locuteurs natifsThi-Thuy-Hien Tran, Nathalie Vallée

    – Département Parole et Cognition de GIPSA-lab

    RésuméA great difficulty encountered by Vietnamese subjects,who learn French, is that consonant clusters, which donot exist in Vietnamese, are mispronounced. This problempersists even after several years of practicing, and evenwhen the French clusters correspond to Vietnamese conso-nant sequences. The general aim of our project is to iden-tify the factors which are the main cause of this problem.In this paper, we examine the perception of syllable-finalstops (/p/, /t/, /k/, /m/, /n/, / g/) in Vietnamese by 20 na-tive Northern-Vietnamese listeners. Our findings suggest

    2

  • that specific acoustic characteristics and probably the lex-ical frequency of final consonants lead the subjects in theirchoice of responses.

    222 : Caractérisation automatique des accentsétrangersAbdelkarim Mars

    – Laboratoire d’informatique de grenoble

    RésuméParmi les phénomènes qui affectent la manière dont nousparlons, l’accent est une des composantes principales dela variation observée. La prononciation d’un locuteur peuten effet nous renseigner sur son origine, géographique etsociale. La description des caractéristiques phonétiquesqui sous-tendent les différences d’accent perçues con-stitue donc un intérêt scientifique particulier. De plus,la recherche dans le domaine des accents contribue al’amélioration d’applications technologiques telles que lareconnaissance de la parole et l’indexation du locuteur.Ce papier propose une étude phonétique acoustique desaccents étrangers en français. Afin d’analyser à grandeéchelle les variations liées a l’origine de locuteur, nousavons évalue l’apport des outils automatiques décodageacoustico-phonétique et alignement force.

    232 : Une Base de données Etiquetée Formantique-ment en Langue Arabe StandardImen Jemaa, Oussama Rekhis, Kais Ouni, Yves Laprie

    – Equipe Parole, LORIA Nancy1, France– Unité de Recherche Traiement du Signal, Traitement de

    l’image et Reconnaissance de Formes

    RésuméWhile formant frequencies are known to play a critical rolein human speech perception and in computer speech pro-cessing, there has been a lack of standard databases neededfor the quantitative evaluation of automatic formant ex-traction techniques especially in Arabic language. We re-port in this paper our recent effort to create a referencedatabase of the first three formant tracks. The manuallyFormant labeling is carried out used the Winsnoori tool.Furthermore, we present in this paper an exploratory useof the database to quantitatively evaluate the automaticLPC method implemented in the popular open sourcePraat using the hand edited formant trajectories as refer-ence.

    242 : Construction d’un corpus robuste de différentsdialectes arabesMohamed Belgacem

    – Laboratoire LIDILEM

    RésuméNotre article s’intègre dans le cadre du projet intitulé’Oréodule’ : un système embarqué temps réel de recon-naissance, de traduction et de synthèse de la parole arabe.L’objet de notre intérêt dans cet article est la présentation

    d’un corpus vocal de la parole arabe. Nous détaillerons lesétapes de constitution de ce corpus et les difficultés ren-contrées lors de son élaboration. Nous intègrerons égale-ment les différents résultats pratiques obtenus lors dechaque phase (tailles des enregistrements, volume total dunotre corpus, etc.).

    92 : Perception d’expressions multimodales du Feelingof Thinking (états mentaux et affectifs, intentions, atti-tudes) en interactionAnne Vanpé, Véronique Aubergé

    – GIPSA-lab, Département Parole et Cognition (ex-ICP),UMR 5216 CNRS/Université de Grenoble

    RésuméHuman-Machine Interaction, as interaction between twohumans, can be considered as a dynamic process wherethe human is continuously communicating, even when heis “expressively” listening (informative backchannel andfeedback). The present study analyses the audio-visualnon speech expressions for two subjects in spontaneousHMI corpora, following an ethology-based methodology.First results reveal a large panel of values expressed out-side of turns (e.g. mental states, intentions, attitudes, emo-tions) that we have globally called Feeling of Thinking.We have shown the role of static vs. dynamic processingof visual information and we are now attempting to in-vestigate some specific non speech “vocal events”. Theirtemporal distribution seems to be particularly relevant forthe perception of Feeling of Thinking expressions.

    MARDI 17/11 DE 13H20 À 15H05

    • Session Orale - O4Traitement automatique de la parole

    Mardi 17/11 de 13h20 à 15h05, 1w08

    102 : Traduction automatique de la parolearabe/anglais par segmentations multiplesFethi Bougares

    – Laboratoire d’Informatique de Grenoble

    RésuméLa traduction de la parole est un thème de recherche ré-cent, car il combine deux problèmes scientifiques com-plexes : la reconnaissance de la parole et la traductionautomatique. Dans ce contexte, nous nous intéressons àla construction de système de traduction statistique pourla paire de langues arabe/anglais. Ces deux langues sontde structures éloignées, ce qui nécessite plus d’effort depréparation et de segmentation des données textuelles ouorales à traduire. Après avoir mis en lumière la relationentre l’analyse morphologique de l’arabe et la qualité detraduction, nous abordons les problèmes relatifs à l’am-biguïté segmentale de l’arabe avec la formulation et l’in-tégration de la multi-segmentation dans un système de tra-duction statistique.

    3

  • 172 : Architecture d’un Système de Vérification Au-tomatique du Locuteur appuyée par la Détection duGenreHayet Djellali, Radia Amirouche, Mohamed Tayeb Laskri

    – Universite de badji mokhtar Annaba– Université de Badji Mokhtar Annaba

    RésuméWe propose a new approach in Automatic speaker verifi-cation ASV based on detection Gender (male,female). Wedetermine with speaker voice his gender. Knowing that,the speaker could be an impostor with opposite genderthat he claims. The aim of this work is to experiment ifdetection gender module can improve speaker verificationdecision when we compare it with baseline ASV system.

    212 : Corrections spécifiques du français sur les sys-tèmes de reconnaissance automatique de la paroleRichard Dufour, Yannick Estève, Paul Deléglise

    – LIUM - Université du Maine

    RésuméAutomatic speech recognition (ASR) systems are used ina large number of applications, in spite of the inevitablerecognition errors. In this study we propose a pragmaticapproach to automatically repair ASR outputs by takinginto account linguistic and acoustic information, using for-mal rules or stochastic methods. The proposed strategyconsists in developing a specific correction solution foreach specific kind of errors. In this paper, we apply thisstrategy on two case studies specific to French language.We show that it is possible, on automatic transcriptions ofFrench broadcast news, to decrease the error rate of a spe-cific error by 11.4% in one of two the case studies, and86.4% in the other one. These results are encouraging andshow the interest of developing more specific solutions tocover a wider set of errors in a future work.

    272 : Modélisation Stochastique du Dialogue parStructures SémantiquesFlorian Pinault

    – CERI-LIA

    RésuméDans le domaine de l’interaction Homme-Machine, lessystèmes de dialogue à initiative mixte sont actuellementétudiés, afin de permettre aux utilisateurs de parler libre-ment avec la machine. Cependant, les système de dia-logue en langue naturelle manque souvent de la robustessenécessaire pour assurer la satisfaction de l’utilisateur. Unesolution consiste à utiliser une représentation sémantiqueriche du dialogue, ainsi qu’une modélisation statistique ducours du dialogue.

    62 : Vers des Modèles Autonomes de ReconnaissanceAutomatique de la Parole MultilingueSethserey Sam

    – Laboratoire d’Informatique de Grenoble (LIG)

    RésuméIn multilingual automatic speech recognition, one inter-esting research challenge is how to deal with a multilin-gual speech utterance (the utterance that contains differ-ent speech languages and/or native or non-native speech) ?In order to overcome this problem, we focus our researchon autonomous acoustic models (AM) and language mod-els (LM). Autonomous means the multilingual AM andLM are automatically re-adapted themselves, in everygiven time slot (5s or 10s), before final decoding. The re-adaptation of AM and ML models could be done basedon a module called Autonomous observer. In this article,we introduce the concept of autonomous AM and ML inmultilingual ASR system (for automatic phone transcrip-tion purpose) and also the techniques to create an observermodule

    MERCREDI 18/11 DE 13H40 À 15H25

    • Session Orale - O5Perception

    Mercredi 18/11 de 13h40 à 15h25, 1w08

    122 : Perception de la variation linguistique : étudecomparative entre l’aire de Lesbos (Grèce) et celle des« vallées vaudoises » du Piémont occidental (Italie)Silvia Gally, Maria Goudi

    – GIPSA-lab UMR 5216, DPC – SLD Université Stend-hal - Grenoble 3

    RésuméDans cet article nous proposons une étude de dialectolo-gie perceptuelle (DP) qui met en parallèle des travaux ef-fectués dans deux aires linguistiques bien distinctes : l’îlede Lesbos, en Grèce, et une zone du Piémont occidental,en Italie. Les données traitées dans ces études sont issuesd’enquêtes de terrain dans les deux aires respectives.

    182 : HMMs and GMMs based methods in acoustic-to-articulatory speech inversionAtef Ben Youssef, Viet-Ahn Tran, Pierre Badin, GérardBailly

    – DPC / GIPSA-lab, UMR 5216, Grenoble

    RésuméAfin de récupérer les mouvements des articulateurs telsque les lèvres, la mâchoire ou la langue, nous avonsdéveloppé et comparé deux méthodes d’inversion baséesl’une sur les modèles de Markov cachés (HMMs) et l’autresur les modèles de mélanges de gaussiennes (GMMs).

    4

  • Les mouvements des articulateurs sont représentés parles coordonnées médiosagittale de bobines d’un articu-lographe électromagnétique (EMA) fixées sur les artic-ulateurs. Dans la première méthode, des HMMs à deuxflux, acoustique et articulatoire, sont entrainés à partirdes de signaux acoustique et articulatoire synchrones. LeHMM acoustique sert à reconnaitre les phones, ainsi queleurs durées. Ces informations sont ensuite utilisées par leHMM articulatoire pour synthétiser les trajectoires artic-ulatoires. Pour la deuxième méthode, un GMM s’associa-tion entre traits acoustique et articulatoire est entrainé surle même corpus suivant le critère de minumum d’erreurquadratique moyenne (MMSE) à partir des trames acous-tiques d’empan temporel plus ou moins grand. Pour uncorpus de données EMA mono-locuteur enregistré par unlocuteur français, l’erreur RMS de reconstruction sur lecorpus de test pour la méthode fondée sur les HMMs sesitue entre 1.96 et 2.32 mm, tandis qu’elle se situe entre2.46 et 2.95 mm pour la méthode basé sur les GMMs.

    202 : Rôle de l’information visuelle dans l’accès au lex-ique mentalMathilde Fort, Justine Chipot, Sonia Kandel, ChristopheSavariaux, Elsa Spinelli

    – GIPSA-Lab– Laboratoire de Psychologie et de Neurocognition

    RésuméCette étude vise à déterminer le rôle de l’information vi-suelle dans l’accès au lexique.Pour cela,nous avons util-isé un paradigme d’amorçage phonologique. Les partic-ipants devaient effectuer une tâche de décision lexicalesur une cible présentée en modalité auditive.Cette cibleétait toujours précédée par une syllabe en amorce : cettedernière pouvait être présentée en modalité audiovisuelle(AV), auditive (A), ou visuelle seule (V). L’analyse desrésultats sur les mots cibles indique un effet d’amorçagepour toutes les modalités de présentations de la syllabe.En conséquence, notre étude suggère que l’information vi-suelle seule permet d’activer les représentations de motscontenues dans le lexique mental.

    252 : Espace perceptuel de similarité : étude sur 17languesMarie Rimbault Joffard

    RésuméThe goal of the present study was to device a means ofrepresenting languages in a perceptual similarity spacebased on their overall sound structures. In experiment 1,native French listeners performed a free classification taskin which they grouped 17 diverse languages based on theiroverall similarity. A similarity matrix of the grouping pat-terns was then submitted to clustering and multidimen-sional scaling analyses. In experiment 2, the same groupof French listeners sorted the 17 languages in term of theirdistance to French. Taken together, the results of the twoexperiments provide the basis for estimating the distancebetween a given mother tongue and other languages andfor understanding the role of the phonological filter.

    5

  • INDEX PAR AUTEURS – RJCP

    Amirouche Radia ........................ 4Amy De La Breteque Benoit ........ 2Aubergé Véronique ..................... 3Badin Pierre ............................... 4Bailly Gérard ............................. 4Barkat-Defradas Melissa ............. 2Barkat-Defradas Melissa ............. 2Belgacem Mohamed ................... 3Ben Youssef Atef ........................ 4Bougares Fethi ........................... 3Busset Julie ................................ 1Chipot Justine ............................ 5Clement Pierre ........................... 2Cornaz Sandra ............................ 1Deléglise Paul ............................ 4Djellali Hayet ............................. 4Dufour Richard .......................... 4Estève Yannick ........................... 4

    Fort Mathilde ............................. 5Fredouille Corinne ...................... 2Gally Silvia ................................ 4Georgeton Laurianne ................... 1Goudi Maria .............................. 4Grabski Krystyna ........................ 1Guerrero Lopez Harold Andrés .... 2Henrich Nathalie ........................ 1Jemaa Imen ................................ 3Kandel Sonia ............................. 5Lamalle Laurent ......................... 1Laprie Yves ............................... 3Laskri Mohamed Tayeb ............... 4Lee Hye Ran .............................. 2Mars Abdelkarim ........................ 3Mondain Michel ......................... 2Ouni Kais .................................. 3Pinault Florian ........................... 4

    Rekhis Oussama ......................... 3Rimbault Joffard Marie ............... 5Romano Antonio ........................ 1Sam Sethserey ............................ 4Sato Marc .................................. 1Savariaux Christophe .................. 5Schwartz Jean-Luc ...................... 1Serrafero Patrick ......................... 2Spinelli Elsa ............................... 5Tran Thi-Thuy-Hien .................... 2Tran Viet-Ahn ............................ 4Trottier Catherine ....................... 2Vallée Nathalie ....................... 1, 2Vanpé Anne ............................... 3Vilain Coriandre ......................... 1

    6