24
Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de FLE et traitement automatique : perspectives didactiques Work In Progress… Sylvain Detey (U. Waseda, Japon), Maxime Le Coz (Archean Technologies, France), Lionel Fontan (Archean Technologies, France), Corentin Barcat (TUFS, Japon), Yuji Kawaguchi (TUFS, Japon), Hisae Akihiro (TUFS, Japon), Kaori Sugiyama (Seinan Gakuin U., Japon) & Nori Kondo (NUFS, Japon). IPFC2018 – Paris MSH – 26-27 novembre 2018

Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

Annotationsminimalesmulti-niveauxd’uncorpusdeparolespontanéed’apprenants

japonaisdeFLEettraitementautomatique :perspectivesdidactiques

WorkInProgress…

SylvainDetey (U.Waseda,Japon),MaximeLeCoz(ArcheanTechnologies,France),LionelFontan(Archean Technologies,France),CorentinBarcat (TUFS,Japon),Yuji Kawaguchi(TUFS,Japon),Hisae

Akihiro (TUFS,Japon),Kaori Sugiyama (Seinan Gakuin U.,Japon)&NoriKondo(NUFS,Japon).

IPFC2018– ParisMSH– 26-27novembre2018

Page 2: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

Plan

1)Lecorpus:objectifsetenjeux

2)Desannotationsminimalesàune

descriptionautomatisée

3)Perspectivesd’analyses

4)Perspectivesdidactiques

Page 3: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

1)Lecorpus:objectifsetenjeux

CLIJAF:Corpuslongitudinalinterphonologiqued’apprenantsjaponaisdefrançais (Detey,2011-2019)

Japanese SocietyforthePromotionofScience(JSPS)

Collaborateurs:Y.Kawaguchi(TUFS),M.Kondo(Waseda),H.Akihiro (TUFS),K.Sugiyama (SeinanGakuin),K.Kawashima (Fukuoka)

Page 4: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

1)Lecorpus:objectifsetenjeux

Volet1:– longitudinal(4sessionssur2ans)– apprenantsdébutants(A1.1-B1)– focussurlaprononciation– perception&production– parolenon-spontanée(partie1duprotocoleIPFC)

Page 5: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

1)Lecorpus:objectifsetenjeux

Volet2:– parolespontanée (partie2duprotocoleIPFC)– apprenantsdeniveauintermédiaire (- B2+)– extensionauxautresniveaux:lexique,syntaxe…

Question:Quellesdivergences(« erreurs »)persistantesàl’oral ?

Interfaceprononciation/lexique/grammairecf.difficultésdetranscription&codage:naturedela« divergence »

Finalité: didactiqueaiderlesapprenantsàrésoudrelesdivergencespersistantes

Page 6: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

1)Lecorpus:objectifsetenjeuxLecorpus:

Analysephonético-phonologique:ExploitationdeCLIJAF1&2(mots,texte,conversations)

Pourcetteprésentation:FocussurCLIJAF2– parolespontanée(conversations)

Page 7: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

1)Lecorpus:objectifsetenjeux

CLIJAF2:parolespontanée- Locuteurs:39(31F&8H)- Conversationsguidées:46- Conversationslibres:67- Durée:environ26h- Format:son+transcriptionorthographiquealignés

(Transcriber)

Sous-corpusWaseda+TUFSdanslaBDD- Nbremots:167172- Durée:18h33- Nbreannotations:56137

Page 8: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

Analysemultiniveauxd’uncorpusoral:énorme chantier…méthodologie, outils,RH…coûteux…+lesdéfisdutraitementd’uneL2!(e.g.FLLOC,Myles&Mitchell, http://www.flloc.soton.ac.uk/)

Approche didactique:- annotationsminimales: repérage desdivergencesdesurface- pointdevue del’enseignant deFLE:“divergences”et“modèles”

Méthodologie:- Transcriptionorthographique- Conventions adhoc(GARS,IPFC…)- Transcriber (simple,gratuit,testé)

2)Desannotationsminimales àunedescriptionautomatisée

Page 9: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

2)Desannotationsminimales àunedescriptionautomatisée

Annotationsmanuellesminimalesdesdivergences:

1) [v]_ou[c]ou[v/c]__modificationvocaliqueouconsonantiquesimpleoumultiple (sansprécision)

2) [e]_..._[xxx]:formesinacceptablestranscritestellesquellespuisformejugéesouhaitableparletranscripteur:[e]_à_[en]Allemagne, je[e]_vas_[vais]

3) [ac]_[]:formesinacceptablesauto-corrigées(dernier énoncé):jesuisallé[ac]_àAllemagneeuhjesuisalléenAllemagne_[]

Page 10: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

Exemple de séquence

Page 11: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

Traitement automatisépourunedescriptionàviséedidactique:PartenariatavecArchean Labs (L.Fontan&M.LeCoz)

- Unserveur destockageetdetraitement- Unedescriptionquantitativeducorpus- Unconcordanciertexte-son (didactique&recherche)- Uneinterfaced’évaluationpédagogique

2)Desannotationsminimales àunedescriptionautomatisée

Page 12: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

2)Desannotationsminimalesàunedescription automatisée:Fonctionnalités Recherche

Page 13: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

2)Desannotationsminimalesàunedescription automatiséeStatistiquesGlobales

Page 14: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

2)Desannotationsminimalesàunedescription automatiséeProfilsd’apprenants

Page 15: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

3)Perspectivesd’analyse

Caractéristiques:- Parapprenant:nbre&typed'erreurs- Inter-apprenants:erreursrécurrentes,parniveaux,partypedeconversation

- Longitudinales:2sessions

Page 16: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

3)Perspectivesd’analyse

Pourcentage d’erreurs en fonction du niveau de l’apprenant

Page 17: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

3)Perspectivesd’analyse

Evolution longitudinale du pourcentage d’erreurs

Page 18: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

3)Perspectivesd’analyse

Répartition des erreurs entre prononciation et autre pour 10 apprenants B2

Prononciation Autre

Page 19: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

Auniveauphonético-phonologique:apprentissagesemi-superviséavecThomasPellegrini (IRIT,Toulouse),ANRJeuneChercheurLUDAU(Lightly-supervisedandUnsupervisedDiscoveryofAudioUnitsusingDeepLearning):à positionetnaturedeladivergencesegmentale

3)Perspectivesd’analyse

Page 20: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

3)Perspectivesd’analyse

Approche:• Rechercheàpartirdelacibleversdesdivergences(correction)• Recherched’un itemdivergentetrécupérationducontexte• Recherched’une catégoriePDD(encours)

Intérêt:1) Adéquation lexicogrammaticale vs.Adéquation phonétique :

récupérationdusignalsonoreencontexteànaturedeladivergence:« du »/« du »

2) Doubleentrée: productionvsciblepossible

Page 21: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

4)PerspectivesdidactiquesDes« divergences »:générationd’activitésdidactiques:- Phonético-phonologiques- Lexicales- Morpho-syntaxiques- Discursives

ConnexionsavecCAPT-L2etLexpro- Profilphonologiquedesapprenants- Profillexicaldesapprenants

Enprojet:- Profilgrammaticaldesapprenants- Dimensiondiscursiveetsociolinguistique

à Personnalisationducontenudidactiqueselonleprofil

Page 22: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

Conclusion

Apportparrapportàunconcordancierstandard:- Évaluationdel’oral- Rapportentreformesproduitesetformesattendues(doubleentréederecherche)

Défis:1) Transcriptionorthographique:manuelle?2) Annotationminimale:manuelle?3) Multiplicitédesmodèles:degréd’acceptabilité?

Nécessitédecodagemultiple

Objectifultime:unsystèmedecorrectionautomatiquedelaparoleL2

à Besoindesystème(s)deréférence:- phonologiederéférence (CAPT-L2)- lexiquederéférence (Lexpro)- grammairederéférence (cf.correcteursgrammaticaux– maisdel’oral!)

Page 23: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

Remerciements

• Japanese SocietyforthePromotionofScience• Archean Technologies• Lesétudiantsducorpus• LaboratoirePraxiling UMR5267U.Montpellier3

Page 24: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de

Annotationsminimalesmulti-niveauxd’uncorpusdeparolespontanéed’apprenants

japonaisdeFLEettraitementautomatique :perspectivesdidactiques

WorkInProgress…

SylvainDetey (U.Waseda,Japon),MaximeLeCoz(ArcheanTechnologies,France),LionelFontan(Archean Technologies,France),CorentinBarcat (TUFS,Japon),Yuji Kawaguchi(TUFS,Japon),Hisae

Akihiro (TUFS,Japon),Kaori Sugiyama (Seinan Gakuin U.,Japon)&NoriKondo(NUFS,Japon).

IPFC2018– ParisMSH– 26-27novembre2018