Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations...

Preview:

Citation preview

Annotationsminimalesmulti-niveauxd’uncorpusdeparolespontanéed’apprenants

japonaisdeFLEettraitementautomatique :perspectivesdidactiques

WorkInProgress…

SylvainDetey (U.Waseda,Japon),MaximeLeCoz(ArcheanTechnologies,France),LionelFontan(Archean Technologies,France),CorentinBarcat (TUFS,Japon),Yuji Kawaguchi(TUFS,Japon),Hisae

Akihiro (TUFS,Japon),Kaori Sugiyama (Seinan Gakuin U.,Japon)&NoriKondo(NUFS,Japon).

IPFC2018– ParisMSH– 26-27novembre2018

Plan

1)Lecorpus:objectifsetenjeux

2)Desannotationsminimalesàune

descriptionautomatisée

3)Perspectivesd’analyses

4)Perspectivesdidactiques

1)Lecorpus:objectifsetenjeux

CLIJAF:Corpuslongitudinalinterphonologiqued’apprenantsjaponaisdefrançais (Detey,2011-2019)

Japanese SocietyforthePromotionofScience(JSPS)

Collaborateurs:Y.Kawaguchi(TUFS),M.Kondo(Waseda),H.Akihiro (TUFS),K.Sugiyama (SeinanGakuin),K.Kawashima (Fukuoka)

1)Lecorpus:objectifsetenjeux

Volet1:– longitudinal(4sessionssur2ans)– apprenantsdébutants(A1.1-B1)– focussurlaprononciation– perception&production– parolenon-spontanée(partie1duprotocoleIPFC)

1)Lecorpus:objectifsetenjeux

Volet2:– parolespontanée (partie2duprotocoleIPFC)– apprenantsdeniveauintermédiaire (- B2+)– extensionauxautresniveaux:lexique,syntaxe…

Question:Quellesdivergences(« erreurs »)persistantesàl’oral ?

Interfaceprononciation/lexique/grammairecf.difficultésdetranscription&codage:naturedela« divergence »

Finalité: didactiqueaiderlesapprenantsàrésoudrelesdivergencespersistantes

1)Lecorpus:objectifsetenjeuxLecorpus:

Analysephonético-phonologique:ExploitationdeCLIJAF1&2(mots,texte,conversations)

Pourcetteprésentation:FocussurCLIJAF2– parolespontanée(conversations)

1)Lecorpus:objectifsetenjeux

CLIJAF2:parolespontanée- Locuteurs:39(31F&8H)- Conversationsguidées:46- Conversationslibres:67- Durée:environ26h- Format:son+transcriptionorthographiquealignés

(Transcriber)

Sous-corpusWaseda+TUFSdanslaBDD- Nbremots:167172- Durée:18h33- Nbreannotations:56137

Analysemultiniveauxd’uncorpusoral:énorme chantier…méthodologie, outils,RH…coûteux…+lesdéfisdutraitementd’uneL2!(e.g.FLLOC,Myles&Mitchell, http://www.flloc.soton.ac.uk/)

Approche didactique:- annotationsminimales: repérage desdivergencesdesurface- pointdevue del’enseignant deFLE:“divergences”et“modèles”

Méthodologie:- Transcriptionorthographique- Conventions adhoc(GARS,IPFC…)- Transcriber (simple,gratuit,testé)

2)Desannotationsminimales àunedescriptionautomatisée

2)Desannotationsminimales àunedescriptionautomatisée

Annotationsmanuellesminimalesdesdivergences:

1) [v]_ou[c]ou[v/c]__modificationvocaliqueouconsonantiquesimpleoumultiple (sansprécision)

2) [e]_..._[xxx]:formesinacceptablestranscritestellesquellespuisformejugéesouhaitableparletranscripteur:[e]_à_[en]Allemagne, je[e]_vas_[vais]

3) [ac]_[]:formesinacceptablesauto-corrigées(dernier énoncé):jesuisallé[ac]_àAllemagneeuhjesuisalléenAllemagne_[]

Exemple de séquence

Traitement automatisépourunedescriptionàviséedidactique:PartenariatavecArchean Labs (L.Fontan&M.LeCoz)

- Unserveur destockageetdetraitement- Unedescriptionquantitativeducorpus- Unconcordanciertexte-son (didactique&recherche)- Uneinterfaced’évaluationpédagogique

2)Desannotationsminimales àunedescriptionautomatisée

2)Desannotationsminimalesàunedescription automatisée:Fonctionnalités Recherche

2)Desannotationsminimalesàunedescription automatiséeStatistiquesGlobales

2)Desannotationsminimalesàunedescription automatiséeProfilsd’apprenants

3)Perspectivesd’analyse

Caractéristiques:- Parapprenant:nbre&typed'erreurs- Inter-apprenants:erreursrécurrentes,parniveaux,partypedeconversation

- Longitudinales:2sessions

3)Perspectivesd’analyse

Pourcentage d’erreurs en fonction du niveau de l’apprenant

3)Perspectivesd’analyse

Evolution longitudinale du pourcentage d’erreurs

3)Perspectivesd’analyse

Répartition des erreurs entre prononciation et autre pour 10 apprenants B2

Prononciation Autre

Auniveauphonético-phonologique:apprentissagesemi-superviséavecThomasPellegrini (IRIT,Toulouse),ANRJeuneChercheurLUDAU(Lightly-supervisedandUnsupervisedDiscoveryofAudioUnitsusingDeepLearning):à positionetnaturedeladivergencesegmentale

3)Perspectivesd’analyse

3)Perspectivesd’analyse

Approche:• Rechercheàpartirdelacibleversdesdivergences(correction)• Recherched’un itemdivergentetrécupérationducontexte• Recherched’une catégoriePDD(encours)

Intérêt:1) Adéquation lexicogrammaticale vs.Adéquation phonétique :

récupérationdusignalsonoreencontexteànaturedeladivergence:« du »/« du »

2) Doubleentrée: productionvsciblepossible

4)PerspectivesdidactiquesDes« divergences »:générationd’activitésdidactiques:- Phonético-phonologiques- Lexicales- Morpho-syntaxiques- Discursives

ConnexionsavecCAPT-L2etLexpro- Profilphonologiquedesapprenants- Profillexicaldesapprenants

Enprojet:- Profilgrammaticaldesapprenants- Dimensiondiscursiveetsociolinguistique

à Personnalisationducontenudidactiqueselonleprofil

Conclusion

Apportparrapportàunconcordancierstandard:- Évaluationdel’oral- Rapportentreformesproduitesetformesattendues(doubleentréederecherche)

Défis:1) Transcriptionorthographique:manuelle?2) Annotationminimale:manuelle?3) Multiplicitédesmodèles:degréd’acceptabilité?

Nécessitédecodagemultiple

Objectifultime:unsystèmedecorrectionautomatiquedelaparoleL2

à Besoindesystème(s)deréférence:- phonologiederéférence (CAPT-L2)- lexiquederéférence (Lexpro)- grammairederéférence (cf.correcteursgrammaticaux– maisdel’oral!)

Remerciements

• Japanese SocietyforthePromotionofScience• Archean Technologies• Lesétudiantsducorpus• LaboratoirePraxiling UMR5267U.Montpellier3

Annotationsminimalesmulti-niveauxd’uncorpusdeparolespontanéed’apprenants

japonaisdeFLEettraitementautomatique :perspectivesdidactiques

WorkInProgress…

SylvainDetey (U.Waseda,Japon),MaximeLeCoz(ArcheanTechnologies,France),LionelFontan(Archean Technologies,France),CorentinBarcat (TUFS,Japon),Yuji Kawaguchi(TUFS,Japon),Hisae

Akihiro (TUFS,Japon),Kaori Sugiyama (Seinan Gakuin U.,Japon)&NoriKondo(NUFS,Japon).

IPFC2018– ParisMSH– 26-27novembre2018

Recommended