28
Approche lexicométrique de corpus de dialogues adulte-enfant dans le cadre de recherches en linguistique de l’acquisition du langage Luiggi Sansonetti – DEA Sciences du Langage 2001/2002

Approche lexicométrique de corpus de dialogues adulte-enfant

  • Upload
    carsyn

  • View
    20

  • Download
    0

Embed Size (px)

DESCRIPTION

Approche lexicométrique de corpus de dialogues adulte-enfant. dans le cadre de recherches en linguistique de l’acquisition du langage. Luiggi Sansonetti – DEA Sciences du Langage 2001/2002. Hypothèse et objectif de départ Interdisciplinarité de la recherche Phases de préparation - PowerPoint PPT Presentation

Citation preview

Page 1: Approche lexicométrique de corpus de dialogues adulte-enfant

Approche lexicométriquede corpus de

dialoguesadulte-enfantdans le cadre de

recherches enlinguistique de

l’acquisition du langageLuiggi Sansonetti – DEA Sciences du

Langage 2001/2002

Page 2: Approche lexicométrique de corpus de dialogues adulte-enfant

Plan de l’exposé

1. Hypothèse et objectif de départ2. Interdisciplinarité de la

recherche3. Phases de préparation4. Exemples d’analyses5. Premier bilan6. Projet de thèse

Page 3: Approche lexicométrique de corpus de dialogues adulte-enfant

1.Hypothèse et objectif de départ

Suivant une normalisation adaptée, il est possible de procéder à des analyses

lexicométriques et statistiques sur des corpus de dialogues dans le cadre de recherches en

acquisition du langage.

Analyser de façon automatisée des corpus de dialogues adulte-enfant en contexte d’acquisition

du langage en appliquant des méthodes quantitatives de statistiques textuelles.

• Constitution d’une banque de données de corpus de dialogues normalisés

• Traitement de grands corpus longitudinaux simplifié

Page 4: Approche lexicométrique de corpus de dialogues adulte-enfant

2.Interdisciplinarité de la recherche

Linguistique de l’acquisition du langage•Analyse syntaxique

•Interaction langagière

Traitement Automatique des Langues•Statistique textuelle

•Lexicométrie

Page 5: Approche lexicométrique de corpus de dialogues adulte-enfant

2.1Linguistique de l’acquisition du langage Recherche les processus d’élaboration du

fonctionnement cognitivo-langagier, en observant tout particulièrement la syntaxe chez l’enfant, à partir d’interactions verbales entre un adulte et un enfant en situation de dialogues spontanés.

• Recherche de formes

• Recherche de constructions syntaxiques

• Recherche des phénomènes de reprises et reformulations

• Evolution du langage de l’enfant dans l’étude longitudinale

Page 6: Approche lexicométrique de corpus de dialogues adulte-enfant

2.2Traitement Automatique des Langues Le TAL est l’étude et le traitement de données

linguistiques exprimées dans une langue dite naturelle par des moyens informatiques comme des programmes ou des logiciels.

• Statistique textuelle et lexicométrie (Lexico)•Fréquences

•Concordances

•Partitions

•Evolution du vocabulaire

• Etiquetage morpho-syntaxique (Cordial)• Préparation et manipulation (MkCorpus)

Page 7: Approche lexicométrique de corpus de dialogues adulte-enfant

3.Phases de préparation Phases de nettoyage

•Commentaires, fiche de présentation, hésitations…

Phases de remplacement•Estimation, prononciation, majuscule…

Phases de balisage•Dialogues, locuteurs, énoncés…

Phases de présentation•Enoncés regroupés par 50 pour avoir sur une

ligne l’adulte et en dessous l’enfant

Page 8: Approche lexicométrique de corpus de dialogues adulte-enfant

CORPUSCorpus de JULIENENREGISTREMENT :Claire T. Date 20/11/99TRANSCRIPTION : Claire T. Date : 21/11/99ENFANT : Julien F. Né le 01/01/94

Age : 05 ; 10 ; 19 Corpus N°1nJ = 68nA = 69

SITUATION : Julien, âgé de 5 ans, est un garçon francophone : il n’a aucune origine étrangère. Il a un grand frère, Raphaël, qui est son aîné de 3 ans. Ils vivent tous les deux dans un appartement avec leurs parents : les enfants ont chacun leur chambre. Leur père est ingénieur et leur mère est femme au foyer avec un niveau d’études supérieures. Ainsi c’est cette dernière qui s’occupe énormément de Julien et de Raphaël : elle les emmène et va les chercher à l’école et d’autre part, elle emprunte souvent des livres à la bibliothèque municipale, et lit donc beaucoup d’histoires à Julien. Celui-ci et sa famille ont déménagé cet été : les enfants ont donc changé d’école en début d’année. Julien est en dernière année de maternelle. Julien est le fils de ma cousine germaine mais je ne le vois que très rarement. Pour faire ce corpus, j’ai choisi de prendre un livre comme support. J’ai demandé à la maman de Julien de m’apporter deux livres. Puis, avant de commencer l’enregistrement, j’ai demandé à Julien de choisir lui-même entre Crictor et Babar à New York : il a préféré raconter l’histoire de Crictor, de Tomi Ungerer, l’école des loisirs, Collection Lutin Poche, première parution 1980. Pour des raisons de commodité, l’entretien a lieu à 17h30 dans ma chambre contrairement à l’année dernière où cela s’était passé chez lui. Julien est assis sur mon lit et moi par terre pour supprimer toute différence de taille entre l’enfant et moi. D’autre part, nos regards pouvaient directement se croiser. J’ai relu l’histoire tout en tenant lui-même le livre et en tournant les pages. Il n’est pas distrait par le magnétophone dont il a l’habitude. L’enregistrement a duré 19 minutes 35 secondes. Le passage, que j’ai choisi, dure 9 minutes 55 secondes : il correspond au début de l’enregistrement et concerne le livre ; par la suite, Julien raconte abondamment les jeux qu’il fait sur ordinateur. Durant l’enregistrement, Julien est un peu excité : il sortait de son cours de judo. Parfois même, il sautait sur le lit.

Page 9: Approche lexicométrique de corpus de dialogues adulte-enfant

TRANSCRIPTION :A1 Alors c’est quoi l’histoire de Crictor ? J1 mm un jour le facteur arrive et donne un mm quand madame Bodot ouv(r)e le pa/quet mm elle va / elle va au zooA2 Et pourquoi elle va au zoo ? J2 pour voir si c’est pas un / un serpent dang(e)reux (il avale sa salive)A3 Pourquoi le serpent dang(e)reux, il est dans / il était dans l(e) paquet,, que l(e) facteur a apporté ? J3 ouiA4 D’accord. J4 et mm un c’était un boa constructeur alors elle l’appela Cric(tor) elle lui donna un [s] / [s] le biberon [s] elle lui apporta des palmiersA5 Et pourquoi elle lui apporta des palmiers ? J5 pour sa propre natureA6 Ah, pour qu’i(l) euh se rappelle. J6 sa natureA7 D’accord. J7 mm elle lui faisa un petit gilet,, elle décida de / de l’em/mener en classe il apprena,, l’alphabetA8 Et euh, en fait elle s’occu, madame Bodot / elle s’occupe du serpent comme un / un petit enfant, en fait ? J mmA9 Et c’est qui qui lui a envoyé le / le serpent ? J8 c’est son / c’est son mariA10 C’est son mari ? J9 il apprena à compterA11 Donc il a / il a appris à / à compter à l’école aussi ? J10 mm mm mm i(l) jouait avec les p(e)tits garçons et aussi les fillesA12 Il jouait à quoi avec les garçons ? J11 à / à ça,, toboggan il était très serviable et il montrait comment on faisait les nœudsA13 Il montrait euh à qui,, comment on faisait les nœuds ? J12 ben aux p(e)tits garçonsA14 A des garçons, ok.

Page 10: Approche lexicométrique de corpus de dialogues adulte-enfant

<dialogue=1>§<adulte=101> $alors $c'$est $quoi $l'$histoire $de $*crictor ?§<adulte=102> $et $pourquoi $elle $va $au $zoo ?§<adulte=103> $pourquoi $le $serpent $dangereux, $il $est $dans $il $était $dans $le $paquet,, $que $le $facteur $a $apporté ?§<adulte=104> $d'$accord. §<adulte=105> $et $pourquoi $elle $lui $apporta $des $palmiers ?§<adulte=106> $eh, $pour $qu'$il $euh $se $rappelle.§<adulte=107> $d'$accord.§<adulte=108> $et $euh, $en $fait $elle $s'$occu, $madame $*bodot $elle $s'$occupe $du $serpent $comme $un $un $petit $enfant, $en $fait ?§<adulte=109> $et $c'$est $qui $qui $lui $a $envoyé $le $le $serpent ?§<adulte=110> $c'$est $son $mari ?§<adulte=111> $conc $il $a $il $a $appris $à $à $compter $à $l'$école $aussi ?§<adulte=112> $il $jouait $à $quoi $avec $les $garçons ?§<adulte=113> $il $montrait $euh $à $qui,, $comment $on $faisait $les $noeuds ?§<adulte=114> $à $des $garçons, $ok.§<adulte=115> $et $euh $le $qui $l'$a $bâillonnée $euh $madame $euh $*bodot ?§<adulte=116> $le $cambrioleur, $d'$accord. $et $qu'$est-$ce $qui $s'$est $passé $par $la $suite ?§<adulte=117> $il $attacha $qui $le $serpent ?§<adulte=118> $le $bandit, $d'$accord.§<adulte=119> $donc $il $a $bien $un $jardin $qui $portait $son $nom ?§<adulte=120> $d'$accord. $Donc $là $c'$était $l'$histoire $du $petit $*crictor.§<adulte=121> $et $pourquoi $tu $aimes $bien $ce $livre ?§<adulte=122> $tu $aimes $bien $les $serpents ?§<adulte=123> $et $pourquoi $tu $avais $envie $de $me $raconter $l'$histoire $de $de $*crictor $le $serpent ?§<adulte=124> $parce $que $c'$était $un $livre $très $court $alors ?§<adulte=125> $et $euh $et $alors $tu $aimes $bien $les $serpents $ou $pas ?§<adulte=126> $ca $te $fait $peur $quand $tu $les $vois ?§<adulte=127> $ou $en $vrai.§<adulte=128> $mais $par $exemple $quand $tu $as $après $que $tu $aies $lu $euh $ce $livre, $maintenant $tu $euh $tu $aimes $bien $les $serpents $ou $un $peu $mieux ?§<adulte=129> $du $fait $que $ce $soit $un $serpent $gentil.§<adulte=130> $c'$est $tout. $et $alors $euh $madame $*bodot $au $départ, $elle $elle $avait $peur $du $serpent ?§<adulte=131> $ouais. $et $euh $et $euh $en $fait, $elle $s'$occupe $du $serpent $comme $un $enfant ?

Page 11: Approche lexicométrique de corpus de dialogues adulte-enfant

§<adulte=132> $et $toi, $tu $aurais $fait $pareil $à $sa $place ?§<adulte=133> $tu $aurais $réagi $comment ?§<adulte=134> $et $tu $lui $aurais $tu $lui $aurais $donné $quoi $à $manger ?§<adulte=135> $des $pâtes.§<adulte=136> $pourquoi $à $la $vanille ?§<adulte=137> $pourquoi $au $café ?§<adulte=138> $alors $en $fait, $en $fait $tu $lui $aurais $donné $les $la $même $nourriture $que $toi $tu $manges ?§<adulte=139> $et $euh $tu $voudrais $pas $qu'il $dorme $dans $la $même $chambre $que $toi ?§<adulte=140> $pourquoi ?§<adulte=141> $il $t'$embêterait ?§<adulte=142> $tu $crois ? $qu'$est-$ce $qu'$il $te $ferait ?§<adulte=143> $il $gigoterait $et $toi $ça $t'$embêterait ?§<adulte=144> $parce $que $tu $pourrais $pas $dormir.§<adulte=145> $mais $tu $jouerais $avec $lui ?§<adulte=146> $et $euh, $tu $jouerais $à $quoi ?§<adulte=147> $et $euh $d'$autres $à $d'$autres $jeux ? $comme $quoi ?§<adulte=148> $c'$est $tout ?§<adulte=149> $et $qu'$est-$ce $que $tu $fais $d'$autre $et $qu'$est-$ce $que $tu $ferais $d'$autre $avec $lui ?§<adulte=150> $rien ? $tu $te $t'$amuserais $seulement ?§<enfant=101> mm un jour le facteur arrive et donne un mm quand madame *bodot ouvre le paquet mm elle va elle va au zoo§<enfant=102> pour voir si c'est pas un un serpent dangereux §<enfant=103> oui§<enfant=104> et mm un c'était un boa constructeur alors elle l'appela *crictor elle lui donna un le biberon elle lui apporta des palmiers§<enfant=105> pour sa propre nature§<enfant=106> sa nature§<enfant=107> mm elle lui faisa un petit gilet,, elle décida de de l'emmener en classe il apprena,, l'alphabet§<enfant=000> mm§<enfant=108> c'est son c'est son mari§<enfant=109> il apprena à compter§<enfant=110> mm mm mm il jouait avec les petits garçons et aussi les filles§<enfant=111> à à ça,, toboggan il était très serviable et il montrait comment on faisait les noeuds§<enfant=112> ben aux petits garçons

Page 12: Approche lexicométrique de corpus de dialogues adulte-enfant

4.Exemples d’analyses

Fréquences des mots Recherches des formes dans les

énoncés Graphiques de ventilation des formes Etiquetage morpho-syntaxique Concordances des formes

Page 13: Approche lexicométrique de corpus de dialogues adulte-enfant

Extraits du dictionnaire des formes énoncées par l’adulte etpar l’enfant dans le corpus longitudinal de Julien(comprenant 3 dialogues) analysé par Lexico3

Page 14: Approche lexicométrique de corpus de dialogues adulte-enfant

Recherche portant sur « parce que »

Page 15: Approche lexicométrique de corpus de dialogues adulte-enfant

Mise en relation des « parce que » énoncés par l’enfant et des « pourquoi » énoncés par l’adulte dans le corpus

longitudinal

Page 16: Approche lexicométrique de corpus de dialogues adulte-enfant

Extrait du fichier résultat de l’étiquetage automatique du corpus à l’aide de Cordial

N° mot mot lemme Typegram Codegram==== DEBUT DE PHRASE ====

0 <1 dialogue dialogue NCMS Ncms2 =3 1 1 NCMIN Ncm.4 >

===== FIN DE PHRASE ========= DEBUT DE PHRASE ====

0 \r\r§<1 adulte adulte ADJSIG Afp.s2 =3 101 101 NCMIN Ncms4 >5 $6 alors alors ADV Rgp7 $8 c' ce PDS Pd-..n9 $10 est être VINDP3S Vmip3s11 $12 quoi quoi PRI Pr-..-13 $14 l' le DETDFS Da-ms-d15 $16 histoire histoire NCFS Ncfs17 $18 de de PREP Sp19 $*20 crictor crictor NCI Nc.. => Erreur orthographique: crictor => cricri21 ? ? PCTFORTE Yps22 ?

===== FIN DE PHRASE =====(…)

Page 17: Approche lexicométrique de corpus de dialogues adulte-enfant

Manipulation avec MkCorpus du fichier étiqueté pour générer différentes

représentations

Page 18: Approche lexicométrique de corpus de dialogues adulte-enfant

1. « cordialCateg.txt » présente les catégories seules :<enfant=102>PREP VINF ADV PDS VINDP3S ADV DETIMS NCMS ADJMIN

2. « cordialForme.txt » présente le texte initial :<enfant=102>pour voir si c' est pas un serpent dangereux

3. « cordialLemm.txt » présente les formes lemmatisées :<enfant=102>pour voir si ce être pas un serpent dangereux

4. « cordialFormCat.txt » associe les formes avec leur catégorie juxtaposée :<enfant=102>pour_PREP voir_VINF si_ADV c'_PDS est_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN

5. « cordialLemCat.txt » associe les lemmes avec leur catégorie juxtaposée :<enfant=102>pour_PREP voir_VINF si_ADV ce_PDS être_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN

6. « cordial2lexico.txt » concatène les formats « cordialCateg », « cordialForme » et « corialLemm » en un seul fichier.

Fichiers de sortie générés par MkCorpus

Page 19: Approche lexicométrique de corpus de dialogues adulte-enfant

1. « cordialCateg.txt » présente les catégories seules :<enfant=102>PREP VINF ADV PDS VINDP3S ADV DETIMS NCMS ADJMIN

2. « cordialForme.txt » présente le texte initial :<enfant=102>pour voir si c' est pas un serpent dangereux

3. « cordialLemm.txt » présente les formes lemmatisées :<enfant=102>pour voir si ce être pas un serpent dangereux

4. « cordialFormCat.txt » associe les formes avec leur catégorie juxtaposée :<enfant=102>pour_PREP voir_VINF si_ADV c'_PDS est_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN

5. « cordialLemCat.txt » associe les lemmes avec leur catégorie juxtaposée :<enfant=102>pour_PREP voir_VINF si_ADV ce_PDS être_VINDP3S pas_ADV un_DETIMS serpent_NCMS dangereux_ADJMIN

6. « cordial2lexico.txt » concatène les formats « cordialCateg », « cordialForme » et « corialLemm » en un seul fichier.

Fichiers de sortie générés par MkCorpus

Page 20: Approche lexicométrique de corpus de dialogues adulte-enfant

Concordance des constructions « Verbe à l’Infinitif »

Page 21: Approche lexicométrique de corpus de dialogues adulte-enfant

Graphiques de ventilation de la construction « Préposition + Verbe à l’Infinitif » dans les énoncés de l’adulte et de l’enfant

Page 22: Approche lexicométrique de corpus de dialogues adulte-enfant

Evolution de l’emploi des Pronoms Relatifs dans les énoncés de l’enfant et dans ceux de l’adulte avec

occurrences dans le corpus

Page 23: Approche lexicométrique de corpus de dialogues adulte-enfant

Concordance des constructions « Préposition »

Page 24: Approche lexicométrique de corpus de dialogues adulte-enfant

Recherche sur l’emploi du conditionnel par l’enfantcomparé à son emploi par l’adulte

Page 25: Approche lexicométrique de corpus de dialogues adulte-enfant

Visualisation des occurrences du « conditionnel »dans les énoncés de l’enfant et de l’adulte

Page 26: Approche lexicométrique de corpus de dialogues adulte-enfant

5.Premier bilan Avantages

• Stockage et échange de données

• Traitement rapide de grands corpus

• Analyses automatiques « visuelles »

• Approche quantitative complémentaire

Inconvénients• Phases de préparation

• Fiabilité de l’étiquetage automatique

• Traitement de données orales

• Repérage d’essais de constructions complexes

Page 27: Approche lexicométrique de corpus de dialogues adulte-enfant

6.Projet de thèse

Réfléchir sur une apparente incompatibilité entre le modèle informatique qui est un modèle rigide, appliqué à une analyse qualitative de corpus de données orales en contexte particulier d’acquisition du langage, donc

sujettes à la variation et à des formes non standardisées ;

Résoudre les problèmes liés aux phases de préparation ; Constituer une banque de données de corpus

d’acquisition du langage normalisés ; Trouver des applications possibles pour quantifier le

développement du langage chez l’enfant, et apporter des méthodes complémentaires.

Page 28: Approche lexicométrique de corpus de dialogues adulte-enfant

Approche lexicométrique de corpus de dialogues adulte-

enfant dans le cadre de recherches en linguistique de l’acquisition du langage

Luiggi SANSONETTIEA 2290 SYLED – EA 170 CALIPSO

Septembre 2002

[email protected]

MERCI