39
Expériences d'élaboration des corpus de référence du hollandais et de l'allemand. Projet de noyau de corpus CMC en français Thierry Chanier, Université Blaise Pascal Thierry Chanier, Université Blaise Pascal 2ème journées : Corpus de référence du français 28-29 mars 2013, Paris Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits- nouvcom/

Thierry Chanier , Université Blaise Pascal

  • Upload
    ginger

  • View
    69

  • Download
    0

Embed Size (px)

DESCRIPTION

Corpus-écrits GT7, nouv-com. https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/. Expériences d'élaboration des corpus de référence du hollandais et de l'allemand. Projet de noyau de corpus CMC en français. Thierry Chanier , Université Blaise Pascal. - PowerPoint PPT Presentation

Citation preview

Page 1: Thierry  Chanier , Université Blaise Pascal

Expériences d'élaboration des corpus de référence du

hollandais et de l'allemand. Projet de noyau de corpus CMC

en françaisThierry Chanier, Université Blaise PascalThierry Chanier, Université Blaise Pascal

2ème journées : Corpus de référence du français28-29 mars 2013, Paris

Corpus-écritsGT7, nouv-com

https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/

Page 2: Thierry  Chanier , Université Blaise Pascal

Merci à Alexander Geyken (BBAW) et Lothar Lemnitzer Merci à Alexander Geyken (BBAW) et Lothar Lemnitzer (Berlin-Brandebourg) (Berlin-Brandebourg)

22

CORPUS EN ALLEMAND DWDSCORPUS EN ALLEMAND DWDSDIGITALES WÖRTERBUCH DER DIGITALES WÖRTERBUCH DER DEUTSCHEN SPRACHEDEUTSCHEN SPRACHE

1

Page 3: Thierry  Chanier , Université Blaise Pascal

Principaux projets corpus en Principaux projets corpus en allemandallemand

33

Allemand des 20 et 21 ème Allemand 1650-1900

Page 4: Thierry  Chanier , Université Blaise Pascal

Objectif DWDS NoyauObjectif DWDS Noyau

44

Construire un dictionnaire rendant compte des usages de l’allemand moderneà partir d’un corpus équilibré d’écrits- 60% électronique- 40% papier au départ-Métadonnées pour tous les documents

Page 5: Thierry  Chanier , Université Blaise Pascal

DWDS-E étenduDWDS-E étendu

Mais statistiques lexicales montrent qu’il Mais statistiques lexicales montrent qu’il faut des tailles supérieures pour analyser faut des tailles supérieures pour analyser certains phénomènes (collocations, etc.)certains phénomènes (collocations, etc.)

Corpus étendu de type opportunisteCorpus étendu de type opportuniste Base importante à partir de journaux et de Base importante à partir de journaux et de

l’Internet (pb droits plus facile à régler)l’Internet (pb droits plus facile à régler) Tous les corpus DWDS et DTA, ainsi que Tous les corpus DWDS et DTA, ainsi que

les dictionnaires sont structurés en TEI/P5les dictionnaires sont structurés en TEI/P5

55

Page 6: Thierry  Chanier , Université Blaise Pascal

Planification du projet DWDSPlanification du projet DWDS

66Dico DWDS basé sur dico WDG (1961-75)Wörterbuch der deutschen Gegenwartssprache

Page 7: Thierry  Chanier , Université Blaise Pascal

Patrons et ressourcesPatrons et ressources

77

BBAW AvH

Financé par “Akademienunion » sur 18 ans

Akademienunion

Page 8: Thierry  Chanier , Université Blaise Pascal

DWDS noyau : tâches DWDS noyau : tâches principalesprincipales

88

Accès : voir infra

-TAGH : morpho composé-STTS : POS- GermaNet : sém.

Page 9: Thierry  Chanier , Université Blaise Pascal

99

www.dwds.de : un site en accès libre

Page 10: Thierry  Chanier , Université Blaise Pascal

1010

71% des textes en accès libre dans DWDS noyau

Par décennies et genres Les corpus

Page 11: Thierry  Chanier , Université Blaise Pascal

1111

Statistiques en accès libres faites sur ensemble corpusOn voit plus de textes après identification

Page 12: Thierry  Chanier , Université Blaise Pascal

Merci à Nelleke Oostdijk (Radboud University Nijmegen)Merci à Nelleke Oostdijk (Radboud University Nijmegen)

1212

CORPUS DE RÉFÉRENCE EN CORPUS DE RÉFÉRENCE EN HOLLANDAIS, SONARHOLLANDAIS, SONAR

2

STEVIN Nederlandstalig Referentiecorpus

Page 13: Thierry  Chanier , Université Blaise Pascal

ObjectifsObjectifs

Construire un corpus de référence de du Construire un corpus de référence de du hollandais et du flamand moderne (post hollandais et du flamand moderne (post 1954) de grande taille (500 M tokens) 1954) de grande taille (500 M tokens) qui puissent servir à la fois à des qui puissent servir à la fois à des analyses linguistiques et au analyses linguistiques et au développement de technologies du développement de technologies du langage. langage.

Inclure dès le début des écrits provenant Inclure dès le début des écrits provenant des médias traditionnels et de l’Internetdes médias traditionnels et de l’Internet

Auparavant corpus oral de Auparavant corpus oral de 9 M tokens 9 M tokens (transcript + audio), collecte entre 1998 et2003(transcript + audio), collecte entre 1998 et2003

1313

Page 14: Thierry  Chanier , Université Blaise Pascal

Une grande variété initialement Une grande variété initialement prévueprévue

1414

Page 15: Thierry  Chanier , Université Blaise Pascal

Du prévu à la réalitéDu prévu à la réalité

1515

prévu

Phase 1

réalisé

Holland. Flamand NC

Page 16: Thierry  Chanier , Université Blaise Pascal

Du prévu à la réalitéDu prévu à la réalité

Question de droits : grande variété, Question de droits : grande variété, chronophagechronophage

Grande variété de formats, délaisser Grande variété de formats, délaisser formats trop complexes (PDF)formats trop complexes (PDF)

Approche opportuniste avec Internet Approche opportuniste avec Internet – Collectes faciles (Tweets, forum, clav) ou Collectes faciles (Tweets, forum, clav) ou

difficile (SMS)difficile (SMS)– Droits difficiles (Sites, blogues) ou libres Droits difficiles (Sites, blogues) ou libres

(licences CC ou GPL)(licences CC ou GPL) Maintenir équilibre global, collecter plus Maintenir équilibre global, collecter plus

que ce qui sera intégré dans corpus que ce qui sera intégré dans corpus référenceréférence 1616

Page 17: Thierry  Chanier , Université Blaise Pascal

D’abord un corpus piloteD’abord un corpus pilote

1717

Page 18: Thierry  Chanier , Université Blaise Pascal

SoNaR : organisationSoNaR : organisation

1818

ChercheursIndustrie

Constitution corpus

Annotations

sémantiques

QualitéÉval

extérieure

Page 19: Thierry  Chanier , Université Blaise Pascal

Développement: collaboration Développement: collaboration nationalenationale

1919

Page 20: Thierry  Chanier , Université Blaise Pascal

Diagramme de fluxDiagramme de flux

2020

Page 21: Thierry  Chanier , Université Blaise Pascal

Ressources financièresRessources financières

2121

Page 22: Thierry  Chanier , Université Blaise Pascal

Ressources financièresRessources financières

2222

+ 1 ETP par université pour tâche A et temps partiels des autres pour débutBudget ne comprend pas les missions internes, ni conf.

Page 23: Thierry  Chanier , Université Blaise Pascal

Salut s que

<NOM_4> c dcd à

ht 1 dvd pr sa

cop

ki e pa la 2main?

Projet de corpus CMC en françaisProjet de corpus CMC en français

SMS / textosTweetsBloguesForumsClavardageEtc.

3

Page 24: Thierry  Chanier , Université Blaise Pascal

Rappel objectifs projet 2013-14Rappel objectifs projet 2013-14

Créer un noyau (pas encore le corpus Créer un noyau (pas encore le corpus de référence !) de corpus CMC en de référence !) de corpus CMC en françaisfrançais

Ensembles de conversations Ensembles de conversations intervenant sur la Toile et les réseauxintervenant sur la Toile et les réseaux

Couvrir variété de systèmes de Couvrir variété de systèmes de communication synchrone ou communication synchrone ou asynchrone, mono ou multimodaux asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, SMS / textos, courriels , clavardage, forums, etc.forums, etc. 2424

Page 25: Thierry  Chanier , Université Blaise Pascal

Rappel objectifs projet 2013-14Rappel objectifs projet 2013-14

Le faire suivant standard (TEI, CLARIN, Le faire suivant standard (TEI, CLARIN, OLAC?) OLAC?)

Diffuser en accès libre ce corpus en Diffuser en accès libre ce corpus en 2014 sur Ortolang2014 sur Ortolang

Travailler en partenarait avec Europe Travailler en partenarait avec Europe (projet consortium TEI, DARIAH)(projet consortium TEI, DARIAH)

Intégrer ce noyau au « Corpus de Intégrer ce noyau au « Corpus de référence du français »référence du français »

2525

Page 26: Thierry  Chanier , Université Blaise Pascal

Macrostructure discursiveMacrostructure discursive

2626

(Beißwenger et al., 2012)

Page 27: Thierry  Chanier , Université Blaise Pascal

Macro et Macro et microstructuremicrostructure

2727

Page 28: Thierry  Chanier , Université Blaise Pascal

Multimodalité

Audio Clavardage

(LETEC corpus Archi21 : archi21-slrefl-av-j2)

Page 29: Thierry  Chanier , Université Blaise Pascal

Rachel Panckhurst, CÉNC, 31/5/12 29

anonymisation

anonymisation

Salut s que 2nis c dcd à ht 1 dvd pr sa

cop ki e pa la 2main?

sms brutSalut s que

<NOM_4> c dcd à ht 1 dvd pr sa cop ki e pa la 2main?

sms anonymisé

Salut est-ce que <NOM_4> s'est

décidé à acheter 1 dvd pour sa copine

qui est pas là demain?

sms transcodé

transco

dage

transco

dage

Salut <MOD_s_que> est-ce que <NOM_4> <MOD_c> s'est <MOD_dcd> décidé à <MOD_ht>

acheter 1 <TYP_dvd> DVD <MOD_pr> pour sa <MOD_cop> copine <MOD_ki> qui <ABS_ne>

<MOD_e> est <MOD_pa> pas <TYP_la> là <MOD_2main> demain <TYP_espace_avant_?

_manquante> ?

sms annoté

annotationannotation

Page 30: Thierry  Chanier , Université Blaise Pascal

Variability (orthographique)

• can only in part be explained in terms of errors, as a great deal of variation is intentional

• is a research topic in itself

• complicates research as it hinders the processing of the data by means of standard tools (tokenizers, POS taggers and lemmatizers, parsers, NE recognizers, etc.)

Han & Baldwin (2012: 368):“We found Twitter data to have an unsurprisingly long tail of OOV words, suggesting that conventional supervised learning will not perform well due to data sparsity. Additionally, many ill-formed words are ambiguous, and require context to disambiguate.”

Workshop on Building Corpora of Computer-Mediated Communication — Dortmund 14-15 February 2013

8

Page 31: Thierry  Chanier , Université Blaise Pascal

Expérience TAL dans notre Expérience TAL dans notre groupegroupe

3131

Page 32: Thierry  Chanier , Université Blaise Pascal

3232

Page 33: Thierry  Chanier , Université Blaise Pascal

3333

Page 34: Thierry  Chanier , Université Blaise Pascal

Groupes de travail du projet Groupes de travail du projet 20132013

3434

TEIStructurati

on

Nelles acquisitio

ns

Ingénieur (Corpus-écrits + Ortolang)

Tweets, wikipedia

Relations Ortolangcorpus-écritsPrépa V1

Droits,Amont : accept V0Aval : accept V1métadonnées

métaLinda

Page 35: Thierry  Chanier , Université Blaise Pascal

Flux de traitementsFlux de traitements

3535

V0 Clermont

Dépôts individuels

GT Validation

ingénieur

GT traitements

Page 36: Thierry  Chanier , Université Blaise Pascal

PROJET TEI-CMC PROJET TEI-CMC EUROPÉENEUROPÉEN

3636

Page 37: Thierry  Chanier , Université Blaise Pascal

1) Modelling CMC in TEI: – brief overview of essential requirements concerning the

representation of CMC from the perspective of the four projects [8 min],

– selected aspects from the DeRiK-TEI schema reviewed from the perspective of the four projects (suggested focus: element posting, user modelling, interaction signs) [15 min],

– problem sketches: (a) hypertext structures/“linked data“ (cf. topical focus of the conference), (b) multimodal CMC [5 mins each].

2) Challenges and perspectives in mapping features of computer-mediated communication to elements in TEI-P5

3) Metadata for cmc documents: challenges & suggestions 3737

Page 38: Thierry  Chanier , Université Blaise Pascal

Participants aParticipants a u projetu projet

Achille Falaise, LIG, GrenobleAchille Falaise, LIG, Grenoble Benoît Sagot, Alpage, INRIA , Univ. P7Benoît Sagot, Alpage, INRIA , Univ. P7 Béatrice Turpin, CRTF, Univ. de CergyBéatrice Turpin, CRTF, Univ. de Cergy Céline Poudat, UMR LDI, Univ. Paris 13Céline Poudat, UMR LDI, Univ. Paris 13 Ciara Wigham, LRL, Univ. Blaise PascalCiara Wigham, LRL, Univ. Blaise Pascal Fiammetta Namer, ATILF, NancyFiammetta Namer, ATILF, Nancy Georges Antoniadis, LIDILEM, Univ Grenoble 3Georges Antoniadis, LIDILEM, Univ Grenoble 3 Georgeta Cislaru, CLESTHIA, Univ. Paris 3 Georgeta Cislaru, CLESTHIA, Univ. Paris 3 Gudrun Ledegen , PREFics, Univ. de Rennes 2Gudrun Ledegen , PREFics, Univ. de Rennes 2 Julien Longhi, CRTF, Univ. de CergyJulien Longhi, CRTF, Univ. de Cergy Mahé Ben Hamed, UMR BCL, Nice Mahé Ben Hamed, UMR BCL, Nice Natalia Grabar, UMR STL, CNRS Univ. Lille 3Natalia Grabar, UMR STL, CNRS Univ. Lille 3 Paloque-Berges, Camille, DICEN, CNAMPaloque-Berges, Camille, DICEN, CNAM Rachel Panckhurst, UMR Praxiling, CNRS Univ. Rachel Panckhurst, UMR Praxiling, CNRS Univ.

Montpellier 3Montpellier 3 Thierry Chanier, LRL, Univ. Blaise PascalThierry Chanier, LRL, Univ. Blaise Pascal Tita Kyriacopoulou, LIGM, Univ. Marne-la-Tita Kyriacopoulou, LIGM, Univ. Marne-la-

ValléeVallée Virginie Zampa, LIDILEM, Univ Grenoble 3Virginie Zampa, LIDILEM, Univ Grenoble 3

Linda Hriba , Linda Hriba , corpus-corpus-écritsécrits

Paul Lotin, ingénieur, Paul Lotin, ingénieur, LRLLRL

Ingénieur à recruter Ingénieur à recruter (6 (6 mois/ETP, sur fonds mois/ETP, sur fonds Ortolang et corpus-Ortolang et corpus-écrits)écrits)

3838

Groupe GT7, corpus-écrits

Page 39: Thierry  Chanier , Université Blaise Pascal

Pour nous suivre Pour nous suivre

3939

Corpus-écritsGT7, nouv-com

https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/