39
Expériences d'élaboration des corpus de référence du hollandais et de l'allemand. Projet de noyau de corpus CMC en français Thierry Chanier, Université Blaise Pascal Thierry Chanier, Université Blaise Pascal 2ème journées : Corpus de référence du français 28-29 mars 2013, Paris Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits- nouvcom/

Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Embed Size (px)

DESCRIPTION

Exposé donnée lors de la journée en mars 2013 sur l'initiative Corpus de Référence du Français

Citation preview

Page 1: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Expériences d'élaboration des corpus de référence du

hollandais et de l'allemand. Projet de noyau de corpus CMC

en françaisThierry Chanier, Université Blaise PascalThierry Chanier, Université Blaise Pascal

2ème journées : Corpus de référence du français28-29 mars 2013, Paris

Corpus-écritsGT7, nouv-com

https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/

Page 2: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Merci à Alexander Geyken (BBAW) et Lothar Lemnitzer Merci à Alexander Geyken (BBAW) et Lothar Lemnitzer (Berlin-Brandebourg) (Berlin-Brandebourg)

22

CORPUS EN ALLEMAND DWDSCORPUS EN ALLEMAND DWDSDIGITALES WÖRTERBUCH DER DIGITALES WÖRTERBUCH DER DEUTSCHEN SPRACHEDEUTSCHEN SPRACHE

1

Page 3: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Principaux projets corpus en Principaux projets corpus en allemandallemand

33

Allemand des 20 et 21 ème Allemand 1650-1900

Page 4: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Objectif DWDS NoyauObjectif DWDS Noyau

44

Construire un dictionnaire rendant compte des usages de l’allemand moderneà partir d’un corpus équilibré d’écrits- 60% électronique- 40% papier au départ-Métadonnées pour tous les documents

Page 5: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

DWDS-E étenduDWDS-E étendu

Mais statistiques lexicales montrent qu’il Mais statistiques lexicales montrent qu’il faut des tailles supérieures pour analyser faut des tailles supérieures pour analyser certains phénomènes (collocations, etc.)certains phénomènes (collocations, etc.)

Corpus étendu de type opportunisteCorpus étendu de type opportuniste Base importante à partir de journaux et de Base importante à partir de journaux et de

l’Internet (pb droits plus facile à régler)l’Internet (pb droits plus facile à régler) Tous les corpus DWDS et DTA, ainsi que Tous les corpus DWDS et DTA, ainsi que

les dictionnaires sont structurés en TEI/P5les dictionnaires sont structurés en TEI/P5

55

Page 6: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Planification du projet DWDSPlanification du projet DWDS

66Dico DWDS basé sur dico WDG (1961-75)Wörterbuch der deutschen Gegenwartssprache

Page 7: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Patrons et ressourcesPatrons et ressources

77

BBAW AvH

Financé par “Akademienunion » sur 18 ans

Akademienunion

Page 8: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

DWDS noyau : tâches DWDS noyau : tâches principalesprincipales

88

Accès : voir infra

-TAGH : morpho composé-STTS : POS- GermaNet : sém.

Page 9: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

99

www.dwds.de : un site en accès libre

Page 10: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

1010

71% des textes en accès libre dans DWDS noyau

Par décennies et genres Les corpus

Page 11: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

1111

Statistiques en accès libres faites sur ensemble corpusOn voit plus de textes après identification

Page 12: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Merci à Nelleke Oostdijk (Radboud University Nijmegen)Merci à Nelleke Oostdijk (Radboud University Nijmegen)

1212

CORPUS DE RÉFÉRENCE EN CORPUS DE RÉFÉRENCE EN HOLLANDAIS, SONARHOLLANDAIS, SONAR

2

STEVIN Nederlandstalig Referentiecorpus

Page 13: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

ObjectifsObjectifs

Construire un corpus de référence de du Construire un corpus de référence de du hollandais et du flamand moderne (post hollandais et du flamand moderne (post 1954) de grande taille (500 M tokens) 1954) de grande taille (500 M tokens) qui puissent servir à la fois à des qui puissent servir à la fois à des analyses linguistiques et au analyses linguistiques et au développement de technologies du développement de technologies du langage. langage.

Inclure dès le début des écrits provenant Inclure dès le début des écrits provenant des médias traditionnels et de l’Internetdes médias traditionnels et de l’Internet

Auparavant corpus oral de Auparavant corpus oral de 9 M tokens 9 M tokens (transcript + audio), collecte entre 1998 et2003(transcript + audio), collecte entre 1998 et2003

1313

Page 14: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Une grande variété initialement Une grande variété initialement prévueprévue

1414

Page 15: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Du prévu à la réalitéDu prévu à la réalité

1515

prévu

Phase 1

réalisé

Holland. Flamand NC

Page 16: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Du prévu à la réalitéDu prévu à la réalité

Question de droits : grande variété, Question de droits : grande variété, chronophagechronophage

Grande variété de formats, délaisser Grande variété de formats, délaisser formats trop complexes (PDF)formats trop complexes (PDF)

Approche opportuniste avec Internet Approche opportuniste avec Internet – Collectes faciles (Tweets, forum, clav) ou Collectes faciles (Tweets, forum, clav) ou

difficile (SMS)difficile (SMS)– Droits difficiles (Sites, blogues) ou libres Droits difficiles (Sites, blogues) ou libres

(licences CC ou GPL)(licences CC ou GPL) Maintenir équilibre global, collecter plus Maintenir équilibre global, collecter plus

que ce qui sera intégré dans corpus que ce qui sera intégré dans corpus référenceréférence 1616

Page 17: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

D’abord un corpus piloteD’abord un corpus pilote

1717

Page 18: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

SoNaR : organisationSoNaR : organisation

1818

ChercheursIndustrie

Constitution corpus

Annotations

sémantiques

QualitéÉval

extérieure

Page 19: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Développement: collaboration Développement: collaboration nationalenationale

1919

Page 20: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Diagramme de fluxDiagramme de flux

2020

Page 21: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Ressources financièresRessources financières

2121

Page 22: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Ressources financièresRessources financières

2222

+ 1 ETP par université pour tâche A et temps partiels des autres pour débutBudget ne comprend pas les missions internes, ni conf.

Page 23: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Salut s que

<NOM_4> c dcd à

ht 1 dvd pr sa

cop

ki e pa la 2main?

Projet de corpus CMC en françaisProjet de corpus CMC en français

SMS / textosTweetsBloguesForumsClavardageEtc.

3

Page 24: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Rappel objectifs projet 2013-14Rappel objectifs projet 2013-14

Créer un noyau (pas encore le corpus Créer un noyau (pas encore le corpus de référence !) de corpus CMC en de référence !) de corpus CMC en françaisfrançais

Ensembles de conversations Ensembles de conversations intervenant sur la Toile et les réseauxintervenant sur la Toile et les réseaux

Couvrir variété de systèmes de Couvrir variété de systèmes de communication synchrone ou communication synchrone ou asynchrone, mono ou multimodaux asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, SMS / textos, courriels , clavardage, forums, etc.forums, etc. 2424

Page 25: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Rappel objectifs projet 2013-14Rappel objectifs projet 2013-14

Le faire suivant standard (TEI, CLARIN, Le faire suivant standard (TEI, CLARIN, OLAC?) OLAC?)

Diffuser en accès libre ce corpus en Diffuser en accès libre ce corpus en 2014 sur Ortolang2014 sur Ortolang

Travailler en partenarait avec Europe Travailler en partenarait avec Europe (projet consortium TEI, DARIAH)(projet consortium TEI, DARIAH)

Intégrer ce noyau au « Corpus de Intégrer ce noyau au « Corpus de référence du français »référence du français »

2525

Page 26: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Macrostructure discursiveMacrostructure discursive

2626

(Beißwenger et al., 2012)

Page 27: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Macro et Macro et microstructuremicrostructure

2727

Page 28: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Multimodalité

Audio Clavardage

(LETEC corpus Archi21 : archi21-slrefl-av-j2)

Page 29: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Rachel Panckhurst, CÉNC, 31/5/12 29

anonymisation

anonymisation

Salut s que 2nis c dcd à ht 1 dvd pr sa

cop ki e pa la 2main?

sms brutSalut s que

<NOM_4> c dcd à ht 1 dvd pr sa cop ki e pa la 2main?

sms anonymisé

Salut est-ce que <NOM_4> s'est

décidé à acheter 1 dvd pour sa copine

qui est pas là demain?

sms transcodé

transco

dage

transco

dage

Salut <MOD_s_que> est-ce que <NOM_4> <MOD_c> s'est <MOD_dcd> décidé à <MOD_ht>

acheter 1 <TYP_dvd> DVD <MOD_pr> pour sa <MOD_cop> copine <MOD_ki> qui <ABS_ne>

<MOD_e> est <MOD_pa> pas <TYP_la> là <MOD_2main> demain <TYP_espace_avant_?

_manquante> ?

sms annoté

annotationannotation

Page 30: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Variability (orthographique)

• can only in part be explained in terms of errors, as a great deal of variation is intentional

• is a research topic in itself

• complicates research as it hinders the processing of the data by means of standard tools (tokenizers, POS taggers and lemmatizers, parsers, NE recognizers, etc.)

Han & Baldwin (2012: 368):“We found Twitter data to have an unsurprisingly long tail of OOV words, suggesting that conventional supervised learning will not perform well due to data sparsity. Additionally, many ill-formed words are ambiguous, and require context to disambiguate.”

Workshop on Building Corpora of Computer-Mediated Communication — Dortmund 14-15 February 2013

8

Page 31: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Expérience TAL dans notre Expérience TAL dans notre groupegroupe

3131

Page 32: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

3232

Page 33: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

3333

Page 34: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Groupes de travail du projet Groupes de travail du projet 20132013

3434

TEIStructurati

on

Nelles acquisitio

ns

Ingénieur (Corpus-écrits + Ortolang)

Tweets, wikipedia

Relations Ortolangcorpus-écritsPrépa V1

Droits,Amont : accept V0Aval : accept V1métadonnées

métaLinda

Page 35: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Flux de traitementsFlux de traitements

3535

V0 Clermont

Dépôts individuels

GT Validation

ingénieur

GT traitements

Page 36: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

PROJET TEI-CMC PROJET TEI-CMC EUROPÉENEUROPÉEN

3636

Page 37: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

1) Modelling CMC in TEI: – brief overview of essential requirements concerning the

representation of CMC from the perspective of the four projects [8 min],

– selected aspects from the DeRiK-TEI schema reviewed from the perspective of the four projects (suggested focus: element posting, user modelling, interaction signs) [15 min],

– problem sketches: (a) hypertext structures/“linked data“ (cf. topical focus of the conference), (b) multimodal CMC [5 mins each].

2) Challenges and perspectives in mapping features of computer-mediated communication to elements in TEI-P5

3) Metadata for cmc documents: challenges & suggestions 3737

Page 38: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Participants aParticipants a u projetu projet

Achille Falaise, LIG, GrenobleAchille Falaise, LIG, Grenoble Benoît Sagot, Alpage, INRIA , Univ. P7Benoît Sagot, Alpage, INRIA , Univ. P7 Béatrice Turpin, CRTF, Univ. de CergyBéatrice Turpin, CRTF, Univ. de Cergy Céline Poudat, UMR LDI, Univ. Paris 13Céline Poudat, UMR LDI, Univ. Paris 13 Ciara Wigham, LRL, Univ. Blaise PascalCiara Wigham, LRL, Univ. Blaise Pascal Fiammetta Namer, ATILF, NancyFiammetta Namer, ATILF, Nancy Georges Antoniadis, LIDILEM, Univ Grenoble 3Georges Antoniadis, LIDILEM, Univ Grenoble 3 Georgeta Cislaru, CLESTHIA, Univ. Paris 3 Georgeta Cislaru, CLESTHIA, Univ. Paris 3 Gudrun Ledegen , PREFics, Univ. de Rennes 2Gudrun Ledegen , PREFics, Univ. de Rennes 2 Julien Longhi, CRTF, Univ. de CergyJulien Longhi, CRTF, Univ. de Cergy Mahé Ben Hamed, UMR BCL, Nice Mahé Ben Hamed, UMR BCL, Nice Natalia Grabar, UMR STL, CNRS Univ. Lille 3Natalia Grabar, UMR STL, CNRS Univ. Lille 3 Paloque-Berges, Camille, DICEN, CNAMPaloque-Berges, Camille, DICEN, CNAM Rachel Panckhurst, UMR Praxiling, CNRS Univ. Rachel Panckhurst, UMR Praxiling, CNRS Univ.

Montpellier 3Montpellier 3 Thierry Chanier, LRL, Univ. Blaise PascalThierry Chanier, LRL, Univ. Blaise Pascal Tita Kyriacopoulou, LIGM, Univ. Marne-la-Tita Kyriacopoulou, LIGM, Univ. Marne-la-

ValléeVallée Virginie Zampa, LIDILEM, Univ Grenoble 3Virginie Zampa, LIDILEM, Univ Grenoble 3

Linda Hriba , Linda Hriba , corpus-corpus-écritsécrits

Paul Lotin, ingénieur, Paul Lotin, ingénieur, LRLLRL

Ingénieur à recruter Ingénieur à recruter (6 (6 mois/ETP, sur fonds mois/ETP, sur fonds Ortolang et corpus-Ortolang et corpus-écrits)écrits)

3838

Groupe GT7, corpus-écrits

Page 39: Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Pour nous suivre Pour nous suivre

3939

Corpus-écritsGT7, nouv-com

https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/