Upload
thierry-chanier
View
230
Download
0
Embed Size (px)
Citation preview
Analyse linguistique de grands corpus d’écrits scolairesproblèmes de transcription, d’annotation et de traitement
Journée d’études organisée par le groupe Ecriture Scolaire du laboratoire Clesthia (EA 7345)Mercredi 18 mars 2015
Consortium Corpus-écrits
SIG TEI-CMC
Open Resources and TOols for LANGuage
http://comere.orghttp://hdl.handle.net/11403/comere
Thierry Chanier
Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from the Internet. These
heterogeneous corpora will be structured and processed in a uniform way,
complemented with metadata. CoMeRe will be released as OpenData
through the national infrastructure Ortolang, following constraints which will
be reused for the forthcoming “Corpus de Référence du Français”.
Project supported by the national
consortium Corpus-écrits, sub-part of
Huma-Num, and Ortolang (French
correspondant to DARIAH)
Variety + Standards + Open Access
Consortium Corpus-écrits
3
4
Ref Tokens Partici. Posts, <u>, <prod> Envir.
(Antoniadis,2014) 449 313 359 22 052 SMS
(Falaise, 2014) 35 M 25 000 3 M textchat
(Ledegen, 2014) 357 000 850 22 000 SMS
(Reffay et al., 2014) 600 000 67 + 4 groups- textchat: 6 790- emails: 2 030 - forums: 2 686
LMS
(Yun, Chanier, 2014) 77 605 31 + 2 courses 7 750 textchat
(Abendroth et al., 2014)
273 546 26 + 4 groups 1 200 Blog
(Longhi et al., 2014) 567 851 205 34273 Tweet
(Poudat et al., 2015)489 000 discussions + 330 Mo art.
3 971 4456 (discussions)Wiki discussions
(Chanier & Audras, 2015)
184 594 62 + 12 groups
-2809 audio acts, -248 chat acts, - 1058 nonverbal acts, -779 blog messages
Audiographic conference
(Chanier & Wigham, 2015)
27 912 18 + 4 groups- 1690 audio acts,- 669 chat acts, - 2452 nonverbal acts
3D env.
(Chanier, 2015) 127 228 16 + 2 groups- 7718 audio acts,- 1566 chat acts,- 5790 nonverbal acts
Audiographic conference 5
informalbusiness
informal
informal
education
education
education
education
education
science
education
politic
6
ServeurLocal LRL
Dépositeur individuel
Ingénieur :Kun Jin
Groupe qualité
Discussion avecdépositeur
Groupe étiquetageTAL : TEI-v2
TEI-V1
7
La diffusion des corpus et surtout la possibilité de longues recherches futures dépend des choix de départ
9
1) garantir l'accès ouvert aux données / corpus
10
l'utilisateur est autorisé à télécharger une copie du corpus […]
• la réutilisation (reproduction, diffusion) de parties non substantielles du corpus XXX est
autorisée […]
• la réutilisation est soumise à la condition de citer in extenso, à titre de crédits : […]
• la réutilisation (reproduction, diffusion) de parties substantielles du corpus XXX n'est pas
permise sur le fondement de la présente licence d'utilisation.
Je consens aux présentes conditions d'utilisation (obligatoire pour avoir accès au corpus)
Ce corpus, diffusé par Huma-Num, est présenté comme étant en accès libre (OA)
Regarder sans pouvoir réutiliser?
11
12
Collecte des données
Contrats de consentement
éclairé
ou
Licence d'utilisationsur données récoltées
Anonymisation
- Préserver informations essentielles- Identifier utilisateur sur toute la banque de corpus
Poser licenced'utilisation
13
14
15
≠
Images, audio, vidéo, etc.
Exemple sur Ortolang
Exemple sur Mulce
16
Données
≠
Corpus version V1
Corpus version V2
17
18
<teiheader>
<text>
19
<teiheader>
20
OLAC keywords
DiscourseGenreType of interaction
21
The IRC textchat
Types of acts within this Specific IRC
Subtypes of « event »
22
23
ImportantInformation for researchpurposes canbe described
24
<text>
25
Individual, informalcontext
Individual, educational context
Group with 4 status/ roles
26
27
Titlelabel
comment
message
Contents/ body
28
Response to what?
Sent to whom?Read by whom?
May containHTML,Table,etc.
Attached doc
29
30