Mais enfin, pourquoi faire un “corpus de référence” en 2012?

Embed Size (px)

DESCRIPTION

Invited presentation (in French) on the appropriateness or otherwise of producing a French reference corpus analogous to the British National Corpus

Citation preview

  • 1. Mais enfin, pourquoi faire un corpusde rfrence en 2012? Lou Burnard [email protected] corpus de rfrencedu francais, Paris, 2012

2. On peut se servir dun corpus deplusieures manires De manire exploratoire ou investigative par ex dans une domaine mdico-lgale De manire comparative Comparaisons des langues, registres, etc. De manire evaluative Pour crer et/ou tester des hypothses sur les normes linguistiques Ou tout btement pour retrouver des mots... 2 3. Corpus ??? 3 4. Comment retrouver le sens dunmot que lon ignore? 1.Appliquer un algorithme 2.Demander aux autorits 3.Regarder son usage 4 5. 1. Application dun algorithme Corpus corpu +s Corpus corp + us corpuses ... 5 6. 2. Demande aux autorits 3. A body or complete collection of writings or the like; the whole body of literature on any subject. ... 4.The body of written or spoken material upon which a linguistic analysis is based (OED, 1993) a collection of pieces of language, selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language (Sinclair, 1994)6 7. 2. Demande aux autorites 7 8. 3. Un survol des usages ...subject. 1727-51 Chambers Cycl. s.v., Corpus is also used in matters of learning, for sd, and bound together.. We have also a corpus of the Greek poets.. The corpus of the cialso a corpus of the Greek poets.. The corpus of the civil law is composed of the diges16 Bound up inseparably with the whole corpus of Christian tradition. 4. The body of wre informant.. and in particular upon a corpus of material, of which a large proportial objection one may make against the `corpus method is that two investigators operatilore the possibilities and problems of corpus-based research by reference to first-h incurred they ought to be paid out of corpus and not out of income. phr. corpus delic of corpus and not out of income. phr. corpus delicti (see quot. 1832); also, in lay u , esp. the body of a murdered person. corpus juris: a body of law; esp. the body of Rom; esp. the body of Roman or civil law (corpus juris civilis). 1891 Fortn. Rev. Sept.ev. Sept. 338 The translation.. of the Corpus Juris into French. 1922 Joyce Ulysseso.) We have here damning evidence, the corpus delicti, my lord, a specimen of my maturer, dam and hollow log in search of the corpus delicti, found some important evidenceimportant evidence in a fallen tree. corpus vile Pl. corpora vilia Orig. in phr. (seugh who would submit to serve as the corpus vile for their charitable treatment. 1953 E8 9. et un autre ...FLY 49GT9 0 F98 104 F98 135 H47 6 F98 56 J2H 0 F98 100 KCN 22 F98 54 F98 1129 10. et encore un 10 11. Varits denjeux Une dictionnaire reprsente ce qui est remarquable Un corpus reprsente ce qui est typique On ne peut rien dire sur le remarquable, sans connaissance du typique11 12. languageabstractionLanguage In Useselection texte 13. texteencodagemodleabstraite corpusnumriqueanalyses 14. Etapes de construction de corpus Conceptiono Slction des textes Identification des traits signifiants Excution Saisie des donnes (reprsentation textuel) Encodage (reprsentation conceptuel) Validation ou modification du dessin14 15. La question de taille Theres no data like more data(Marcus, 1994) De point de vue lexicale un corpus ne peux jamais tre trop petit De point de vue littraire la taille dun corpus est prdfini 15 16. Principes de moissonage La langue est infini : le corpus en principe est dune taille fixe mais un corpus peut prtendre reprsenter / tre reprsentatif production vs. reception stratified sampling Nota : un corpus peut servir de rfrence sans forcment tre reprsentatif16 17. Principes de slection programme de recherche traits structuraux traits interprtatifs traits contextuels17 18. Quest-ce quun texte? une image des mots des informations structuresou tous les trois ?ou tous les trois ?18 19. Caractristiques des textes Un texte ou document est la fois un objet linguistique, donc abstrait, et un objet physique On peut le structurer de plusieures manires (linaires, hirarchiques, intertextuelles) Un texte est un objet culturel issu dun contexte spcifique dont on ne peut pas le sparer 19 20. Tout texte ressort dun contexteparticulier ... Quels agents de responsabilit intellectuel ? Quel publique est vis ou obtenu ? Quel est lobjet de cette communication ? Quels autres textes partagent ces attributs ? 20 21. Identification et slection des traitstextuels Une procdure iterative et scientifique aka (galement connu sous) document analysis Il ny a pas de vrit unique quand mme on peut identifier des avis consensuels cf TEI 21 22. Varits dannotation Annotation de structure Textes, paragraphes, noncs,phrases, mots Annotation linguistique Morphosyntaxe, fonction syntactique Metadonnes Text-type, contexte ...22 23. En sommaire Un corpus linguistique est un recueil de textes non alatoire Issu dun procdure dchantillonage effectu selon des principes explicites Il incarne ainsi un modle thorique sur ce quest que le langage ce modle est explicit par lencodage ou balisage du corpus Nota : il y a dautres avis ... 23 24. Cas dtude : le British NationalCorpus Un snapshot (photo instantane) de langlais britannique la fin du 20me siecle 100 million mots en c. 4000 chantillons, y compris loral (10% par volume) Dessin non-opportunistic (non alatoire) Toujours disponible version dernire BNC-XML (13 mars 2007) http://www.natcorp.ox.ac.uk24 25. Do est venu le BNC ? Un consortium de scientifiques etditeurs lexicographiques OUP, Longman, Chambers OUCS, UCREL, BL R&D Avec un financement important dugouvernement britannique 1990-1994 Destin aux communautsscientifiques Chercheurs en lexicographie, TAL, etc.25 26. Courants intellectuels des annes1990 Un monde sans web! Deux traditions de linguistique de corpus ICAME, Lancaster Oslo Bergen COBUILD Thorie naissante de text encoding Naissance des industries de langue auniveau europen AI -> NLP Cooprations acadmiques et industrielles 26 27. Buts dclars du projet Un corpus synchronique (1990-4)dchantillons la fois oraux et critsde toute la varit de production delanglais britannique Dune conception opportuniste etdapplication gnrale Avec annotation POS Et plein des mtadonnes27 28. Buts vritables (?) du projet Amlioration des dictionnaires ELT Questions The BNC looks back to Brown and LOB indautorit Respect pour loralemarkup, and forward to the its design and Web in its scope and indeterminacy Un modle nouveau pour la recherche au niveau europen Conception et encodqge des corpus Co-operation industriel-scientifique Un REALLY BIG corpus production de textes numeriques lchelle industrielle28 29. La machine saucisses BNC WrittenSpoken Slection, droits, saisie OUP(OUP/Chambers (Longman))Enrichissement et encodage Initial CDIF Conversion and ValidationWord Class Annotation(OUCS) (UCREL)Header generationand final validation(OUCS) Documentation, distribution, maintenance 29 30. Conception Non-opportunistique But: le fair play envers toute la variete des voixconstitutives de langlais du RU c. 1995 90% crit, 10% oral (pour des raisonsconomiques) Critres de slection prdfinis Pour lcrit : domaine (topos); mdium; time Pour loral : demographic balance; context Critres suppl,entaires de description pourmaximer la variation 30 31. Groupes de travail Permissions (questions juridiques) selection, design criteria encoding and markup enrichment and annotation retrieval software31 32. Through-put (million mots/trimestre) 35 30 25 20Received Validated 15Annotated 10 5 06 7 8 9 10 11 12 13 1432 33. Tensions desir de tester annotation scheme requirement to meet deliverables slipping goal posts quantity above quality an interesting learningexperience for both sides! 33 34. That famous BNC balance BNC-W 78731276 5997489 8021274 8743604 Spoken DemographicSpoken Context Governed Books and Periodicals Other written 34 35. Written Domains16612770BNC-2 11630083 37983183093407 7242024 13496137 7327671 7493077 16781393Imaginative ScientificSocial ScienceApplied Science World Affairs CommerceArtsBeliefLeisure 35 36. Spoken domains 1639159 12859384214819 1652246 1565705Educational Business InstitutionalLeisure Demographic36 37. Structure du BNC bnc teiHeader bncdocbncdoc4054 bncDocteiHeadertext stext910 37 38. BNC structure textstext div 1 div div div1pp uu784,981pp uu sssssss 6,052,202 wwwwwww97,619,934 38 39. Annotation POS Approche classique CLAWS (Leech,Garside et al) Quest-ce quun mot?This isnt prima facie obvious, inspite of spelling conventions. Quest-ce quun POS? NN1 NN2 NP1 NP2 TO0. . . 39 40. Representation de lannotation Queen_NP0s_POS 00011 The_AT0 The horribilis_XX real_AJ0 annus_NN1 Queen began_VVD on_PRP Sunday_NP0- s NN1._PUN real annus horribilisThe Queens beganreal annus horribilis onbegan SundaySunday. .40 41. Pour BNC-XML, on a reclassifi lestextes Academic Literary Press Nonfiction Unpublished Conversation OtherSpolen...sentences...words 41 42. Textes orales : echantillonsdmographiques Enregistrs par 124 personnes recrutes Nombres equivalents de males et de femelles slectionns pour age et classe sociale habitant 38 lieux differents travers le RU Charge denregistrer toutes leures conversations pendant trois journes permissions obtenues aprs chaque conversation age, sex, accent, occupation, relations notes si possible Grand quantit dadolescents londoniens, later published as COLT 42 43. Observer effect? 43 44. BNC XML structuration dedocument Entete : toutes les mtadonnes ou Texte or 44 45. [ACETfactsheets&newsletters].Samplecontainingabout6688wordsofmiscellanea(domain:socialscience)DatacaptureandtranscriptionOxfordUniversityPress6688tokens;6708wunits;423sunitsDistributedunderlicencebyOxfordUniversityComputingServicesonbehalfoftheBNCConsortium.Thismaterialisprotectedbyinternationalcopyrightlawsandmaynotbecopiedorredistributedinanyway.A00[ACETfactsheets&newsletters].AidsCareEducation&TrainingLondon199109199109WnonAc:medicineHealthSex45 46.

FACTSHEETWHATISAIDS?

AIDS(AcquiredImmuneDeficiencySyndrome)isaconditioncausedbyaviruscalledHIV(HumanImmunoDeficiencyVirus).

46 47. A quoi a sert tous ces chevrons? Ils vous permettent de faire des distinctions trs importantes aids=SUBST vs aids=VERB occurrences en lcrit vs occurrences en oral occurrences au sein des titres vs occurrencesau sein des paragraphes Et didentifier des units textuels plusieurs niveaux FACTSHEETWHATISAIDS?AIDS(AcquiredImmuneDeficiencySyndrome) isaconditioncausedbyaviruscalledHIV (HumanImmunoDeficiencyVirus).47 48. 48 49. 49 50. 50 51. 51 52. 52 53. BNC est devenu malgr soi un bestseller 1995 Version 1.0 : ~1500 exemplaires sur 4 CDs,uniquement pour serveur Unix 2000 Version World : ~5000 exemplaires sur 2 CDs, installable sur machine personnel 2010 Version BNC XML : ~7000 copies (au moins) sur 2 DVD Services OnLine plusieurs, toujours trs utiliss53 54. Aprs-BNC Phnomnon curieux dans plusieurs pays european : construction des national corpus pareils Les diteurs de dictionnaires ont rapidement cre leurs propres corpus in house (monitor corpus) Dans la societ, un volution rapide de manires nouvelles dexpression linguistique Application et volution des mthodes corpus dans dautres disciplines Notamment, dans lapprentissage des langues mais aussi aux humanits classiques Les technologies dont les linguistes pensent se servir devient de plus en plus reconceptualiss dans une optique distribue.54 55. Langlais des annes 90 restera-t-iltoujours dintert? Evolution des mdia e-mail Pages web blogs SMS Twitter, facebook, personal networks Lettres personalles Evolution des topos globalization internet Elvis Word PerfectLe BNC devient un document historique; voire littraire55 56. Le corpus littraire : origines Project Gutenberg et beacoup dautres pareils ont demontre la possibilite et linteret de creer des corpus literaires pour le grand publique Un modele economique base sur les efforts benevoles, en contraste avec Les efforts de financement publiques tels Gallica Les efforts des chercheurs scientifques tels TLG Principes de conception : Inclusion des grands oeuvres Encodage minimale, principes editoriaux heterogenes 56 57. Le corpus littraire : maintenantCommercialisation devenue effective avec lexistence dustandard eBook standard, et de tres lourdesinvestissements de la part de Apple et AmazonGoogle Books met a disposition du grand publique desbibliotheques complete pas question (jusqua la) de numeriser les archives, les manuscrits, les objets non imprimesAbsence des outils de vulgarisation, ou de partage Besoin de grand effort de correction, ameliorationPossibilits serieuses pour lapplication ducrowd sourcing 57 58. Lapplication des corpus enapprentissage de langues... complte (et corrige) les intuitions encourage lautonomie de lappreneur conteste le status du locuteur natif transforme le role de lenseignant58 59. Lusage du Web comme corpus En effet le web est un corpus a corpus is a collection of texts when considered as an object of linguistic or literary study (Kilgarrif & Grefenstette 2003) Ou bien on peut le considrer comme une source de plusieurs corpus http://wacky.sslmit.unibo.it/ 59 60. Cration des corpus partir du web 1) Selectionner 500 termes qui sont typique dulangage cibl 2) Gnrer 5,000-8,000 requtes contenantchacune 4 mots choisis dans ces 500 termes 3) Envoyer ces requtes Google et retenir les 10premiers URLS retourns 4) Post-tratement non negligeable pour enleverles doublons le passepartout etc (Adapt de Sharoff, 2004) 60 61. http://sarcophagus.sslmit.unibo.it/ 61 62. Corpus distribus La promesse de l eScience, grid computing etc. Sparation et distribution des ressources et des outils Procdure tres effective aux sciences dures mais ... ncessitant de grands efforts de cooperation et de standardisation donc implique lexistence dune infrastructure centralis CLARIN and DARIAH62 63. Visions of the future63