Corpref

Embed Size (px)

DESCRIPTION

Does the world really need a French version of the BNC? and what would that mean exactly?

Citation preview

  • 1. Mais enfin, pourquoi faire un corpusde rfrence en 2012? Lou Burnard [email protected] corpus de rfrencedu francais, Paris, 2012

2. On peut se servir dun corpus deplusieures manires De manire exploratoire ou investigativepar ex dans une domaine mdico- lgale De manire comparative Comparaisons des langues, registres, etc. De manire evaluativeOu tout btement pour retrouver des mots...2 3. Corpus ??? 3 4. Comment retrouver le sens dunmot que lon ignore? Appliquer un algorithme Demander aux autorits Regarder son usage 4 5. 1. Application dun algorithme Corpus corpu +s Corpus corp + us corpuses ... 5 6. 2. Demande aux autorits dy of literature on any subject. ... 4.The body of written or spokeordered according to explicit linguistic criteria in order to be used 6 7. 2. Demande aux autorites 7 8. 3. Un survol des usages ...subject. 1727-51 Chambers Cycl. s.v., Corpus isalso used in matters of learning, for sd, and bound together.. We have also a corpus ofthe Greek poets.. The corpus of the cialso a corpus of the Greek poets.. The corpus ofthe civil law is composed of the diges16 Bound up inseparably with the whole corpus ofChristian tradition. 4. The body of wre informant.. and in particular upon a corpus ofmaterial, of which a large proporti8 9. et un autre ...FL t C l9 10. et encore un 10 11. Varits denjeux Une dictionnaire reprsente ce quiest remarquable Un corpus reprsente ce qui esttypique On ne peut rien dire sur le remarquable, sans connaissance du typique11 12. languageabstractionLanguage In Useselection texte 13. texteencodagemodleabstraite corpusnumriqueanalyses 14. Etapes de construction de corpusConceptionoSlction des textesIdentification des traits signifiantsExcutionSaisie des donnes (reprsentationtextuel)Encodage (reprsentation conceptuel)14 15. La question de tailleTheres no data like more data (Marcus, 1994) De point de vue lexicale un corpus ne peux jamais tre trop petit De point de vue littraire la taille15 16. Principes de moissonage La langue est infini : le corpus en principe est dune taille fixe mais un corpus peut prtendre reprsenter / tre reprsentatif production vs. reception stratified sampling Nota : un corpus peut servir de rfrence sans forcment tre 16 17. Principes de slection programme de recherche traits structuraux traits interprtatifs traits contextuels17 18. Quest-ce quun texte? une image des mots des informations structures ou tous les trois ? 18 19. Caractristiques des textes Un texte ou document est la fois un objet linguistique, donc abstrait, et un objet physique On peut le structurer de plusieures manires (linaires, hirarchiques, intertextuelles) Un texte est un objet culturel issu19 20. Tout texte ressort dun contexteparticulier ... Quels agents de responsabilit intellectuel ? Quel publique est vis ou obtenu ? Quel est lobjet de cette communication ?20 21. Identification et slection des traitstextuels Une procdure iterative et scientifique aka (galement connu sous) document analysis Il ny a pas de vrit unique quand mme on peut identifier des avis consensuels cf TEI21 22. Varits dannotationAnnotation de structureTextes, paragraphes, noncs, phrases,motsAnnotation linguistiqueMorphosyntaxe, fonction syntactiqueMetadonnesText-type, contexte ...22 23. En sommaire Un corpus linguistique est un recueil de textes non alatoire Issu dun procdure dchantillonage effectu selon des principes explicites Il incarne ainsi un modle thorique sur ce quest que le langage ce modle est explicit par lencodage ou balisage du corpus Nota : il y a dautres avis ... 23 24. Cas dtude : le British NationalCorpus Un snapshot (photo instantane) de langlais britannique la fin du 20me siecle 100 million mots en c. 4000 chantillons, y compris loral (10% par volume) Dessin non-opportunistic (non alatoire)24 25. Do est venu le BNC ?Un consortium de scientifiques etditeurs lexicographiquesOUP, Longman, ChambersOUCS, UCREL, BL R&DAvec un financement important dugouvernement britannique 1990-1994Destin aux communauts scientifiquesChercheurs en lexicographie, TAL, etc.25 26. Courants intellectuels des annes1990Un monde sans web!Deux traditions de linguistique de corpus ICAME, Lancaster Oslo Bergen COBUILDThorie naissante de text encodingNaissance des industries de langue auniveau europenAI -> NLPCooprations acadmiques et industrielles 26 27. Buts dclars du projetUn corpus synchronique (1990-4)dchantillons la fois oraux et crits detoute la varit de production delanglais britanniqueDune conception opportuniste etdapplication gnraleAvec annotation POSEt plein des mtadonnes 27 28. Buts vritables (?) du projet Amlioration des dictionnaires ELT Questions dautoritoks back to Brown and LOB in its design and markup, and forward to the WRespect pour lorale Un modle nouveau pour la recherche au niveau europen Conception et encodqge des corpus Co-operation industriel-scientifique Un REALLY BIG corpusproduction de textes numeriques lchelle industrielle28 29. La machine saucisses BNCSpoken Slection, droits, saisieWritten OUP(OUP/Chambers)(Longman)Enrichissement et encodage Initial CDIF Conversion and ValidationWord Class Annotation(OUCS) (UCREL)Header generationand final validation(OUCS) Documentation, distribution, maintenance29 30. Conception Non-opportunistiqueBut: le fair play envers toute la variete des voixconstitutives de langlais du RU c. 199590% crit, 10% oral (pour des raisonsconomiques)Critres de slection prdfinis Pour lcrit : domaine (topos); mdium; time Pour loral : demographic balance; contextCritres suppl,entaires de description pour maximer la variation 30 31. Groupes de travailPermissions (questions juridiques)selection, design criteriaencoding and markupenrichment and annotationretrieval software31 32. Through-put (million mots/trimestre) 35 30 25 20Received Validated 15Annotated 10 5 06 7 8 9 10 11 12 13 1432 33. Tensionsdesir de tester annotation schemerequirement to meet deliverablesslipping goal postsquantity above quality an interesting learning experiencefor both sides! 33 34. That famous BNC balance BNC-W 78731276 5997489 8021274 8743604 Spoken DemographicSpoken Context Governed Books and Periodicals Other written 34 35. Written Domains 16612770BNC-2116300833798318 3093407 724202413496137 7327671749307716781393 Imaginative ScientificSocial Science Applied Science World Affairs Commerce ArtsBeliefLeisure35 36. Spoken domains 1639159 12859384214819 1652246 1565705Educational Business InstitutionalLeisure Demographic36 37. Structure du BNC bnc teiHeaderbncdoc bncdoc4054bncDocteiHeader text stext91037 38. BNC structure textstextdiv 1 divdiv div1pp uu784,981pp uu ss ss ss s 6,052,202 wwwwww 97,619,934 w 38 39. Annotation POSApproche classique CLAWS (Leech,Garside et al)Quest-ce quun mot?snt prima facie obvious, in spite of spelling convQuest-ce quun POS?NN1 NN2 NP1 NP2 TO0. . .39 40. Representation de lannotationOS real_AJ0 annus_NN1 horribilis_XX began_VVD on_PR TheQueensrealn=00011> annus horribilisThe Queens beganreal annus horribilis onbegan SundaySunday. .40 41. Pour BNC-XML, on a reclassifi lestextes Academic Literary Press Nonfiction Unpublished Conversation OtherSpolen ...sentences ...words 41 42. Textes orales : echantillonsdmographiquesEnregistrs par 124 personnes recrutesNombres equivalents de males et de femelles slectionnspour age et classe sociale habitant 38 lieux differents travers le RUCharge denregistrer toutes leures conversations pendanttrois journespermissions obtenues aprs chaque conversationage, sex, accent, occupation, relations notes si possibleGrand quantit dadolescents londoniens, later publishedas COLT42 43. Observer effect? 43 44. BNC XML structuration dedocument Entete : toutes les mtadonnes ou Texte or 44 45. [ACETfactsheets&newsletters].Samplecontainingabout6688wordsofmiscellanea(domain:socialscience)DatacaptureandtranscriptionOxfordUniversityPress6688tokens;6708wunits;423sunitsDistributedunderlicencebyOxfordUniversityComputingServicesonbehalfoftheBNCConsortium.Thismaterialisprotectedbyinternationalcopyrightlawsandmaynotbecopiedorredistributedinanyway.A00[ACETfactsheets&newsletters].AidsCareEducation&TrainingLondon199109199109WnonAc:medicineHealthSex45 46.

FACTSHEETWHATISAIDS?

AIDS(AcquiredImmuneDeficiencySyndrome)isaconditioncausedbyaviruscalledHIV(HumanImmunoDeficiencyVirus).

46 47. A quoi a sert tous ces chevrons? Ils vous permettent de faire des distinctions trs importantesaids=SUBST vs aids=VERB occurrences en lcrit vs occurrences en oral occurrences au sein des titres vs occurrences au sein des paragraphes Et didentifier des units textuels plusieurs niveaux FACTSHEETWHATISAIDS? AIDS(AcquiredImmuneDeficiencySyndrome)isaconditioncausedbyaviruscalledHIV(HumanImmunoDeficiencyVirus). 47 48. 48 49. 49 50. 50 51. 51 52. 52 53. BNC est devenu malgr soi un bestseller 1995 Version 1.0 : ~1500exemplaires sur 4 CDs,uniquementpour serveur Unix 2000 Version World : ~5000exemplaires sur 2 CDs, installablesur machine personnel 2010 Version BNC XML : ~7000copies (au moins) sur 2 DVD 53 54. Aprs-BNC Phnomnon curieux dans plusieurspays european : construction desnational corpus pareils Les diteurs de dictionnaires ontrapidement cre leurs proprescorpus in house (monitor corpus) Dans la societ, un volution rapidede manires nouvelles54 55. Langlais des annes 90 restera-t-iltoujours dintert?Evolution des mdiae-mailPages webblogsSMSTwitter, facebook, personal networksLettres personallesEvolution des toposglobalizationinternetElvisWord PerfectLe BNC devient un document historique; voire littraire55 56. Le corpus littraire : origines Project Gutenberg et beacoup dautres pareils ont demontre la possibilite et linteret de creer des corpus literaires pour le grand publique Un modele economique base sur les efforts benevoles, en contraste avec56 57. Le corpus littraire : maintenantCommercialisation devenue effective avec lexistence du standard eBook standard, et de tres lourdes investissements de la Possibilitsde Apple et dupart serieuses pour lapplication Amazon sourcing crowdGoogle Books met a57 58. Lapplication des corpus enapprentissage de langues...complte (et corrige) les intuitionsencourage lautonomie de lappreneurconteste le status du locuteur natiftransforme le role de lenseignant 58 59. Lusage du Web comme corpus En effet le web est un corpus a corpus is a collection of texts when considered as an object of linguistic or literary study (Kilgarrif & Grefenstette 2003) Ou bien on peut le considrercomme une source de plusieurscorpus http://wacky.sslmit.unibo.it/59 60. Cration des corpus partir du webSelectionner 500 termes qui sonttypique du langage cibl Gnrer 5,000-8,000 requtescontenant chacune 4 mots choisisdans ces 500 termes Envoyer ces requtes Google etretenir les 10 premiers URLSretourns60 61. http://sarcophagus.sslmit.unibo.it/ 61 62. Corpus distribus La promesse de l eScience, gridcomputing etc. Sparation et distribution des ressourceset des outils Procdure tres effective aux sciences dures mais ... ncessitant de grands efforts de cooperation et de standardisation62 63. Visions of the future63