12
Langues et cité Bulletin de l’observatoire des pratiques linguistiques Mai 2006 Numéro 6 Langues Corpus de la parole La France dispose d'une richesse linguistique fondée sur la diver- sité. À côté du français, langue nationale, les langues de France constituent un patrimoine culturel unique. Ce patrimoine est méconnu, et si des documents sonores existent pour la quasi- totalité de ces langues, ils ne sont accessibles ni à l'ensemble de la communauté scientifique, ni au grand public. Plus grave enco- re, de nombreux documents sonores uniques, conservés sur des supports physiques en fin de vie, sont voués à disparaitre à tout jamais dans un délai très bref. La numérisation offre non seule- ment la possibilité de sauver ces documents, mais aussi de les valoriser en les transformant en de véritables ressources linguis- tiques numériques. Ces corpus oraux, sous la forme de collec- tions ordonnées d'enregistrements de productions linguistiques orales et multi-modales, prennent alors une valeur scientifique autant que patrimoniale. Le développement des corpus oraux du français et des langues parlées en France est un enjeu de première importance pour la recherche et le développement de l'ingénierie linguistique, mais aussi pour l'enseignement de ces langues, pour la sauvegarde et la diffusion du patrimoine oral et la reconnaissance de la diversi- té linguistique. Ce numéro présente un état de la recherche sur les corpus oraux et témoigne des nombreuses initiatives en cours dans ce domai- ne. C'est aussi l'occasion de présenter les actions du program- me « corpus de la parole » mené par l'Observatoire des pratiques linguistiques de la DGLFLF et plus particulièrement la publication de l'ouvrage « Corpus oraux, guide des bonnes pratiques 2006 », ou encore les opérations de numérisation d'archives sonores dans le cadre du Plan de Numérisation du ministère de la cultu- re et certains projets de recherche en cours. Grands corpus p. 2 Statut patrimonial p. 4 Des Archives au numérique p. 5 Entrevue p. 6 Projet phonologique p. 8 Inventaire p. 8 Enquête p. 9 Projet CLAPI p. 9 Projet ILF p. 10 C-ORAL-ROM p. 10 Projet LACITO p. 11 et cité

Mai 2006 Numéro 6 Langues et cité · me « corpus de la parole » mené par l'Observatoire des pratiques linguistiques de la ... avec quantité de « gen-res » différents, conversations

  • Upload
    dangbao

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Langues et cité Bulletin de l’observatoire des pratiques linguistiques

Mai 2006Numéro 6

Langues

Corpus de la paroleLa France dispose d'une richesse linguistique fondée sur la diver-sité. À côté du français, langue nationale, les langues de Franceconstituent un patrimoine culturel unique. Ce patrimoine estméconnu, et si des documents sonores existent pour la quasi-

totalité de ces langues, ils ne sont accessibles ni à l'ensemble dela communauté scientifique, ni au grand public. Plus grave enco-re, de nombreux documents sonores uniques, conservés sur dessupports physiques en fin de vie, sont voués à disparaitre à toutjamais dans un délai très bref. La numérisation offre non seule-ment la possibilité de sauver ces documents, mais aussi de lesvaloriser en les transformant en de véritables ressources linguis-tiques numériques. Ces corpus oraux, sous la forme de collec-tions ordonnées d'enregistrements de productions linguistiquesorales et multi-modales, prennent alors une valeur scientifiqueautant que patrimoniale. Le développement des corpus oraux du français et des languesparlées en France est un enjeu de première importance pour larecherche et le développement de l'ingénierie linguistique, maisaussi pour l'enseignement de ces langues, pour la sauvegarde etla diffusion du patrimoine oral et la reconnaissance de la diversi-té linguistique.

Ce numéro présente un état de la recherche sur les corpus orauxet témoigne des nombreuses initiatives en cours dans ce domai-ne. C'est aussi l'occasion de présenter les actions du program-me « corpus de la parole » mené par l'Observatoire des pratiqueslinguistiques de la DGLFLF et plus particulièrement la publicationde l'ouvrage « Corpus oraux, guide des bonnes pratiques 2006 »,ou encore les opérations de numérisation d'archives sonoresdans le cadre du Plan de Numérisation du ministère de la cultu-re et certains projets de recherche en cours.

Grands corpus p. 2

Statut patrimonial p. 4

Des Archivesau numérique p. 5

Entrevue p. 6

Projet phonologique p. 8

Inventaire p. 8

Enquête p. 9

Projet CLAPI p. 9

Projet ILF p. 10

C-ORAL-ROM p. 10

Projet LACITO p. 11

et cité

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 1

2

Les grands corpus de langue parléeQuel est l'intérêt de ces recherches ?Où en est-on en France ?

Le premier intérêt de ces études est depermettre un grand progrès de laconnaissance. Tout ce que nous savonsde la relation entre langue parlée et lan-gue écrite s'en trouve changé. Elles nousrévèlent, en effet, que nous ne pouvonspas compter seulement sur notre intuitionpour avoir une bonne représentation de lalangue parlée : il faut pouvoir disposer detrès nombreux exemples, avec toutes lescaractéristiques possibles de prononcia-tion, d'intonation, de vocabulaire et degrammaire, produits dans des situationstrès diversifiées et par des locuteurs trèsdifférents. Les faits statistiques sont iciprimordiaux. Il importe de savoir si lesphénomènes considérés sont très fré-quents ou peu fréquents, et s'ils sont pro-duits par tout le monde ou seulement parcertaines personnes dans des circonstan-ces déterminées. Du coup, la plupart despréjugés habituels sont dissipés : la lan-gue parlée ne peut pas se ramener auxprises de parole familières, incomplèteset pleines de fautes que l'on cite souventpour l'opposer à de bons exemples delangue écrite. Elle comprend aussi desprises de parole publiques, soignées,voire solennelles, avec quantité de « gen-res » différents, conversations, descrip-tions, récits, explications techniques,

argumentations, jeux de rôles, enregistre-ments de radio et télévision, etc. Il estpossible d'aborder par là certains domai-nes de science cognitive, par exemple enobservant comment les locuteurs s'adap-tent aux différents genres, comment ilsgardent en mémoire ce qu'ils viennent deprononcer et prévoient ce qu'ils vont direensuite (des mécanismes spécifiquesapparaissent quand ils cherchent leursmots), comment ils manipulent les répéti-tions, comment ils utilisent leurs voix etleurs gestes ou comment ils mènent lesinteractions avec autrui dans les conver-sations.Les applications pratiques de ces recher-ches sont nombreuses. Il faut citer enpremier lieu tout ce qui tient auTraitement Automatique du Langage(TAL), par exemple la reconnaissance et lasynthèse de la parole, la consultation dedonnées en langue parlée ou les dialo-gues entre hommes et machines. S'ilexiste actuellement des possibilités dedemander oralement des renseignementsà des machines, s'il existe des machinescapables de lire des journaux et des livrespour les mal-voyants (une de ces machi-nes fonctionne à l'Université de Caen),c'est grâce à ces recherches.Les grandes collectes de langue parlée(les corpus oraux) fonctionnent commedes bases de données permettant defaire des comparaisons, ce qui se révèle

nécessaire dans de nombreux domaines.Les comparaisons entre les parlers de dif-férentes régions sont nécessaires pourcalculer les politiques linguistiques. Lesanglophones disposent, à cet effet, d'uneimmense documentation sur les différen-tes sortes d'anglais parlées dans lemonde. Une grande documentation exis-te aussi aujourd'hui sur les principales dif-férences géographiques qui affectent lalangue portugaise, selon qu'elle est par-lée au Portugal, dans les iles, dans diffé-rentes régions du Brésil, au Mozambique,en Angola, en Guinée-Bissau, à Timor oudans d'autres régions d'Asie. Les ensei-gnants peuvent ainsi choisir les particula-rités qu'ils veulent conserver et cellesqu'ils veulent écarter. Les grands corpusaident aussi à évaluer l'acquisition de lalangue maternelle, en montrant ce qui estspécifique aux enfants de tel ou tel âge etce qui se trouve aussi bien chez lesenfants que chez les adultes. La compa-raison est absolument indispensable pourtous les secteurs pathologiques, parexemple pour savoir si une prononciationdéfectueuse est significative ou non d'untype de « maladie du langage », ou dansquelle mesure certaines répétitions dulexique sont banales alors que d'autressignalent au contraire des troubles impor-tants.Les éditeurs du monde anglophone utili-sent largement les résultats de ces

Claire Blanche-BenvenisteUniversité de Provence École Pratique des Hautes Etudes, Paris

Depuis la fin des années 1960, de nombreux pays ont favorisé l'étude deleurs langues parlées, en multipliant les collections d'enregistrements, lestranscriptions et les études de prononciation, de lexique, de grammaire,

de discours, de sociolinguistique, de psycholinguistique, etc. L'impulsion a sou-vent été donnée par les académies chargées de veiller sur les langues nationales(par exemple, pour l'Europe, celles de Grande-Bretagne, d'Espagne, d'Italie, duPortugal, des Pays-Bas, d'Allemagne, des pays scandinaves). Des sommes impor-tantes ont été consacrées à ces recherches, qui demandent de gros budgets pourl'organisation des banques de données, le développement des moyens électro-niques adaptés et la formation des spécialistes.

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 2

Références :Revue Française de Linguistique Appliquée

- IV-1, juin 1999, Grands corpus. Diversité des objectifs, variétés des approches- 1-2, décembre 1999, Corpus, de leur constitution à leur exploitation- IV-2, décembre 1999, L'oral spontané

Claire BLANCHE-BENVENISTE, 2002, Approches de la langue parlée en français. Paris : Ophrys.Claire BLANCHE-BENVENISTE, Christine ROUGET et Frédéric SABIO, 2000, Choix de textes de français parlé : trente-six extraits. Paris : Champion (Collection « Les fran-çais parlés, textes et études »).

recherches pour diffuser des manuelsd'enseignement de l'anglais comme lan-gue étrangère (Collins, par exemple). Ilspublient du matériel pédagogique quitient compte de la fréquence des phéno-mènes grammaticaux et de leur réparti-tion, en fournissant tous les exemplesnécessaires. On dispose maintenant,pour plusieurs langues, de corpus dits ali-gnés, qui permettent d'écouter une por-tion d'enregistrement sonore tout enlisant sur un écran la transcription écritequi correspond, groupes de mots pargroupes de mots. Ces corpus alignésfournissent des outils d'enseignementremarquables, qu'on peut utiliser seul ouavec le secours d'un moniteur.Ces recherches demandent des investis-sements plus importants qu'on ne pour-rait le croire quand on ne connait pas ledomaine. La partie technique d'enregis-trements et d'équipements informatiquesest chère, mais la participation de linguis-tes spécialisés l'est également. Transcriredes enregistrements de langue parlée estune opération délicate, qui exige une for-mation préalable, du temps et de lapatience (il s'agit, par exemple, de circu-ler à travers des prononciations variées,de bien noter les répétitions et d'éviter detranscrire ce qu'on a cru entendre). Audébut des années 2000, un des respon-sables du corpus de langue néerlandaiseestimait qu'il fallait prévoir un euro parmot transcrit. Or les corpus de langueparlée actuels sont estimés utiles s'ilscomptent au moins dix millions de mots(entre 800 et 1 000 heures d'enregistre-ment). Le calcul est simple : c'est uninvestissement lourd.

Où en sont actuellement les recher-ches sur le français parlé ?

En France, les premières enquêtesavaient commencé assez tôt, dans lesannées 1950, avec des collectes d'enre-gistrement destinées à l'enseignement du

français comme langue étrangère(Français fondamental, Corpusd'Orléans), de taille assez réduite. A par-tir des années 1980, des linguistes sesont intéressés à la description systéma-tique de la langue parlée (équipe duGARS, à l'Université de Provence, projetde recherche sur la Phonétique duFrançais Contemporain, PFC, àl'Université de Toulouse, nombreusesrecherches éparpillées, en France et horsde France). Jusqu'à présent, cependant,aucun projet national de grande envergu-re n'a été mené à bien. Les plus grandscorpus comptent tout juste deux millionsde mots et ils ne correspondent pas auxstandards internationaux qui ont coursactuellement. Alors que la France a étépionnière dans la collecte de corpus delangue écrite (base FRANTEXT), elle esten retard pour la langue parlée.La connaissance des relations entre lan-gue parlée et langue écrite est encoresouvent marquée par d'anciens préjugés(le poids de l'orthographe grammaticaledu français y contribue pour beaucoup),ce qui a des conséquences importantessur l'enseignement de la langue. En voicideux exemples. Que faire pour savoircomment les Français conjuguent effecti-vement leurs verbes lorsqu'ils parlent,dans différentes situations, en tenantcompte de leurs formations différentes,compte non tenu des marques orthogra-phiques ? Une réponse facile, fondée surl'ignorance, serait de dire que la langueparlée n'a « pas de grammaire » et de s'entenir là. Il serait pourtant fort utile, quandon enseigne à de jeunes enfants qui ontappris leur langue en écoutant parler lesadultes, de savoir à quelle sorte de conju-gaison des verbes ils ont été exposés etde distinguer ce qu'ils savent et ce qu'ilsne savent pas. Une étude rapide montreque, dans la conversation usuelle, lesadultes ne conjuguent largement qu'unedizaine de verbes fréquents. Dans leurgrande majorité, les autres sont utilisés à

l'infinitif, au participe passé et à la troi-sième personne du présent. Deuxième exemple : il serait indispensa-ble de savoir quelles fautes sont spécifi-quement enfantines et quelles fautes sontproduites par tout le monde, adultes etenfants : prononcer quat' pour quatre,disloquer les sujets comme dans monpère, il est venu, sont des particularitésqui se manifestent chez quantité de locu-teurs, depuis fort longtemps et qui n'ontrien à voir avec l'âge. Une documentationsérieuse permettra de voir que ces fautes,si fréquentes dans le langage de conver-sation, sont très rares dans les situationsde parole surveillée, les prises de parolepubliques, ou les discours professionnelsstandardisés. La documentation fait également défautpour l'étude des pathologies. Dans leshôpitaux où l'on soigne les troubles delangage (les nombreux accidents de motoen créent beaucoup chez de jeunes adul-tes), le personnel soignant est souventamené à juger sans bases de comparai-son avec d'autres productions orales quipassent pour « normales ». Commentsavoir, dans ces conditions, quelles sor-tes de « phrases inachevées » sont àconsidérer comme banales et quelles au-tres sortes sont, au contraire, les indicesd'un trouble particulier ? Comment savoirsi un usage massif des verbes avoir etêtre, au détriment d'autres verbes, estl'indice d'une pathologie ? Il est difficilede répondre à des questions de ce typesans une bonne base de données decomparaison.Les linguistes plaident souvent, au nomdes connaissances fondamentales, pourque l'on développe de grands corpus defrançais parlé. Comme on l'a vu dansd'autres pays, ces corpus de langue par-lée permettent aussi des applications pra-tiques qui répondent à de nombreusesdemandes sociales.

3

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 3

4

Le s

tatu

t pat

rimon

ial d

es e

nreg

istre

men

ts d

e pa

role

s Les linguistes ont étéparmi les premiers cher-cheurs à mettre en

œuvre les possibilités tech-niques offertes au début du20e s. par l'invention de l'en-registrement sonore.Ils ont vu dans cette prodi-gieuse invention un moyenefficace de faciliter et de ren-dre leurs collectes plus fia-bles. Mais par les techniquesde l'enquête, par les caracté-ristiques de l'enregistrementnumériques et l'implicationdes métadonnées, la créationdes corpus oraux présente denombreuses similitudes avecla production d'enquêtes ora-les des ethnologues, desanthropologues, démogra-phes, sociologues, historiens. La question du devenir desenregistrements ainsi crééss'est posée très vite, trouvantune solution originale, maislimitée dans le temps avec lacréation en 1911, au sein del'Université, des Archives de laParole par Ferdinand Brunot.Les enregistrements produitspar ce service excèdent laproduction des enquêtes ora-les réalisées dans les mis-sions devenues aujourd'huihistoriques, en ouvrant lasérie des Voix célèbres. LesArchives de la Parole aujour-d'hui intégrées au sein dudépartement de l'Audiovisuelde la BNF légitiment une desorientations de cette institu-tion autour de la parole.

Au-delà de la préservationmatérielle des enregistre-ments contextualisés, se poseavec acuité la pérennité patri-moniale de ces corpus et deleur lecture par d'autres usa-gers de disciplines fort diffé-rentes. Dans ce domaine,notre pays a un grand retard.Les documents oraux ont ététrès longtemps ignorés par lesinstitutions de conservation etpar les textes juridiques sur ledroit d'auteur et les droits voi-sins qui ne leur reconnaissent

pas de statut original. Si laB.N.F a intégré en 1977 lescollections sonores de laPhonothèque nationale, celan'a en rien conféré un statutofficiel aux documents oraux,consultables en fonction desaccords contractuels signésavec les ayant-droits. Ils sontexclus, comme tels, du dépôtlégal, seule l'initiative volonta-riste, contractualisée ou non,peut les intégrer aux fondssonores et audiovisuels.

Leur présence attestée dansles institutions de conserva-tion montre souvent que lescorpus oraux sont considérés,sur un sujet donné, commedes documents d'accompa-gnement parmi d'autres : l'en-semble des documents col-lectés dans le cadre de lagrande enquête sur l'histoirede la sécurité sociale dirigéepar Dominique Schnapperdans les années 70, est consi-dérée comme des archivespubliques, non consultables,sauf demande particulière,pendant soixante ans, commedes documents d'illustrationde fonds écrits pour lesArchives nationales, commeobjets d'accompagnementdans les enquêtes oralesacquises ou commandées pardes musées d'ethnologie oude société.Pour l'INA, chargé de la col-lecte du dépôt légal de laradio et de la télévision, l'ora-lité est présente en perma-nence dans les émissions deradio ou de télévision dont laforme est protégée et laconsultation très règlemen-tée.

Produits avec rigueur et dansune perspective de préserva-tion par des équipes derecherche, les corpus orauxdoivent pouvoir bénéficierd'un statut patrimonial d'objetoral. Cela passe par la recon-naissance scientifique et cul-turelle de l'oral dans une

société qui l'a si longtempsméprisé.Mais pour tenir compte decette part essentielle de notreculture, trop souvent négligéepar les institutions nationales,reconnue désormais officielle-ment par l'UNESCO, ilconvient de créer des outilsspécifiques d'analyse et detrier, comme pour tout docu-ment, la masse des collectesà l'aune de critères d'évalua-tion exigeants et neutres. Lerespect de règles techniqueset déontologiques de produc-tion, reconnues et partagéespar tous, constitue des élé-ments indispensables, àdéfaut d'être suffisants, pourdéfinir en toute neutralité lapart orale de notre patrimoineculturel.

Si la constitution de réseauxuniversitaires et de rechercheoffrent des moyens souples etefficaces pour gérer l'accès àces corpus, les institutionsnationales comme la BNF etdans une moindre mesure, lesArchives nationales, l'INA, leréseau des musées d'ethno-graphie et de société doiventpouvoir assumer, de façonpartagée, le rôle indispensa-ble et lourd de la conservationpérenne des corpus oraux.L'interopérabilité entre lesbases de données et la cons-cience partagée que l'oral estpartie intégrante de notre cul-ture devrait faciliter l'intégra-tion des documents oraux auxcollections patrimoniales

Cette évolution devra, danstous les cas, intégrer une défi-nition claire du statut patrimo-nial de l'objet oral.

Mar

ie-F

ranc

e Ca

las

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 4

5DESARCHIVES DELA PAROLEAU NUMÉ-RIQUE : lesfonds sonoresdu départementde l'Audiovisuel de laBibliothèquenationale deFrancePascal CordereixBibliothèque nationale de France,Département de l'Audiovisuel, Service des documents [email protected]

Avec plus d'un million de pièces, lacollection d'enregistrements sono-res du département de

l'Audiovisuel de la Bibliothèque nationalede France est l'une des plus importantesau monde. L'oralité y tient une placeimportante puisque le fondement histo-rique du département remonte auxArchives de la Parole, créées parFerdinand Brunot en 1911. Depuis, paral-lèlement au dépôt légal des phonogram-mes institué en 1938, l'enregistrement, laconservation, la diffusion auprès dupublic de la langue et de l'oralité, n'ontcessé d'être au cœur de l'action dudépartement de l'Audiovisuel. On citerapour exemple les enquêtes des Archivesde la Parole et du Musée de la Parole et duGeste entre 1911 et 1953, ou les fondsreçus par la Phonothèque nationale,comme celui des atlas linguistiques régio-naux du CNRS, au début des années1980, etc.En complément, un certain nombre d'ap-pareils de phonétique expérimentale(issus du laboratoire de l'abbé Rousselotet de l'Institut de phonétique de Paris) etplusieurs centaines de gramophones etde phonographes, sont conservés par ledépartement de l'Audiovisuel.Aujourd'hui, ce dernier a entamé un vasteplan de sauvegarde de ses collections en

les numérisant. Il s'agit ici non pas d'unsimple transfert de support, de l'analo-gique au numérique, mais bien d'assurerla pérennisation à très long terme de cetarchivage numérique, grâce à un stocka-ge sur mémoire de masse informatique.Un autre volet de l'activité du départe-ment de l'Audiovisuel, la coopération auplan national et international, s'inscritd'ailleurs de plus en plus dans cette per-spective de l'archivage numérique, ledépartement de l'Audiovisuel recevantaux fins de conservation et de communi-cation des fonds numérisés par d'autresinstitutions (c'est le cas par exemple d'uncertain nombre de fonds sonores relevantdu plan de numérisation du ministère dela Culture et de la Communication).Outre la conservation de cette mémoirede plus d'un siècle d'oralité, cet archivagenumérique a également pour objectif d'enfaciliter la consultation au delà de la BNF,en permettant progressivement, parexemple, d'en restituer une partie aupublic le plus large possible grâce à la dif-fusion en ligne sur internet. C'est ainsiqu'au printemps 2007, l'intégralité desenregistrements effectués par FerdinandBrunot entre 1911 et 1914 devrait êtreconsultable sur le site Web de laBibliothèque nationale de France(http://www.bnf.fr ).

Programme « Corpus de la parole »

La DGLFLF s'efforce de mettre en œuvre une action en faveur de la conservation, la numérisation, la mise à disposition, ladiffusion et la valorisation des corpus oraux. Ce programme dirigé par le conseil scientifique de l'Observatoire des pratiqueslinguistiques a d’ores et déjà donné lieu à différentes actions en 2004-2006 :

- la création d'un groupe de travail comprenant des linguistes (CNRS et Université), des juristes, des informaticiens et des conser-vateurs (BNF, INA, Archives), pour réfléchir sur les questions théoriques et méthodologiques relatives à la numérisation et à l'ex-ploitation des corpus oraux, a abouti à la rédaction d'un « Guide des bonnes pratiques », à la fois juridique, éthique et techniquepublié aux éditions du CNRS ;- un inventaire des corpus oraux disponibles ;- un soutien à différents projets de recherche en partenariat avec les fédérations des laboratoires de recherche en linguistiquedu CNRS (Institut de linguistique française, ILF-FR 2393, et Typologie et Universaux Linguistiques, TUL-FR 2559) pour la sauve-garde, la constitution et l'exploitation de corpus oraux ;- la numérisation d'archives linguistiques sonores. Dans le cadre du plan de numérisation piloté par la MRT (Mission pour larecherche et la technologie) du ministère, la DGLFLF a présenté un programme consistant à numériser des fonds sonores dufrançais et des langues parlées en France (numérisation des fonds fragiles dont les supports analogiques sont dans un état dedétérioration, numérisation de fonds plus récents pour permettre leur intégration dans une base de données, indexation, catalo-gage et établissement de normes d'inter-opérabilité), à les valoriser par la création d'un site portail présentant les corpus de fran-çais et de langues de France, et à intégrer dans ce site une base de données regroupant une riche collection de corpus desdi-tes langues. Cette base de données permettra une mise à disposition de ressources représentant la diversité des pratiques lin-guistiques en France.

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 5

6 Isabelle de Lamberterie est directrice derecherche au CNRS, responsable de l'é-quipe « Normativité et société de l'infor-mation » du Centre d'études sur la coopé-ration juridique internationale (CECOJI -UMR 62-24), membre du Comité d'é-thique du CNRS et du Conseil supérieurde la recherche et de la technologie(CSRT), elle a lancé et accompagné lestravaux de rédaction de l'ouvrage Corpusoraux, Guide des bonnes pratiques, 2006.

Ent

revu

eave

c Isa

belle

de L

ambe

rterie

Langues et Cité : Quels sont les problè-mes juridiques que posent la constitutionet l'exploitation des corpus oraux ?

Isabelle de Lamberterie : Les questionsjuridiques se concentrent, principale-ment, autour de deux domaines : 1. lesaménagements nécessaires pour assurerla protection de la vie privée (particulière-ment quand le corpus traite de donnéessensibles et que les finalités de recherchejustifient sa conservation ainsi qu'unepossible ré-exploitation scientifique) ; 2.les questions de propriété intellectuellelors de chacune des étapes que sont laconstitution, l'exploitation, la diffusion etla conservation des corpus. Ces ques-tions portent, d'une part, sur les« objets » de droit : les contenus, commeles résultats du travail de constitution ducorpus peuvent-ils ou non faire l'objetd'une appropriation privative ou rentrent-ils dans le patrimoine commun ? D'autrepart, il s'agit de cerner quels sont les titu-laires de droits (locuteurs, chercheurs quiinterviennent aux différents stades d'éla-boration des corpus, institutions qui pren-nent l'initiative ou gèrent des étapesimportantes de la vie du corpus...) ainsique l'étendue et les limites des droitsrespectifs de chacun. Ces questions juridiques sont, parailleurs, étroitement imbriquées avec lesquestions de politique scientifique. Il s'a-git d'organiser et d'aménager - en tenantcompte des cadres juridiques existants -la mise en œuvre des choix stratégiquesrelatifs à la création, au partage ou à laconservation des objets scientifiques etpatrimoniaux que sont les corpus oraux(contenus et contenants). Tout le problè-me est de déterminer une politique quipermette de reconnaitre la responsabilité

scientifique de chacun, sa part de travailtout en favorisant la circulation et laconservation d'un patrimoine commun.

L&C : Le Guide des bonnes pratiques estle résultat d'un travail interdisciplinaireentre juristes, linguistes, conservateurs etinformaticiens. Quelle est la place desjuristes dans cette démarche ?

IdL : On ne peut pas plaquer du droitdirectement sur les pratiques scienti-fiques, il est très important qu'un travailconjoint permette aux intéressés de seréapproprier les textes juridiques. Le rap-port au droit dans la communauté scien-tifique, comme dans la société en géné-ral, des chercheurs, est souvent limité àl'approche répressive. Et la peur d'unesanction juridique n'est pas forcément,suffisamment, incitative à respecter lesrègles de droit. La sanction peut mêmeêtre perçue comme un risque dont onapprécie ou non la probabilité. Il est impé-ratif de créer non seulement une sensibi-lisation, mais une véritable culture juri-dique : prendre en considération lesenjeux juridiques, c'est apprendre à bienvivre ensemble et prévenir les conflits. Ledroit n'est pas seulement répressif, c'estaussi, et surtout, la possibilité de prendreen considération les intérêts de chacun(et pas seulement sur le plan de la gestiondes profits d'intérêts). C'est une appro-che préventive, qui permet une régulationpar le biais d'accords et de conventionsentre les différents acteurs. Pour cela, lejuriste doit être pédagogue sans imposerune réponse univoque sur le permis etl'interdit. En accompagnant cette démar-che de régulation juridique, le juristemontre sa capacité de participer à un tra-vail interdisciplinaire. La force de ce travail interdisciplinaire estque les différents acteurs ont acceptéque leurs pratiques soient mises sous lesfeux de la rampe et littéralement décorti-quées, puis ils se sont impliqués dans lalecture des cadres juridiques existantsavant de poser directement des questionsaux juristes et d'effectuer alors, avec eux,une lecture croisée des textes juridiques.Le Guide est le résultat de cette réappro-priation, des lectures croisées, de latransposition et de la reprise par les lin-guistes de textes juridiques. Ce qui le dis-tingue des autres travaux qui contiennentune série de règles à respecter, c'est lerésultat de cette invitation faite aux lin-

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 6

7

Corpus Oraux 2006, Guide des bonnes pratiques.CNRS Éditions et PUO. Mai 2006.

Depuis une vingtaine d'années, les études sur les corpus de langues parléesont complètement renouvelé les sciences du langage. Les toutes nouvellestechnologies en matière de stockage, de diffusion, mais aussi d'exploitation

des enregistrements sonores, couplées aux outils de traitement automatique dulangage (transcriptions synchronisées sur le signal, annotations, etc.) ouvrent desperspectives prometteuses. Toutefois, cette situation ne va pas sans poser de nom-breuses questions juridiques et éthiques, mais aussi techniques, méthodologiqueset théoriques. Ce sont les réponses à ces questions que souhaitent présenter leGuide des bonnes pratiques. Rédigé par un groupe de travail constitué de linguistes, juristes, informaticiens etconservateurs, cet ouvrage a pour vocation d'éclairer la démarche des chercheurs,de repérer les problèmes et les solutions juridiques et de favoriser l'émergence depratiques communes pour la constitution, l'exploitation, la conservation et la diffu-sion des corpus oraux. Diffusion en librairie, 14 €.

guistes à comprendre la manière dont ilsvont mettre en œuvre les textes, à seréapproprier la mise en œuvre de la légis-lation existante.

L&C : Quelles ont été les différentes éta-pes de cette démarche ?

IdL : Cette régulation passe par une péda-gogie du droit. La première étape néces-site une culture croisée : le juriste écou-tant les questions du linguiste sans a prio-ri et le linguiste acceptant de lire les tex-tes juridiques pour reformuler ses ques-tions. La deuxième étape consiste pour lelinguiste à accepter d'expliciter d'unefaçon critique ses pratiques et de les met-tre en perspective par rapport à la législa-tion existante. Ce travail doit être accom-pagné par le juriste.La troisième étape est l'aménagementpar le linguiste de ses propres pratiquesen fonction des deux étapes précédentes.Il tire alors des cadres juridiques les élé-ments nécessaires à l'évolution de ses

pratiques.Enfin, la quatrième étape permet de faireémerger les points qui font difficulté dansl'état actuel du droit. L'ensemble de cespratiques s'inscrivent dans le contexteplus large de la société de l'information,que ce soit pour le traitement, la conser-vation ou la diffusion des données.Comme les corpus sont des donnéesnumériques, on peut se demander si lecadre juridique est toujours adapté à l'en-vironnement numérique et aux finalités derecherche.

L&C : Comment se situe la régulation juri-dique par rapport à une régulationéthique ?

IdL : Même si ces deux formes sont étroi-tement imbriquées, il convient de les dis-tinguer. Le respect des règles de droit secaractérise par les possibilités de sanc-tions alors qu'il n'en est pas de même dela régulation éthique. Leurs rapports semanifestent dans la mesure où lorsqu'on

parle d'éthique, cela renvoie à unedemande de régulation fondée sur desvaleurs, ou quand le respect du droit exis-tant se fonde sur des valeurs éthiques.Toutefois, ces distinctions ne sont pasaussi claires : ainsi quand le terme est uti-lisé dans les documents de l’Union euro-péenne qui exigent la prise en compted'une dimension éthique dans les pro-grammes de la recherche, il est, souvent,question de respect des normes juri-diques.Au delà de la démarche éthique, la maniè-re dont il est souhaité, dans ce Guide, quesoient prises en compte de bonnes pra-tiques par les chercheurs concernés,contribue à créer la confiance et à crédi-biliser la recherche. Cet effet induit parti-cipe aussi à une valorisation de la recher-che dans la société et, par delà, de l'objetscientifique lui-même.

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 7

8 Le projetPhonologiedu français contempo-rain (PFC)

Le projet Phonologie du françaiscontemporain (PFC) a débuté en1999 et constituera à terme la plus

grosse base de données orales portantsur le français contemporain et l’une desplus grosses bases toutes languesconfondues. Il a démarré sur l’initiativeconjointe de chercheurs du CNRS etd’universitaires français et étrangers ; ilest dirigé par Jacques Durand (ERSS,CNRS – Université de Toulouse Le Mirail),Bernard Laks (MoDyCo, CNRS –Université Paris X Nanterre) et ChantalLyche (Université d’Oslo).

Pour ces animateurs, le projet veut fournirune meilleure image du français parlédans son unité et sa diversité, dans laréalité de ses usages attestés et dans sadiversité géographique, sociale et stylis-tique. En favorisant les échanges pluridis-ciplinaires entre les connaissancesphonologiques et les outils du traitementautomatique de la parole, il permettra laconstitution de meilleurs matériaux péda-gogiques pour la description du français.Enfin, objectif non négligeable, il assurerala conservation d’une partie importantedu patrimoine linguistique du monde fran-cophone et, ce, en contrepoint aux cor-pus déjà constitués.Ce projet se concrétise par une base dedonnées rassemblant des matériauxrecueillis à partir d’un protocole d’enquê-te uniforme et en prenant appui sur desméthodes d’analyse et des outils dévelop-pés en commun. L’ambition est d’offrirune vision globale et unitaire du françaiscontemporain, en respectant la diversitédes usages de la langue. Sur les enregis-trements recueillis, est effectué un consi-dérable travail de transcription et d’ali-gnement du texte sur le signal. PFC propose alors une structure deconsultation des données recueillies ethomogénéisées, via les protocoles inter-

net. Une base de données fortementstructurée et relationnelle est ainsi acces-sible avec un simple navigateur.L’interface d’interrogation permet desrequêtes larges et fines sur ces données,avec un croisement inédit entre les don-nées documentaires textuelles et les don-nées sonores numérisées. Par contre,l’accès à ces données respecte les usa-ges recommandés par le Guide des bon-nes pratiques pour la constitution, l’exploi-tation, la diffusion et la conservation descorpus oraux, avec anonymisation de cer-taines données et différents niveaux d’au-torisations personnalisées.L’objectif majeur est de construire un cor-pus favorisant différents niveaux d’appro-ches, adapté donc à différents publics(étudiants, enseignants, chercheurs, ingé-nieurs). La variété des exploitations possi-bles est très grande par la mise à disposi-tion d’une ressource à la masse critiqueimportante et aux données standardiséeset donc interopérables. L’enseignantayant besoin d’un tutoriel comparatif defrançais oral pour des publics même jeu-nes comme l’ingénieur devant construireun système de reconnaissance vocalepourront se baser utilement sur cette res-source.http://www.projet-pfc.net

Inventaire des corpus oraux

En même temps que l'entreprise duGuide des bonnes pratiques sedéveloppait et prenait forme, il est

apparu nécessaire de compléter ce docu-ment par des informations sur les corpusoraux qui existaient aussi bien en Franceque dans d'autres pays européens. Cetinventaire permet d'avoir une meilleurevisibilité des corpus déjà existants ou encours de constitution et de mieux appré-cier leurs caractéristiques (le type d'enre-gistrements, le support de conservation,la taille, l'état de la transcription, etc.). Ilindique aussi si le corpus est consulta-ble : sous quelle forme (son, texte, dansquelle proportion (extrait, totalité) et àquelles conditions (accès sur place,

consultable en ligne) ainsi que la person-ne ou l'équipe qui doit être contactée.Ces informations apportent un éclairageutile sur l'état des lieux et se prêtent àune double lecture : il existe un nombrefinalement assez important de corpus ;toutefois, c'est plutôt une impressiond'éclatement qui domine (les choix effec-tués par les diverses équipes ne sont passemblables, les corpus recensés pourl'instant restent de taille modeste).Cet inventaire pourrait faciliter lescontacts et les échanges entre équipes,permettre d'identifier les manques lesplus flagrants dans le domaine des don-nées orales constituées et aider les futursprojets de constitution de grandes

banques de données à mieux cerner lesforces disponibles et les besoins.

Cet inventaire (partiel à cause des oubliset de l'évolution rapide dans un secteuren pleine activité) sera encore plus utile siles lecteurs aident à l'améliorer et à lecompléter. Toute information utile pourra être com-muniquée à :[email protected]

Paul Cappeau et Magali Seijido

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 8

9

LE PROJET CLAPI (Corpus de Langue Parlée en Interaction) du laboratoire ICAR

Le laboratoire ICAR (ex-GRIC) (UMR 5191 duCNRS) mène à Lyon des

recherches sur les interac-tions depuis une trentained’années et est reconnu inter-nationalement dans ce domai-ne. Depuis quelques années,une banque de données deCorpus de Langue Parlée enInteraction, CLAPI, est déve-loppée dans le but d’assurerla sauvegarde de corpusanciens, à valeur patrimonialeet historique, et de stimuler laproduction et l’exploitationinformatique de nouveauxcorpus.La base CLAPI compte enoctobre 2005 :- 600 h d’enregistrementsaudio et en partie vidéo, dont350 h numérisées ;

- 100 h de transcriptionsnon alignées ;- 25 h de transcriptions ali-gnées avec le signal sonore eten format XML (150 000mots) ;- des corpus d’interactionsdans des situations socialestrès variées (conversationquotidienne, activités de tra-vail, situations institutionnel-les).La base CLAPI ne se limitepas à gérer des corpus ; elleest avant tout fondée sur unsavoir-faire développé par uneéquipe, qui concerne :- le terrain : recueil de don-nées en situation « naturelle »reposant sur une approcheethnographique ;- l’enregistrement des don-nées ;

- la transcription (conven-tion ICOR) ;- l’identification des corpuset les métadonnées : unensemble fonctionnel de des-cripteurs adaptés aux corpusoraux (75 rubriques) a été misau point ;- les dimensions juridique,déontologique et éthique ;- l’hébergement sécurisé.En ce qui concerne l’accèsaux corpus, CLAPI a stimuléles expériences sur la négo-ciation de la diffusion desdonnées interactionnelles, etsur les moyens humains qu’el-le requiert, dans le respect dudroit et de l’éthique. ICAR apris l’option de rendre interro-geables en ligne librement,par les outils de la plate-forme, des extraits de corpus

choisis par leurs auteurs (enfévrier 2006, une vingtained’extraits de corpus, soit4 h 30, dont 3 h avec signal).Enfin, la conception et déve-loppement d’outils de traite-ment et d’analyse des corpus,permet d’interroger les trans-criptions au format xml, dereconnaitre automatiquementles variantes graphiques géné-rées par l’usage de « l’ortho-graphe adaptée », de fournirles résultats des requêtesdans un concordancier, avecalignement entre la trans-cription et les bandesaudio/vidéo.La plate-forme CLAPI estconsultable à l’adresse sui-vante : http://clapi.univ-lyon2.fr

L’enquête ESLO (EnquêteSocio-Linguistique àOrléans), conduite par

des universitaires britan-niques à des fins didactiquesen 1968, comprend environ200 intervious, toutes réfé-rencées, et plus de 300 heu-res de parole incluant desenregistrements cachés, desconversations téléphoniques,des réunions publiques, desentretiens médico-pédago-giques, etc. Ce corpus consti-tue, par son ampleur et sacohérence, le plus importanttémoignage sur le françaisparlé avant 1980. Le premier objectif est denumériser les documentssonores, puis d’en proposerune indexation et un premierbalisage afin de mettre lesdonnées en ligne sur internet. Parallèlement, l’exploitationexhaustive d’un sous-ensem-

Les enquêtes socio-linguistiques à Orléans, 1968-2008ble est engagée. Partant del’expérience acquise, leCORAL (Centre Orléanais deRecherche en Anthropologieet Linguistique) en partenariatavec d’autres laboratoires(CELITH-MODYCO) a mis enchantier une nouvelle enquêtedénommée ESLO2. L’objectifest d’évaluer, à une quaran-taine d’années de distance, ladynamique sociale du français(des usages de la languecomme des jugements surson emploi). Cette façon de procéder pré-sente l’avantage de préfigurerla référence attendue dans undomaine qui en est encore àse structurer et dans lequel semanifeste de manière récur-rente une demande de défini-tion pour un formatstandardisé de collecte, deconservation, de traitement etd’analyse :

- la collecte sur le terrainest première, non seulementdans ses aspects techniques,aujourd’hui bien maitrisés,mais dans la définition du pro-fil de l’échantillon représenta-tif et dans la problématisationdes interactions entre lestémoins et les enquêteurs ;- la conservation, qui inclutla préservation des supports,l’indexation des contenus etl’accessibilité (c’est-à-dire laprotection) des données,conditionne le partage dessources à des fins d’étudescientifique et d’expertisepolitique ;- le traitement, en lienétroit avec le développementdes matériels et des langagesinformatiques, suppose lamaitrise d’une chaine d’opéra-tions, depuis la conversionnumérique des enregistre-ments jusqu’à une transcrip-

tion balisée et ouverte à l’en-semble des interrogationspertinentes ;- l’analyse met les théories(et les logiciels) à l’épreuvedes faits. Avec la constitution et la com-paraison de telles enquêtes,les politiques et les acteurs dela transmission linguistiqueont à leur disposition un outild’aide à la décision irrempla-çable, qui permet d’appréhen-der, aussi objectivement quepossible, le devenir du fran-çais parlé dans toutes sesdimensions. La définition d’unstandard rigoureux et réalistedevrait orienter les descrip-tions du français parlé enFrance au service de larecherche, des applications etde l’expertise.

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 9

La mission spécifique de l’ILF est defavoriser, d’impulser et de dévelop-per la synergie entre laboratoires

travaillant sur la langue française, et demettre à la disposition des chercheurs unsocle commun de ressources, qu’il s’agis-se des grands corpus du français ou desoutils logiciels destinés à leur exploitationet à leur analyse. Actuellement, 21 projets fédératifs effec-tués en coordination entre plusieurs labo-ratoires sont en cours (et sept achevésdéjà), qui réunissent près de 150 person-

Les projetssoutenus parl’Institut de lalangue française (ILF)

10

Christiane Marchello-Niziadirectrice de l’ILF

nes. Des acquis considérables et desdéveloppements théoriques majeurs sontle résultat de cet effort fédératif. Depuis 2000, un effort particulier a étédirigé vers les corpus oraux, la Franceayant pris un retard notoire dans cedomaine. La dotation propre de l’ILF(CNRS) et les contrats spécifiquesconclus pour ce faire avec la DGLFLF ontpermis de débloquer cette situation defaçon remarquable. Tout en continuant desoutenir les corpus écrits, l’ILF a donccollaboré depuis quatre ans à promouvoirle développement de corpus oraux : cardésormais si une langue n’offre pas degrand corpus disponible en ligne, ellecourt le risque d’être minorée.Cinq projets soutenus par l’ILF et par unedotation spécifique de la DGLFLF sontd’ores et déjà capables de présenter desacquis considérables, sous forme de CD-ROM, de bases de données consultablesen ligne, etc. Ce sont :

1. Le Projet PFC : « Phonologie duFrançais Contemporain » (voir p. 8) ;

2. Le Projet FPI : « Corpus de françaisparlé en interaction (FPI) : Recueil,numérisation, identification, exploita-tion », développé au sein des UMR ‘ICAR’

(Lyon-2 et ENS-LSH) en relation avecd’autres laboratoires ; en relation avecces projets, une Grammaire du françaisparlé en interaction est en cours d’élabo-ration sous la direction de CatherineKerbrat-Orecchioni (UMR ‘ICAR’ Lyon).

3. Le Projet Gardette : « Numérisationdu fonds sonore franco-provençal del’Institut Pierre Gardette », développé éga-lement au sein de l’UMR ‘ICAR’ en liaisonavec plusieurs autres laboratoires ;

4. Le Projet THESOC : « Thesaurusoccitan », développé au sein de l’UMR deNice en liaison avec l’UMR ‘ERSS’(Toulouse) ;

5. Le Projet PRAX, qui consiste dans ledéveloppement d’outils logiciels dédiésau traitement des corpus oraux :« Plateforme de requêtes et d’annotationsde corpus en XML », développé à l’UMR‘LPL’ (Aix-Marseille).

D’autres projets sont également en coursou en gestation dans d’autres unités, quià leur tour seront soutenus, autant quefaire se peut.

C-ORAL-ROM, est une compilation,à des fins de comparaison, dequatre corpus de langue parlée

spontanée, pour quatre langues roma-nes : français, italien, portugais et espa-gnol. Chaque corpus compte environ300 000 mots transcrits. L’ensemblecomporte 772 textes et représente unpeu plus de 123 heures de parole.

Les enregistrements, pris dans des cir-constances naturelles, dans des contex-tes différenciés, font que la base C-ORAL-ROM donne une représentation satisfai-sante de ce qu’on peut entendre par« langage parlé spontané », à la fois sur leplan prosodique et syntaxique.Chaque enregistrement, stocké dans unfichier wav, constitue une unité de corpusmultimédia accompagnée par le logicield’analyse prosodique WinPitchCorpus (©Pitch France). WinPitchCorpus permet de

Présentation de C-ORAL-ROMfaire des alignements texte-son et son-texte, en même temps qu’une analyseacoustique avec tracé de fréquence fon-damentale en temps réel, analyse spec-trographique, synthèse après consulta-tion de tous les paramètres prosodiques,etc.Les corpus sont transcrits selon les nor-mes orthographiques standard (formatCHAT). Les principaux évènements dedialogue y sont représentés : tours deparole, occurrences d’évènements non-linguistiques et para-linguistiques, ruptu-res prosodiques. Une annotation spéci-fique divise la chaine textuelle en énon-cés, délimités par les ruptures proso-diques jugées pertinentes du point de vuede la perception. Des experts spécialisésont été chargés de ces annotations. Lestranscriptions sont alignées sur la sourceacoustique, énoncé par énoncé, et stoc-kées à des niveaux distincts. Les bases

de données correspondantes, soit engros 134 000 énoncés, peuvent ainsi êtregénérées automatiquement.C-ORAL-ROM est accessible sous deuxversions. L’une, destinée aux laboratoireset aux industries de la langue, consiste en9 DVD (fichiers non-compressés et non-cryptés), disponibles par un accord avecl’Agence européenne de distribution desressources de langues (EuropeanLanguage Resources DistributionAgency). L’autre, destinée aux biblio-thèques et aux usages personnels, estlivrée sous un format compressé et cryp-té, en même temps que le livre : E. Crestiet M. Moneglia (eds.), 2005, C-ORAL-ROM, Integrated Reference Corpora forSpoken Romance Languages.Amsterdam : Benjamins (Studies inCorpus Linguistics 15).

Emanuela Cresti et Massimo Moneglia

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 10

11

Le p

rojet

«A

rchi

vage

» du

LACI

TOM

iche

l Jac

obso

n

Le LACITO (Laboratoirede langues et civilisa-tions à tradition orale)

est un laboratoire du CNRSdont les chercheurs (linguis-tes, anthropologues et ethno-musicologues) travaillentdepuis plus d'une trentained'années à la description delangues pour la plupart sansécritures. De leurs enquêtesde terrain, ils ramènent desenregistrements audio, plusrarement vidéo, ainsi que destranscriptions, des traduc-tions, etc. faites sur placeavec l'aide de locuteurs. Cesenregistrements et analysesconstituent les matériaux debase qui vont servir aux cher-cheurs pour poursuivre leursrecherches une fois revenusde leur mission.

Le chercheur durant sonenquête sera amené à expli-quer les buts de sa mission ettentera d'instaurer une « rela-tion de confiance » entre lui etses informateurs. Cetteconfiance est d'autant plusimportante que les cher-cheurs sont parfois amenés àfaire d'autres missions sur lemême terrain. Elle peut êtredifficile à obtenir et facile àperdre, y compris par l'inter-vention ultérieure d'autresenquêteurs (missionnairesreligieux, etc.) que les enquê-tés risquent de classer dansune même catégorie.Les enregistrements jusqu'àrécemment, servaient princi-palement aux chercheurs quiles avaient récoltées. Descopies pouvaient en être fai-tes pour des collègues, mais iln'existait ni catalogue ni orga-nisation pour le stockage, laconservation et la copie.Quand un chercheur dispa-raissait, toutes ces donnéesaccumulées risquaient doncde disparaitre avec lui. Afinde lutter contre ce risque,un programme appelé« Programme archivage » s'estmis en place au LACITO vers

la fin de années 90. C'estdans ce cadre que de nomb-reux enregistrements analo-giques et notes de terrain ontété numérisés et catalogués.

Ce « Programme archivage »répond à deux buts principauxqui sont 1. la préservation etla pérennisation des donnéesd'enquête et 2. leur valorisa-tion / diffusion.

1. La préservation est assu-rée par la numérisation dessources. Celle-ci se fait enutilisant des formats et descodages ouverts et libres.Les enregistrements sontnumérisés sans compres-sion en qualité CD-Audio.Les notes de terrain sontstructurées avec un langagede balisage de texte. Lestranscriptions sont codéesla plupart du temps avecl'alphabet phonétique inter-national. L'ensemble de cesressources (fichiers audioset fichiers d'annotations)sont référencées au seind'un même catalogue. Leschamps utilisés pour lesdécrire sont ceux qui sontpréconisés par la commu-nauté scientifique. Les res-sources une fois préparéessont déposées dans unentrepôt de données oùelles seront régulièrementrecopiées sur des supportsde sauvegarde. Enfin, unaccord est en cours denégociation avec la BNFafin que cette institutionprenne en charge l'aspectconservation à plus longterme.

2. La valorisation de cesressources et leur diffusionsont assurées par l'intermé-diaire de sites web. Celui duLACITO donne accès, à cejour, à quelque 150 docu-ments dans une trentainede langues (principalementdes langues de Nouvelle-Calédonie, du Népal et du

Caucase). Une interface deconsultation du cataloguedes ressources a été défi-nie, qui permet d'effectuerdes recherches multi-critè-res, mais il est possibleaussi d'interroger ce mêmecatalogue avec des moteursde recherches spécialiséscomme celui de laLinguistList ou plus géné-riques comme Google. Uneinterface de consultation aaussi été définie afin deconsulter de manière syn-chronisée les documentsd'enregistrement et leursannotations. Les outils deconsultation, comme ceuxqui ont été développés pourla création et la diffusion deces ressources, sont deslogiciels libres.

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 11

À retourner à

Délégation générale à la langue

française et aux langues de France

Observatoire des pratiques

linguistiques

6, rue des Pyramides

75001 Paris

ou par courriel :

[email protected]

Si vous désirez recevoir Langues et cité , le bulletin de l’observatoire des pratiques linguistiques, merci de bien vouloir nous adresser les informations suivantes sur papier libre

Nom ou raison sociale : .......................................................................................................................

Activité : .....................................................................................................................................................

Adresse postale : ....................................................................................................................................

Adresse électronique : ..........................................................................................................................

Date : ..........................................................................................................................................................

Ce bulletin appliqueles rectifications

de l’orthographe, proposéespar le Conseil supérieur

de la languefrançaise (1990),et approuvées par l’Académie

française et les instancesfrancophonescompétentes.

Langues et cité

Directeur de publication : Xavier NorthPrésident du comité scientifiquede l’observatoire : Pierre EncrevéRédacteur en chef : Olivier BaudeSecrétaire de rédaction : Jean SibilleCoordination : Dominique Bard-CavelierComposition : Éva Stella-MoraguesConception graphique : Doc Levin/Juliette PoirotImpression : Graph 2000

Délégation générale à la langue française etaux langues de FranceObservatoire des pratiques linguistiquesMinistère de la Culture et de la Communication6, rue des Pyramides, 75001 Paristéléphone : 01 40 15 36 91télécopie : 01 40 15 36 76courriel : [email protected] : 1772-757X

ParutionsLiselotte BIEDERMANN-PASQUES etFabrice JEJCIC, Les rectifications orthogra-phiques de 1990 : analyses des pratiques réel-les (Belgique, France, Québec, Suisse, 2002-2004). Coll. Les Cahiers de l'Observatoire despratiques linguistiques, n° 1. PressesUniversitaires d'Orléans, 2006, 154 p., préfa-ce de Pierre Encrevé.

L'Observatoire des pratiques linguistiques dela DGFLFLF inaugure avec ce n° 1, la sériedes Cahiers de l'Observatoire qu'il consacreraà divers "états des lieux" des pratiques langa-gières en France. Parmi les analyses propo-sées, on peut en retenir trois, à titre d'illustra-tion : 1. Les rectifications proposées en 1990ont été largement adoptées par les dictionnai-res, au premier rang desquels celui del'Académie française. 2. La connaissance desrectifications varie fortement d'un pays à l'au-tre : ce sont les Français qui les connaissentle moins (nul n'est prophète en son pays !),

mais beaucoup les pratiquent spontanément,en toute ignorance ! 3. Dans les différentspays étudiés, ce sont les propositions tou-chant l'accent circonflexe qui ont le moins étéretenues, celles-là même qui avaient provoquéla plus grande émotion, car elles touchentdirectement à l'iconicité du signifiant gra-phique. Articles de L. Bidermann-Pasques et F.Jejcic, JP Simon, R. Muller, M. Lenoble-Pinson.

Les questions du bilingüisme à la Réunion. Lesdossiers de l'ARC, vol. 8, Association réunion-naise communication et culture, Paris ; CDaudio, 2 x 65 mn.

Ces deux CD audio rassemblent une série decommunications enregistrées en 2001 et2002 à Paris, Marseille et Caen, deH. Gerbeau, P. Fioux, MC Hazaël-Massieux,D., A. Gauvin, D. Caro-Delorme, O. Douville,G. Ramassamy.

Henri BOYER (dir.), De l'école occitane àl'enseignement public : vécu et représenta-tions sociolinguistiques. Une enquêteauprès d'un groupe d'ex-« calandrons ».L'Harmattan, Paris, 2006, 162 p.

L'enquête par entretiens dont rend comptecet ouvrage concerne un groupe de jeunesgens partageant un vécu scolaire et unapprentissage linguistique : ils ont été sco-larisés dans l'une des premièresCalandretas (écoles bilingues associativeset laïques), créée en 1979.

Anne ABEILLÉ et Danièle GODARD(dirs), La syntaxe de la coordination.Langages, n° 160, déc. 2005.

12

langues et citØ 6 dØfinitif.qxp 30/05/2006 15:33 Page 12