65
Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des langues Centre de recherches historiques (CRH UMR 8558), EHESS Plateforme Géomatique de l’Ehess : https://psigehess.hypotheses.org/ Matinée ADBS « Tu fais quoi de tes données ? » Campus Condorcet, 23 mars 2018 1

Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Traitement et analyse des corpus hétérogènes pour les SHS

Carmen BrandoPhD en informatique

Géomatique & Traitement automatique des languesCentre de recherches historiques (CRH UMR 8558), EHESS

Plateforme Géomatique de l’Ehess : https://psigehess.hypotheses.org/

Matinée ADBS « Tu fais quoi de tes données ? »Campus Condorcet, 23 mars 2018

1

Page 2: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Une plateforme en géomatique et humanités numériques : formations

❖ Séminaires hebdomadaires Master TES et Master PSL Humanités Numériques : Traitement et analyse de l’information spatialisée, séminaire méthodologique hebdomadaire au 1e semestre

❖ Ateliers mensuels en SIG (sur QGIS : https://www.qgis.org) : formation initiale en SIG et espace participatif et collaboratif ouvert permettant à chacun d’avancer sur des problématiques spatiales propres à chacun

❖ Atelier cartes sensibles (2e semestre) : Besoins d’une approche sensible pour la cartographie de données en sciences sociales

❖ Atelier réguliers en traitement automatique des langues (TAL) et aussi dans le contexte du master PSL Humanités numériques

2

Page 3: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Motivation & contexte● Les données en SHS sont fortement hétérogènes : textes, documents web,

XML/TEI, données tabulaires, images

● Besoin grandissant des chaînes de traitements adaptés et réutilisables pour permettre l'analyse de ces données à partir des outils informatiques

● Il faut s’appuyer sur :

○ des outils open source et les meilleures pratiques d’interopérabilité du Web de Données (FAIR : Findable, Accessible, Interoperable, Re-usable)

○ les infrastructures européennes de recherche en SHS : CLARIN, DARIAH, PARTHENOS

● Quelques expériences de projets et outils issus des humanités numériques à l’EHESS

3

Page 4: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

HN: Humanités numériquesTAL: Traitement automatique des languesSIG : Sciences de l’information géographique

TAL SIG

HN

Page 5: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

5

corpus hétérogènes numérisation

corpus numérisés

corpus annotées + métadonnées

données liées

Un chaîne de traitement pour l’analyse des données dans un projet en HN

liage

description et annotation

Données cartographiées pour l’analyse

visualisationDonnées accessibles

dépôt / diffusion

Page 6: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Dépôt de corpus textuels (sur Ortolang/VLO de Clarin)

6

Page 7: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Numérisation de documents textuels

7

Page 8: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

http://transkribus.eu/Transkribus/

D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS

Page 9: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Permettre à la machine de transcrire et rechercher dans des documents historiques – de n’importe quelle date, dans n’importe quelle langue et quelle que soit la mise en page !

Pourquoi utiliser Transkribus ?

D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS

Page 10: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Transkribus à l’Ehess

❖ Expériences en cours sur deux projets :

➢ édition numérique du journal intime d'Eugène Wilhelm (1885-1951) coordonné par Régis Schlagdenhauffen

➢ projet PSL Les Réveillées : édition en ligne d'enquêtes en ethnomusicologie coordonné par François Gasnault, Marie-Barbara Le Gonidec, Florence Neveux

10

Page 11: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

HTR : transcrire des textes manuscrits

• Apprentissage automatique grâce aux réseaux neuronaux

• Algorithmes développés par l’Université polytechnique de Valencia et l’Université de Rostock

• l’analyse du document est faite ligne par ligne et non par caractère

D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS

Page 12: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Fonctionnement des réseaux neuronaux :

> Première étape : Reconnaissance

• L’algorithme n’essaie pas de reconnaître les caractères dans les images, comme l’OCR

• Il traite les images à plusieurs reprises et lit dans tous les sens afin de collecter toute information de contexte contenue dans l’image

• Il est influencé par la mise en page, le style d’écriture et la langue du document

• Les données extraites sont intégrées dans une séquence mathématique

HTR : transcrire des textes manuscrits

D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS

Page 13: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

> Deuxième étape : Décodage

• Décoder les séquences mathématiques en texte

• Mesurer la probabilité d’apparition de chaque caractère

• Les dictionnaires spécifiques à une langue peuvent aider

HTR : transcrire des textes manuscrits

D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS

Page 14: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Numérisation de corpus oraux

14

Page 15: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Transcription à partir des enregistrements audio

15

Ch_MB1 : [euh] de parents comment s'appelaient vos parents ?

JE09 : [lg=espagnol-]JE09PER y JE09MER[-lg=espagnol] [trad-]JE09PER et JE09MER[-trad]

Ch_MB1 : Et que faisaient-ils en Espagne ?

JE09 : Mon père il était responsable [lg=espagnol-][repetition-]de[-repetition] de fabricación[-lg=espagnol] [trad-]de fabrication[-trad] [euh] à l'usine des ciments [pron=pi] [euh] [repetition-]une[-repetition] une société Anglaise. Et il était chef de [lg=espagnol-]fabricación[-lg=espagnol] [trad-]fabrication[-trad].

(selon la qualité de l’enregistrement, automatisable avec le logiciel Transcriber) Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

Page 16: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

16

Signal et texte alignés

Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

Page 17: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Interopérabilité : XML/TEI CORPO

17Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

Page 18: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Numérisation et géoréférencement de cartes anciennes

18

Page 19: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

19Projet PSL BERTIN (EHESS)

Fond numérisé d’environ 200 cartes sur l’Afrique mis en ligne sur Omeka-S

Page 20: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

20Projet PSL BERTIN (EHESS)

Géoréférencement des fonds - Difficulté : diversité de systèmes de projections à prendre en compte

Page 21: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

21

corpus hétérogènes numérisation

corpus numérisés

corpus annotées + métadonnées

données liées

Un chaîne de traitement pour l’analyse des données dans un projet en HN

liage

description et annotation

Données cartographiées pour l’analyse

visualisationDonnées accessibles

dépôt / diffusion

Page 22: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

22Projet PSL BERTIN (EHESS)

Fond numérisé d’environ 200 cartes sur l’Afrique mis en ligne sur Omeka-S

Vocabulaires pour la description des métadonnées : Dublin Core et INSPIRE

Page 23: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Annotation du contenu des textes

23

Page 24: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Entité nommée (EN): une expression linguistique, typiquement un nom propre, se réfèrent à un objet ou existant dans le monde.

● une personne ou groupe de personnes, ● un lieu, ● une institution, ...

Mention: une instance d’entité nommée dans le texte

Base de connaissance (BdC): une ressource informatique qui contient information structurée sur une ou plusieurs types d’ENs. Pour les lieux, cette ressource peut être appelée gazetier sémantisé

Lien : un identifiant unique, ajouté à une mention pour identifier l’EN référée dans une BdC

24

Page 25: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

25Unitex : http://unitexgramlab.org/fr

Page 26: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

26https://named-entity.data.istex.fr/

Page 27: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

27

Page 28: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

28

Page 29: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Entité nommée (EN): une expression linguistique, typiquement un nom propre, se réfèrent à un objet ou existant dans le monde.

● une personne ou groupe de personnes, ● un lieu, ● une institution, ...

Mention: une instance d’entité nommée dans le texte

Base de connaissance (BdC): une ressource informatique qui contient information structurée sur une ou plusieurs types d’ENs. Pour les lieux, cette ressource peut être appelée gazetier sémantisé

Lien : un identifiant unique, ajouté à une mention pour identifier l’EN référée dans une BdC

29

Page 30: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Entités spatiales nommées ● Lieux ayant changé d’utilisation, localisation, ... dans le temps

○ Notre Dame des Tables, Montpellier

○ Gare d’Orsay > Musée d’Orsay

○ Empire Romain

● Distinction entre

○ Concept de “lieu”, construction culturelle

○ et sa localisation(s), usages(s)extension(s), qui peuvent changerdans le temps

30

Page 31: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Comment le TAL traite les noms de lieux dans les textes ?

“Elle partit, le 28, de Ruffec”

● Reconnaissance

○ Elle partit, le 28, de <placeName>Ruffec</placeName>

31

Page 32: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Reconnaissance d’entités nommées

LATTICE ENS - http://apps.lattice.cnrs.fr/sem/

Page 33: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

LATTICE ENS - http://apps.lattice.cnrs.fr/sem/

Page 34: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

LATTICE ENS - http://apps.lattice.cnrs.fr/sem/

Page 35: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Le ventre de Paris d’Emile Zola

Annotation manuelle de textes pour créer des corpus d’apprentissage(domaine : roman du XIX où les actions se passent à Paris)

Brat : http://brat.nlplab.org/

Collaboration avec le Laboratoire LATTICE

Page 36: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

36

corpus hétérogènes numérisation

corpus numérisés

corpus annotées + métadonnées

données liées

Un chaîne de traitement pour l’analyse des données dans un projet en HN

liage

description et annotation

Données cartographiées pour l’analyse

visualisationDonnées accessibles

dépôt / diffusion

Page 37: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

37

Liage (linking) d’entités nommées grâce au Web de données (Linked Data)

Page 38: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

38State of the LOD cloud (excerpt, 2014): http://lod-cloud.net/

TEI document

Header

Body<placeName ref= “http://fr.dbpedia.org/resource/Gare_du_Musée_d’Orsay”...>

Page 39: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Comment le TAL traite les noms de lieux dans les textes ?

“Elle partit, le 28, de Ruffec”

● Recognition

○ Elle partit, le 28, de <placeName>Ruffec</placeName>

● Disambiguation

○ Elle partit, le 28, de <placeName ref=”#RuffecCharente”>Ruffec</placeName>

● Linking

○ Elle partit, le 28, de <placeName ref=”http://www.geonames.org/2982217”> Ruffec</placeName>

39

(and not Ruffec in Indre)

Page 40: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des
Page 41: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Noms alternatifsNoms dans autres langues

Hierarchie administrative

Population

Typologie de lieu

Identifiant unique

Geo-localisation

41Internationalized Resource Identifier (IRI) : http://sws.geonames.org/2982217/

Page 42: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

42

Données échangeable en RDF entre les machines sur le Web

Page 43: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

43fr.dbpedia.org - IRI : http://fr.dbpedia.org/page/Ruffec_(Charente)

Page 44: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

44

Wikidata.org - IRI https://www.wikidata.org/wiki/Q730659

Liage à d’autres sources de données sur le Web

Page 45: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

<placeName ref=“https://www.wikidata.org/wiki/Q730659”>Ruffec</placeName> est une ville en ...

Liage de noms de lieux

45

WIKIDATA

GEONAMES...

Page 46: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

REDEN

http://obvil-dev.paris-sorbonne.fr/reden/RedenOnline/site/input-tei.html

Résolution et désambiguïsation d'entités nommées.

Un outil capable de reconnaître automatiquement le référent d’une mention ambiguë à partir du contexte textuel et de le lier à une base de connaissance :

● entrée en TEI● adaptable à plusieurs domaines

46Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)

Page 47: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

47

Désambiguïsation du candidat grâce à l'utilisation de la centralité de graphes à partir des prédicats en commun

dbpedia-fr: 8e_ arrondissement_ de_Paris

dbpedia:Boulevard_Malesherbes dbpedia:Rue_des_Mathurinsfoaf:SpatialThing

prop-fr:arrondissement

dbpedia:Place_Saint-Augustin

prop-fr:arrondissement

rdf:type

rdf:type

rdf:type

prop-fr:quartier

dbpedia-fr: Quartier_de_la_Madeleineprop-fr:quartier

REDEN : résolution d’entités nommées

“ Voilà ! J’avais eu affaire, rue de la Pépinière, près de la place Saint-Augustin, et je revenais par le boulevard Malesherbes en l’intention de prendre l’omnibus à la Madeleine. Tout à coup, au coin de la rue des Mathurins, un homme se dressa devant moi en criant : “Madame ou mademoiselle, [...]. ” (Le passant de Prague, Guillaume Apollinaire)

Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)

Page 48: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Extension de REDENPrise en compte des relations spatiales

48Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)

Page 49: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

49

Relations spatiales explicites

Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)

Page 50: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

50

Deux extraits concernent la Champagne et le Sud Ouest :

“Sa puissance émotive, qui fut grande, demeura intacte jusqu'à la fin. Elle partit, le 28, de Ruffec, dans les circonstances qu'on connaît. Vers l'Ouest, elle gagna les forêts de Chizé et d'Aulnay, semble-t-il, à moins que celles-ci n'aient constitué un centre d'émotion locale. ”

« La grande peur de 1789 » de Georges Lefebvre

Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)

Page 51: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Mais dans la plupart des cas, le nom, le localisation et la fonction des lieux changent

dans le temps..Il est donc nécessaire d'établir un lien vers la

“bonne” ressource dans le Web décrivant le lieu

Page 52: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Des bases qui non seulement décrivent la géographie ancienne, mais qui tracent l’évolution dans le temps

52

Page 53: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

53

Unités administratives qui varient dans le temps

TGN Getty - www.getty.edu

Page 54: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

54

Atelier Campus Condorcet : gazetiers historiques sémantisés pour les humanités

Collaboration avec l’Ecole Nationale des chartes, l’ENSG et l’IGN - https://github.com/geoTirroirs/geoSnippets/

Page 55: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Mesurer la perception des lieux dans les textes

Page 56: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Identification automatique

● lieux noms propres (gazetiers)● lieux noms communs (apprentissage automatique –

Stanford NER)● sentiments (lexiques)

56Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

Page 57: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

57Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

Page 58: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

58

corpus hétérogènes numérisation

corpus numérisés

corpus annotées + métadonnées

données liées

Un chaîne de traitement pour l’analyse des données dans un projet en HN

liage

description et annotation

Données cartographiées pour l’analyse

visualisationDonnées accessibles

dépôt / diffusion

Page 59: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

REDEN ONLINE

Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)

Page 60: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

REDEN ONLINE

Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)

Page 61: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

61Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

avec le SIG QGIS

Page 62: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

62

Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

avec le SIG QGIS

Page 63: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

63

Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

avec le SIG QGIS

Page 64: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Outils prêts à l'emploi (ou presque)SEM (LATTICE CNRS/ENS/Paris 3) : http://apps.lattice.cnrs.fr/sem/

REDEN ONLINE (Obvil, Ehess, Univ Paul Valéry Montpellier) :

http://obvil-dev.paris-sorbonne.fr/reden/RedenOnline/site/input-tei.html

BRAT (University of Tokyo) : http://brat.nlplab.org

Transkribus (READ project) : http://transkribus.eu/Transkribus/

Gate (University of Sheffield) : https://gate.ac.uk/

CLAN (TalkBank) : http://alpha.talkbank.org/clan/

Page 65: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

MerciFrancesca Frontini, Nathalie Abadie, Catherine Dominguès, Thierry Poibeau,

Jean-Gabriel Ganascia, Pierre-Henri Paris, Marion Cargill, Vincent Jolivet, Stéphane Baciocchi, Eric Mermet, Benoit Pandolfi, Marion Brunet, Guillaume

Guebin ...

65