Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour...

Preview:

Citation preview

Traitement et analyse des corpus hétérogènes pour les SHS

Carmen BrandoPhD en informatique

Géomatique & Traitement automatique des languesCentre de recherches historiques (CRH UMR 8558), EHESS

Plateforme Géomatique de l’Ehess : https://psigehess.hypotheses.org/

Matinée ADBS « Tu fais quoi de tes données ? »Campus Condorcet, 23 mars 2018

1

Une plateforme en géomatique et humanités numériques : formations

❖ Séminaires hebdomadaires Master TES et Master PSL Humanités Numériques : Traitement et analyse de l’information spatialisée, séminaire méthodologique hebdomadaire au 1e semestre

❖ Ateliers mensuels en SIG (sur QGIS : https://www.qgis.org) : formation initiale en SIG et espace participatif et collaboratif ouvert permettant à chacun d’avancer sur des problématiques spatiales propres à chacun

❖ Atelier cartes sensibles (2e semestre) : Besoins d’une approche sensible pour la cartographie de données en sciences sociales

❖ Atelier réguliers en traitement automatique des langues (TAL) et aussi dans le contexte du master PSL Humanités numériques

2

Motivation & contexte● Les données en SHS sont fortement hétérogènes : textes, documents web,

XML/TEI, données tabulaires, images

● Besoin grandissant des chaînes de traitements adaptés et réutilisables pour permettre l'analyse de ces données à partir des outils informatiques

● Il faut s’appuyer sur :

○ des outils open source et les meilleures pratiques d’interopérabilité du Web de Données (FAIR : Findable, Accessible, Interoperable, Re-usable)

○ les infrastructures européennes de recherche en SHS : CLARIN, DARIAH, PARTHENOS

● Quelques expériences de projets et outils issus des humanités numériques à l’EHESS

3

HN: Humanités numériquesTAL: Traitement automatique des languesSIG : Sciences de l’information géographique

TAL SIG

HN

5

corpus hétérogènes numérisation

corpus numérisés

corpus annotées + métadonnées

données liées

Un chaîne de traitement pour l’analyse des données dans un projet en HN

liage

description et annotation

Données cartographiées pour l’analyse

visualisationDonnées accessibles

dépôt / diffusion

Dépôt de corpus textuels (sur Ortolang/VLO de Clarin)

6

Numérisation de documents textuels

7

http://transkribus.eu/Transkribus/

D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS

Permettre à la machine de transcrire et rechercher dans des documents historiques – de n’importe quelle date, dans n’importe quelle langue et quelle que soit la mise en page !

Pourquoi utiliser Transkribus ?

D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS

Transkribus à l’Ehess

❖ Expériences en cours sur deux projets :

➢ édition numérique du journal intime d'Eugène Wilhelm (1885-1951) coordonné par Régis Schlagdenhauffen

➢ projet PSL Les Réveillées : édition en ligne d'enquêtes en ethnomusicologie coordonné par François Gasnault, Marie-Barbara Le Gonidec, Florence Neveux

10

HTR : transcrire des textes manuscrits

• Apprentissage automatique grâce aux réseaux neuronaux

• Algorithmes développés par l’Université polytechnique de Valencia et l’Université de Rostock

• l’analyse du document est faite ligne par ligne et non par caractère

D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS

Fonctionnement des réseaux neuronaux :

> Première étape : Reconnaissance

• L’algorithme n’essaie pas de reconnaître les caractères dans les images, comme l’OCR

• Il traite les images à plusieurs reprises et lit dans tous les sens afin de collecter toute information de contexte contenue dans l’image

• Il est influencé par la mise en page, le style d’écriture et la langue du document

• Les données extraites sont intégrées dans une séquence mathématique

HTR : transcrire des textes manuscrits

D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS

> Deuxième étape : Décodage

• Décoder les séquences mathématiques en texte

• Mesurer la probabilité d’apparition de chaque caractère

• Les dictionnaires spécifiques à une langue peuvent aider

HTR : transcrire des textes manuscrits

D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS

Numérisation de corpus oraux

14

Transcription à partir des enregistrements audio

15

Ch_MB1 : [euh] de parents comment s'appelaient vos parents ?

JE09 : [lg=espagnol-]JE09PER y JE09MER[-lg=espagnol] [trad-]JE09PER et JE09MER[-trad]

Ch_MB1 : Et que faisaient-ils en Espagne ?

JE09 : Mon père il était responsable [lg=espagnol-][repetition-]de[-repetition] de fabricación[-lg=espagnol] [trad-]de fabrication[-trad] [euh] à l'usine des ciments [pron=pi] [euh] [repetition-]une[-repetition] une société Anglaise. Et il était chef de [lg=espagnol-]fabricación[-lg=espagnol] [trad-]fabrication[-trad].

(selon la qualité de l’enregistrement, automatisable avec le logiciel Transcriber) Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

16

Signal et texte alignés

Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

Interopérabilité : XML/TEI CORPO

17Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

Numérisation et géoréférencement de cartes anciennes

18

19Projet PSL BERTIN (EHESS)

Fond numérisé d’environ 200 cartes sur l’Afrique mis en ligne sur Omeka-S

20Projet PSL BERTIN (EHESS)

Géoréférencement des fonds - Difficulté : diversité de systèmes de projections à prendre en compte

21

corpus hétérogènes numérisation

corpus numérisés

corpus annotées + métadonnées

données liées

Un chaîne de traitement pour l’analyse des données dans un projet en HN

liage

description et annotation

Données cartographiées pour l’analyse

visualisationDonnées accessibles

dépôt / diffusion

22Projet PSL BERTIN (EHESS)

Fond numérisé d’environ 200 cartes sur l’Afrique mis en ligne sur Omeka-S

Vocabulaires pour la description des métadonnées : Dublin Core et INSPIRE

Annotation du contenu des textes

23

Entité nommée (EN): une expression linguistique, typiquement un nom propre, se réfèrent à un objet ou existant dans le monde.

● une personne ou groupe de personnes, ● un lieu, ● une institution, ...

Mention: une instance d’entité nommée dans le texte

Base de connaissance (BdC): une ressource informatique qui contient information structurée sur une ou plusieurs types d’ENs. Pour les lieux, cette ressource peut être appelée gazetier sémantisé

Lien : un identifiant unique, ajouté à une mention pour identifier l’EN référée dans une BdC

24

25Unitex : http://unitexgramlab.org/fr

26https://named-entity.data.istex.fr/

27

28

Entité nommée (EN): une expression linguistique, typiquement un nom propre, se réfèrent à un objet ou existant dans le monde.

● une personne ou groupe de personnes, ● un lieu, ● une institution, ...

Mention: une instance d’entité nommée dans le texte

Base de connaissance (BdC): une ressource informatique qui contient information structurée sur une ou plusieurs types d’ENs. Pour les lieux, cette ressource peut être appelée gazetier sémantisé

Lien : un identifiant unique, ajouté à une mention pour identifier l’EN référée dans une BdC

29

Entités spatiales nommées ● Lieux ayant changé d’utilisation, localisation, ... dans le temps

○ Notre Dame des Tables, Montpellier

○ Gare d’Orsay > Musée d’Orsay

○ Empire Romain

● Distinction entre

○ Concept de “lieu”, construction culturelle

○ et sa localisation(s), usages(s)extension(s), qui peuvent changerdans le temps

30

Comment le TAL traite les noms de lieux dans les textes ?

“Elle partit, le 28, de Ruffec”

● Reconnaissance

○ Elle partit, le 28, de <placeName>Ruffec</placeName>

31

Reconnaissance d’entités nommées

LATTICE ENS - http://apps.lattice.cnrs.fr/sem/

LATTICE ENS - http://apps.lattice.cnrs.fr/sem/

LATTICE ENS - http://apps.lattice.cnrs.fr/sem/

Le ventre de Paris d’Emile Zola

Annotation manuelle de textes pour créer des corpus d’apprentissage(domaine : roman du XIX où les actions se passent à Paris)

Brat : http://brat.nlplab.org/

Collaboration avec le Laboratoire LATTICE

36

corpus hétérogènes numérisation

corpus numérisés

corpus annotées + métadonnées

données liées

Un chaîne de traitement pour l’analyse des données dans un projet en HN

liage

description et annotation

Données cartographiées pour l’analyse

visualisationDonnées accessibles

dépôt / diffusion

37

Liage (linking) d’entités nommées grâce au Web de données (Linked Data)

38State of the LOD cloud (excerpt, 2014): http://lod-cloud.net/

TEI document

Header

Body<placeName ref= “http://fr.dbpedia.org/resource/Gare_du_Musée_d’Orsay”...>

Comment le TAL traite les noms de lieux dans les textes ?

“Elle partit, le 28, de Ruffec”

● Recognition

○ Elle partit, le 28, de <placeName>Ruffec</placeName>

● Disambiguation

○ Elle partit, le 28, de <placeName ref=”#RuffecCharente”>Ruffec</placeName>

● Linking

○ Elle partit, le 28, de <placeName ref=”http://www.geonames.org/2982217”> Ruffec</placeName>

39

(and not Ruffec in Indre)

Noms alternatifsNoms dans autres langues

Hierarchie administrative

Population

Typologie de lieu

Identifiant unique

Geo-localisation

41Internationalized Resource Identifier (IRI) : http://sws.geonames.org/2982217/

42

Données échangeable en RDF entre les machines sur le Web

43fr.dbpedia.org - IRI : http://fr.dbpedia.org/page/Ruffec_(Charente)

44

Wikidata.org - IRI https://www.wikidata.org/wiki/Q730659

Liage à d’autres sources de données sur le Web

<placeName ref=“https://www.wikidata.org/wiki/Q730659”>Ruffec</placeName> est une ville en ...

Liage de noms de lieux

45

WIKIDATA

GEONAMES...

REDEN

http://obvil-dev.paris-sorbonne.fr/reden/RedenOnline/site/input-tei.html

Résolution et désambiguïsation d'entités nommées.

Un outil capable de reconnaître automatiquement le référent d’une mention ambiguë à partir du contexte textuel et de le lier à une base de connaissance :

● entrée en TEI● adaptable à plusieurs domaines

46Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)

47

Désambiguïsation du candidat grâce à l'utilisation de la centralité de graphes à partir des prédicats en commun

dbpedia-fr: 8e_ arrondissement_ de_Paris

dbpedia:Boulevard_Malesherbes dbpedia:Rue_des_Mathurinsfoaf:SpatialThing

prop-fr:arrondissement

dbpedia:Place_Saint-Augustin

prop-fr:arrondissement

rdf:type

rdf:type

rdf:type

prop-fr:quartier

dbpedia-fr: Quartier_de_la_Madeleineprop-fr:quartier

REDEN : résolution d’entités nommées

“ Voilà ! J’avais eu affaire, rue de la Pépinière, près de la place Saint-Augustin, et je revenais par le boulevard Malesherbes en l’intention de prendre l’omnibus à la Madeleine. Tout à coup, au coin de la rue des Mathurins, un homme se dressa devant moi en criant : “Madame ou mademoiselle, [...]. ” (Le passant de Prague, Guillaume Apollinaire)

Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)

Extension de REDENPrise en compte des relations spatiales

48Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)

49

Relations spatiales explicites

Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)

50

Deux extraits concernent la Champagne et le Sud Ouest :

“Sa puissance émotive, qui fut grande, demeura intacte jusqu'à la fin. Elle partit, le 28, de Ruffec, dans les circonstances qu'on connaît. Vers l'Ouest, elle gagna les forêts de Chizé et d'Aulnay, semble-t-il, à moins que celles-ci n'aient constitué un centre d'émotion locale. ”

« La grande peur de 1789 » de Georges Lefebvre

Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)

Mais dans la plupart des cas, le nom, le localisation et la fonction des lieux changent

dans le temps..Il est donc nécessaire d'établir un lien vers la

“bonne” ressource dans le Web décrivant le lieu

Des bases qui non seulement décrivent la géographie ancienne, mais qui tracent l’évolution dans le temps

52

53

Unités administratives qui varient dans le temps

TGN Getty - www.getty.edu

54

Atelier Campus Condorcet : gazetiers historiques sémantisés pour les humanités

Collaboration avec l’Ecole Nationale des chartes, l’ENSG et l’IGN - https://github.com/geoTirroirs/geoSnippets/

Mesurer la perception des lieux dans les textes

Identification automatique

● lieux noms propres (gazetiers)● lieux noms communs (apprentissage automatique –

Stanford NER)● sentiments (lexiques)

56Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

57Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

58

corpus hétérogènes numérisation

corpus numérisés

corpus annotées + métadonnées

données liées

Un chaîne de traitement pour l’analyse des données dans un projet en HN

liage

description et annotation

Données cartographiées pour l’analyse

visualisationDonnées accessibles

dépôt / diffusion

REDEN ONLINE

Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)

REDEN ONLINE

Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)

61Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

avec le SIG QGIS

62

Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

avec le SIG QGIS

63

Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)

avec le SIG QGIS

Outils prêts à l'emploi (ou presque)SEM (LATTICE CNRS/ENS/Paris 3) : http://apps.lattice.cnrs.fr/sem/

REDEN ONLINE (Obvil, Ehess, Univ Paul Valéry Montpellier) :

http://obvil-dev.paris-sorbonne.fr/reden/RedenOnline/site/input-tei.html

BRAT (University of Tokyo) : http://brat.nlplab.org

Transkribus (READ project) : http://transkribus.eu/Transkribus/

Gate (University of Sheffield) : https://gate.ac.uk/

CLAN (TalkBank) : http://alpha.talkbank.org/clan/

MerciFrancesca Frontini, Nathalie Abadie, Catherine Dominguès, Thierry Poibeau,

Jean-Gabriel Ganascia, Pierre-Henri Paris, Marion Cargill, Vincent Jolivet, Stéphane Baciocchi, Eric Mermet, Benoit Pandolfi, Marion Brunet, Guillaume

Guebin ...

65

Recommended