Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Traitement et analyse des corpus hétérogènes pour les SHS
Carmen BrandoPhD en informatique
Géomatique & Traitement automatique des languesCentre de recherches historiques (CRH UMR 8558), EHESS
Plateforme Géomatique de l’Ehess : https://psigehess.hypotheses.org/
Matinée ADBS « Tu fais quoi de tes données ? »Campus Condorcet, 23 mars 2018
1
Une plateforme en géomatique et humanités numériques : formations
❖ Séminaires hebdomadaires Master TES et Master PSL Humanités Numériques : Traitement et analyse de l’information spatialisée, séminaire méthodologique hebdomadaire au 1e semestre
❖ Ateliers mensuels en SIG (sur QGIS : https://www.qgis.org) : formation initiale en SIG et espace participatif et collaboratif ouvert permettant à chacun d’avancer sur des problématiques spatiales propres à chacun
❖ Atelier cartes sensibles (2e semestre) : Besoins d’une approche sensible pour la cartographie de données en sciences sociales
❖ Atelier réguliers en traitement automatique des langues (TAL) et aussi dans le contexte du master PSL Humanités numériques
2
Motivation & contexte● Les données en SHS sont fortement hétérogènes : textes, documents web,
XML/TEI, données tabulaires, images
● Besoin grandissant des chaînes de traitements adaptés et réutilisables pour permettre l'analyse de ces données à partir des outils informatiques
● Il faut s’appuyer sur :
○ des outils open source et les meilleures pratiques d’interopérabilité du Web de Données (FAIR : Findable, Accessible, Interoperable, Re-usable)
○ les infrastructures européennes de recherche en SHS : CLARIN, DARIAH, PARTHENOS
● Quelques expériences de projets et outils issus des humanités numériques à l’EHESS
3
HN: Humanités numériquesTAL: Traitement automatique des languesSIG : Sciences de l’information géographique
TAL SIG
HN
5
corpus hétérogènes numérisation
corpus numérisés
corpus annotées + métadonnées
données liées
Un chaîne de traitement pour l’analyse des données dans un projet en HN
liage
description et annotation
Données cartographiées pour l’analyse
visualisationDonnées accessibles
dépôt / diffusion
Dépôt de corpus textuels (sur Ortolang/VLO de Clarin)
6
Numérisation de documents textuels
7
http://transkribus.eu/Transkribus/
D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS
Permettre à la machine de transcrire et rechercher dans des documents historiques – de n’importe quelle date, dans n’importe quelle langue et quelle que soit la mise en page !
Pourquoi utiliser Transkribus ?
D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS
Transkribus à l’Ehess
❖ Expériences en cours sur deux projets :
➢ édition numérique du journal intime d'Eugène Wilhelm (1885-1951) coordonné par Régis Schlagdenhauffen
➢ projet PSL Les Réveillées : édition en ligne d'enquêtes en ethnomusicologie coordonné par François Gasnault, Marie-Barbara Le Gonidec, Florence Neveux
10
HTR : transcrire des textes manuscrits
• Apprentissage automatique grâce aux réseaux neuronaux
• Algorithmes développés par l’Université polytechnique de Valencia et l’Université de Rostock
• l’analyse du document est faite ligne par ligne et non par caractère
D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS
Fonctionnement des réseaux neuronaux :
> Première étape : Reconnaissance
• L’algorithme n’essaie pas de reconnaître les caractères dans les images, comme l’OCR
• Il traite les images à plusieurs reprises et lit dans tous les sens afin de collecter toute information de contexte contenue dans l’image
• Il est influencé par la mise en page, le style d’écriture et la langue du document
• Les données extraites sont intégrées dans une séquence mathématique
HTR : transcrire des textes manuscrits
D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS
> Deuxième étape : Décodage
• Décoder les séquences mathématiques en texte
• Mesurer la probabilité d’apparition de chaque caractère
• Les dictionnaires spécifiques à une langue peuvent aider
HTR : transcrire des textes manuscrits
D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS
Numérisation de corpus oraux
14
Transcription à partir des enregistrements audio
15
Ch_MB1 : [euh] de parents comment s'appelaient vos parents ?
JE09 : [lg=espagnol-]JE09PER y JE09MER[-lg=espagnol] [trad-]JE09PER et JE09MER[-trad]
Ch_MB1 : Et que faisaient-ils en Espagne ?
JE09 : Mon père il était responsable [lg=espagnol-][repetition-]de[-repetition] de fabricación[-lg=espagnol] [trad-]de fabrication[-trad] [euh] à l'usine des ciments [pron=pi] [euh] [repetition-]une[-repetition] une société Anglaise. Et il était chef de [lg=espagnol-]fabricación[-lg=espagnol] [trad-]fabrication[-trad].
(selon la qualité de l’enregistrement, automatisable avec le logiciel Transcriber) Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
16
Signal et texte alignés
Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
Interopérabilité : XML/TEI CORPO
17Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
Numérisation et géoréférencement de cartes anciennes
18
19Projet PSL BERTIN (EHESS)
Fond numérisé d’environ 200 cartes sur l’Afrique mis en ligne sur Omeka-S
20Projet PSL BERTIN (EHESS)
Géoréférencement des fonds - Difficulté : diversité de systèmes de projections à prendre en compte
21
corpus hétérogènes numérisation
corpus numérisés
corpus annotées + métadonnées
données liées
Un chaîne de traitement pour l’analyse des données dans un projet en HN
liage
description et annotation
Données cartographiées pour l’analyse
visualisationDonnées accessibles
dépôt / diffusion
22Projet PSL BERTIN (EHESS)
Fond numérisé d’environ 200 cartes sur l’Afrique mis en ligne sur Omeka-S
Vocabulaires pour la description des métadonnées : Dublin Core et INSPIRE
Annotation du contenu des textes
23
Entité nommée (EN): une expression linguistique, typiquement un nom propre, se réfèrent à un objet ou existant dans le monde.
● une personne ou groupe de personnes, ● un lieu, ● une institution, ...
Mention: une instance d’entité nommée dans le texte
Base de connaissance (BdC): une ressource informatique qui contient information structurée sur une ou plusieurs types d’ENs. Pour les lieux, cette ressource peut être appelée gazetier sémantisé
Lien : un identifiant unique, ajouté à une mention pour identifier l’EN référée dans une BdC
24
25Unitex : http://unitexgramlab.org/fr
26https://named-entity.data.istex.fr/
27
28
Entité nommée (EN): une expression linguistique, typiquement un nom propre, se réfèrent à un objet ou existant dans le monde.
● une personne ou groupe de personnes, ● un lieu, ● une institution, ...
Mention: une instance d’entité nommée dans le texte
Base de connaissance (BdC): une ressource informatique qui contient information structurée sur une ou plusieurs types d’ENs. Pour les lieux, cette ressource peut être appelée gazetier sémantisé
Lien : un identifiant unique, ajouté à une mention pour identifier l’EN référée dans une BdC
29
Entités spatiales nommées ● Lieux ayant changé d’utilisation, localisation, ... dans le temps
○ Notre Dame des Tables, Montpellier
○ Gare d’Orsay > Musée d’Orsay
○ Empire Romain
● Distinction entre
○ Concept de “lieu”, construction culturelle
○ et sa localisation(s), usages(s)extension(s), qui peuvent changerdans le temps
30
Comment le TAL traite les noms de lieux dans les textes ?
“Elle partit, le 28, de Ruffec”
● Reconnaissance
○ Elle partit, le 28, de <placeName>Ruffec</placeName>
31
Reconnaissance d’entités nommées
LATTICE ENS - http://apps.lattice.cnrs.fr/sem/
LATTICE ENS - http://apps.lattice.cnrs.fr/sem/
LATTICE ENS - http://apps.lattice.cnrs.fr/sem/
Le ventre de Paris d’Emile Zola
Annotation manuelle de textes pour créer des corpus d’apprentissage(domaine : roman du XIX où les actions se passent à Paris)
Brat : http://brat.nlplab.org/
Collaboration avec le Laboratoire LATTICE
36
corpus hétérogènes numérisation
corpus numérisés
corpus annotées + métadonnées
données liées
Un chaîne de traitement pour l’analyse des données dans un projet en HN
liage
description et annotation
Données cartographiées pour l’analyse
visualisationDonnées accessibles
dépôt / diffusion
37
Liage (linking) d’entités nommées grâce au Web de données (Linked Data)
38State of the LOD cloud (excerpt, 2014): http://lod-cloud.net/
TEI document
Header
Body<placeName ref= “http://fr.dbpedia.org/resource/Gare_du_Musée_d’Orsay”...>
Comment le TAL traite les noms de lieux dans les textes ?
“Elle partit, le 28, de Ruffec”
● Recognition
○ Elle partit, le 28, de <placeName>Ruffec</placeName>
● Disambiguation
○ Elle partit, le 28, de <placeName ref=”#RuffecCharente”>Ruffec</placeName>
● Linking
○ Elle partit, le 28, de <placeName ref=”http://www.geonames.org/2982217”> Ruffec</placeName>
39
(and not Ruffec in Indre)
Noms alternatifsNoms dans autres langues
Hierarchie administrative
Population
Typologie de lieu
Identifiant unique
Geo-localisation
41Internationalized Resource Identifier (IRI) : http://sws.geonames.org/2982217/
42
Données échangeable en RDF entre les machines sur le Web
43fr.dbpedia.org - IRI : http://fr.dbpedia.org/page/Ruffec_(Charente)
44
Wikidata.org - IRI https://www.wikidata.org/wiki/Q730659
Liage à d’autres sources de données sur le Web
<placeName ref=“https://www.wikidata.org/wiki/Q730659”>Ruffec</placeName> est une ville en ...
Liage de noms de lieux
45
WIKIDATA
GEONAMES...
REDEN
http://obvil-dev.paris-sorbonne.fr/reden/RedenOnline/site/input-tei.html
Résolution et désambiguïsation d'entités nommées.
Un outil capable de reconnaître automatiquement le référent d’une mention ambiguë à partir du contexte textuel et de le lier à une base de connaissance :
● entrée en TEI● adaptable à plusieurs domaines
46Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)
47
Désambiguïsation du candidat grâce à l'utilisation de la centralité de graphes à partir des prédicats en commun
dbpedia-fr: 8e_ arrondissement_ de_Paris
dbpedia:Boulevard_Malesherbes dbpedia:Rue_des_Mathurinsfoaf:SpatialThing
prop-fr:arrondissement
dbpedia:Place_Saint-Augustin
prop-fr:arrondissement
rdf:type
rdf:type
rdf:type
prop-fr:quartier
dbpedia-fr: Quartier_de_la_Madeleineprop-fr:quartier
REDEN : résolution d’entités nommées
“ Voilà ! J’avais eu affaire, rue de la Pépinière, près de la place Saint-Augustin, et je revenais par le boulevard Malesherbes en l’intention de prendre l’omnibus à la Madeleine. Tout à coup, au coin de la rue des Mathurins, un homme se dressa devant moi en criant : “Madame ou mademoiselle, [...]. ” (Le passant de Prague, Guillaume Apollinaire)
Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)
Extension de REDENPrise en compte des relations spatiales
48Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)
49
Relations spatiales explicites
Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)
50
Deux extraits concernent la Champagne et le Sud Ouest :
“Sa puissance émotive, qui fut grande, demeura intacte jusqu'à la fin. Elle partit, le 28, de Ruffec, dans les circonstances qu'on connaît. Vers l'Ouest, elle gagna les forêts de Chizé et d'Aulnay, semble-t-il, à moins que celles-ci n'aient constitué un centre d'émotion locale. ”
« La grande peur de 1789 » de Georges Lefebvre
Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)
Mais dans la plupart des cas, le nom, le localisation et la fonction des lieux changent
dans le temps..Il est donc nécessaire d'établir un lien vers la
“bonne” ressource dans le Web décrivant le lieu
Des bases qui non seulement décrivent la géographie ancienne, mais qui tracent l’évolution dans le temps
52
53
Unités administratives qui varient dans le temps
TGN Getty - www.getty.edu
54
Atelier Campus Condorcet : gazetiers historiques sémantisés pour les humanités
Collaboration avec l’Ecole Nationale des chartes, l’ENSG et l’IGN - https://github.com/geoTirroirs/geoSnippets/
Mesurer la perception des lieux dans les textes
Identification automatique
● lieux noms propres (gazetiers)● lieux noms communs (apprentissage automatique –
Stanford NER)● sentiments (lexiques)
56Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
57Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
58
corpus hétérogènes numérisation
corpus numérisés
corpus annotées + métadonnées
données liées
Un chaîne de traitement pour l’analyse des données dans un projet en HN
liage
description et annotation
Données cartographiées pour l’analyse
visualisationDonnées accessibles
dépôt / diffusion
REDEN ONLINE
Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)
REDEN ONLINE
Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)
61Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
avec le SIG QGIS
62
Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
avec le SIG QGIS
63
Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
avec le SIG QGIS
Outils prêts à l'emploi (ou presque)SEM (LATTICE CNRS/ENS/Paris 3) : http://apps.lattice.cnrs.fr/sem/
REDEN ONLINE (Obvil, Ehess, Univ Paul Valéry Montpellier) :
http://obvil-dev.paris-sorbonne.fr/reden/RedenOnline/site/input-tei.html
BRAT (University of Tokyo) : http://brat.nlplab.org
Transkribus (READ project) : http://transkribus.eu/Transkribus/
Gate (University of Sheffield) : https://gate.ac.uk/
CLAN (TalkBank) : http://alpha.talkbank.org/clan/
MerciFrancesca Frontini, Nathalie Abadie, Catherine Dominguès, Thierry Poibeau,
Jean-Gabriel Ganascia, Pierre-Henri Paris, Marion Cargill, Vincent Jolivet, Stéphane Baciocchi, Eric Mermet, Benoit Pandolfi, Marion Brunet, Guillaume
Guebin ...
65