20
XML TEI : un outil méthodologique pour la recherche en SHS Atelier pratique. Indexation d'un corpus TEI à partir d'une plateforme collaborative. EHESS – 3 février 2010 Nicole Dufournaud Ingénieure de recherche CESR Tours Chercheuse en Histoire

N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Embed Size (px)

DESCRIPTION

Partie atelier de la séance consacrée à la XML TEI du séminaire Digital Humanities de l'EHESS 2009-2010

Citation preview

Page 1: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

XML TEI : un outil méthodologique pour la recherche en SHS

Atelier pratique. Indexation d'un corpus TEI à partir d'une plateforme collaborative.

EHESS – 3 février 2010

Nicole DufournaudIngénieure de recherche

CESR ToursChercheuse en Histoire

Page 2: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Plan

● La plate-forme Millefeuille– Le projet Millefeuille– La plate-forme

● Les entités nommés :– Les lieux– Les noms de personnes

Page 3: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

La partie « Atelier »

● Présentation :– de la plate-forme– indexation

● Démonstration● Atelier :

– Exercices encodés– 1 exercice à encoder avec <persName>

<placeName> <geogName>

Page 4: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Le projet Millefeuille2006- 2007

● Projet Millefeuille : Archives nationales, Ecole nationale des Chartes, IDHE de l'Université Paris I et l'INRIA (2006-2007)

– Encodage des almanachs royaux, nationaux et impériaux entre 1750 et 1850

– Création d'une plate-forme collaborative qui autorise un travail collectif : un véritable outil de travail mais un prototype

● Créé par Félicien François sur une idée de Jean-Daniel Fekete (INRIA)

Page 5: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Le projet Millefeuille2006- 2007

● Projet Millefeuille 2006-2007:– Emacs, une plate-forme de travail efficace et

souple: recherche dans le corpus facile (grep et agrep pour la recherche approximative), gestion des versions de documents (cvs) et convertisseur de dates

– Inconvénient : lourd apprentissage et aspect rebutant pour les non-initiés

– Préparer la seconde phase du projet

Page 6: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

La plate-forme Millefeuille

● Eclipse– Éditeur XML : logiciel libre

● Plugin (module accessoire ou “greffon” ou “extension”) :

– Affichage des documents en HTML– Création et génération d'index– Filtres et navigation dans les index

● Co-développé par l'IRHT (Richard Walter) et l'INRIA (JD Fekete)

– Troisième version sur le site de Telma http://www.cn-telma.fr/ (février 2010)

Page 7: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

A savoir !

● Le système de perspective Millefeuille : par défaut Eclipse propose la perspective Java

● Structure du document XML/TEI– L'affichage se fait sous forme d'arbre.– Le menu contextuel (bouton droit de la

souris) propose des fonctions d'édition :● Ajout d'attribut● Ajout d'élément

Page 8: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Exercices sur les minutes

● Une minute notariale est l'acte original notarié, signé par les parties en présence ainsi que par les notaires ; la minute est conservée chez le notaire à la différence de la « grosse » qui est la copie remise aux parties.

Page 9: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Exemple d'une minute notariale (AD44)

Page 10: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Exercices sur les lettres de rémission

« ...La lettre de rémission est un acte de la Chancellerie par lequel le roi octroie son pardon à la suite d’un crime ou d’un délit, arrêtant ainsi le cours ordinaire de la justice, qu’elle soit royale, seigneuriale, urbaine ou ecclésiastique... » Claude Gauvard.

Page 11: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Exemple d'une lettre de rémission (AD44)

Page 12: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Les entités nommés

● Plusieurs types : on en retient deux– Personnes– Lieux

● Lieux : problèmes– Orthographe et variante : « Bretaigne »– Changement de noms de lieux

● Personnes : problèmes– Orthographe : « Lefebure » « Lefebvre »– Identité sociale

Page 13: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Les entités nommés et TEI

● <rs> chaîne de caractères<rs type="person">François Rabelais</rs><rs type="person">sa mère</rs><rs type="airport">Charles de Gaulle</rs> 

● <name><name type="person">François Rabelais</name><name type="place">Charles de Gaulle</name><name type="person">Charles de Gaulle</name>

– ou <persName> !

Page 14: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Les noms de lieux<placeName> <geogName>

● <placename> nom de lieu<placename>Paris</placename>

● <geogName> nom associé à un lieu géo.<geogName>Pont Neuf</geogName>

Page 15: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Les noms de personnes<persName>

● <surname> nom de famille ou patronyme● <forename> prénom● <roleName> titre et avant-nom● <addName> épithète● <nameLink> particules nobiliaires

Exemple : « haute dame dame Suzanne de Bourbon dame de Rieux »

<persName><addName type="epithete-honneur">haute dame</addName><roleName type="avant-nom">dame</roleName><forename>Suzanne</forename><nameLink>de</nameLink><surname>Bourbon</surname> <roleName type="titre">dame</roleName> de <geogName>Rieux</geogName></persName>

Page 16: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Démonstration

● Démonstration sur les fichiers des minutes notariales et lettres de rémission

– Présentation de la plate-forme– Index de chaque fichier particulier– Index du fichier général

Page 17: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Indexation

● Les index sont de plusieurs couleurs– Bleu foncé : occurrence dans le fichier ouvert– Bleu clair : occurrence régularisée dans le fichier

externe● Les index sont triés alphabétiquement; par défaut● Externaliser signifie copier une information d'un

fichier particulier dans un fichier commun à un projet.

– Seul l'enrichissement commun des données est externalisé.

– Le texte reste intact.

Page 18: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Index particulier

● Pour supprimer une régularisation : – un clic droit sur une occurrence régularisée,– puis sélectionner « Supprimer la référence dans

ce fichier ». Attention ! Seule la suppression dans le fichier

particulier est effective.● Pour externaliser plusieurs occurrences :

– Externalisation en masse n'est pas recommandée

– Si plusieurs occurrences concernent la même référence : sélectionner l'occurrence de référence avec les autres.

Page 19: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

Index général● La couleur verte indique un fichier particulier suivi du

nombre d'occurrences d'une même référence que l'on peut y trouver

● La suppression d'une référence entraîne aussi la suppression dans les fichiers particuliers : la couleur rouge y indique une référence morte

● La régularisation orthographique s'effectue dans le fichier général.

– Attention ! Ne pas toucher à l'identifiant généré automatiquement !

● Afficher au format HTML● Les filtres

Page 20: N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

A VOUS !

http://www.wordle.net/