Upload
openedition
View
1.109
Download
1
Embed Size (px)
DESCRIPTION
Partie atelier de la séance consacrée à la XML TEI du séminaire Digital Humanities de l'EHESS 2009-2010
Citation preview
XML TEI : un outil méthodologique pour la recherche en SHS
Atelier pratique. Indexation d'un corpus TEI à partir d'une plateforme collaborative.
EHESS – 3 février 2010
Nicole DufournaudIngénieure de recherche
CESR ToursChercheuse en Histoire
Plan
● La plate-forme Millefeuille– Le projet Millefeuille– La plate-forme
● Les entités nommés :– Les lieux– Les noms de personnes
La partie « Atelier »
● Présentation :– de la plate-forme– indexation
● Démonstration● Atelier :
– Exercices encodés– 1 exercice à encoder avec <persName>
<placeName> <geogName>
Le projet Millefeuille2006- 2007
● Projet Millefeuille : Archives nationales, Ecole nationale des Chartes, IDHE de l'Université Paris I et l'INRIA (2006-2007)
– Encodage des almanachs royaux, nationaux et impériaux entre 1750 et 1850
– Création d'une plate-forme collaborative qui autorise un travail collectif : un véritable outil de travail mais un prototype
● Créé par Félicien François sur une idée de Jean-Daniel Fekete (INRIA)
Le projet Millefeuille2006- 2007
● Projet Millefeuille 2006-2007:– Emacs, une plate-forme de travail efficace et
souple: recherche dans le corpus facile (grep et agrep pour la recherche approximative), gestion des versions de documents (cvs) et convertisseur de dates
– Inconvénient : lourd apprentissage et aspect rebutant pour les non-initiés
– Préparer la seconde phase du projet
La plate-forme Millefeuille
● Eclipse– Éditeur XML : logiciel libre
● Plugin (module accessoire ou “greffon” ou “extension”) :
– Affichage des documents en HTML– Création et génération d'index– Filtres et navigation dans les index
● Co-développé par l'IRHT (Richard Walter) et l'INRIA (JD Fekete)
– Troisième version sur le site de Telma http://www.cn-telma.fr/ (février 2010)
A savoir !
● Le système de perspective Millefeuille : par défaut Eclipse propose la perspective Java
● Structure du document XML/TEI– L'affichage se fait sous forme d'arbre.– Le menu contextuel (bouton droit de la
souris) propose des fonctions d'édition :● Ajout d'attribut● Ajout d'élément
Exercices sur les minutes
● Une minute notariale est l'acte original notarié, signé par les parties en présence ainsi que par les notaires ; la minute est conservée chez le notaire à la différence de la « grosse » qui est la copie remise aux parties.
Exemple d'une minute notariale (AD44)
Exercices sur les lettres de rémission
« ...La lettre de rémission est un acte de la Chancellerie par lequel le roi octroie son pardon à la suite d’un crime ou d’un délit, arrêtant ainsi le cours ordinaire de la justice, qu’elle soit royale, seigneuriale, urbaine ou ecclésiastique... » Claude Gauvard.
Exemple d'une lettre de rémission (AD44)
Les entités nommés
● Plusieurs types : on en retient deux– Personnes– Lieux
● Lieux : problèmes– Orthographe et variante : « Bretaigne »– Changement de noms de lieux
● Personnes : problèmes– Orthographe : « Lefebure » « Lefebvre »– Identité sociale
Les entités nommés et TEI
● <rs> chaîne de caractères<rs type="person">François Rabelais</rs><rs type="person">sa mère</rs><rs type="airport">Charles de Gaulle</rs>
● <name><name type="person">François Rabelais</name><name type="place">Charles de Gaulle</name><name type="person">Charles de Gaulle</name>
– ou <persName> !
Les noms de lieux<placeName> <geogName>
● <placename> nom de lieu<placename>Paris</placename>
● <geogName> nom associé à un lieu géo.<geogName>Pont Neuf</geogName>
Les noms de personnes<persName>
● <surname> nom de famille ou patronyme● <forename> prénom● <roleName> titre et avant-nom● <addName> épithète● <nameLink> particules nobiliaires
Exemple : « haute dame dame Suzanne de Bourbon dame de Rieux »
<persName><addName type="epithete-honneur">haute dame</addName><roleName type="avant-nom">dame</roleName><forename>Suzanne</forename><nameLink>de</nameLink><surname>Bourbon</surname> <roleName type="titre">dame</roleName> de <geogName>Rieux</geogName></persName>
Démonstration
● Démonstration sur les fichiers des minutes notariales et lettres de rémission
– Présentation de la plate-forme– Index de chaque fichier particulier– Index du fichier général
Indexation
● Les index sont de plusieurs couleurs– Bleu foncé : occurrence dans le fichier ouvert– Bleu clair : occurrence régularisée dans le fichier
externe● Les index sont triés alphabétiquement; par défaut● Externaliser signifie copier une information d'un
fichier particulier dans un fichier commun à un projet.
– Seul l'enrichissement commun des données est externalisé.
– Le texte reste intact.
Index particulier
● Pour supprimer une régularisation : – un clic droit sur une occurrence régularisée,– puis sélectionner « Supprimer la référence dans
ce fichier ». Attention ! Seule la suppression dans le fichier
particulier est effective.● Pour externaliser plusieurs occurrences :
– Externalisation en masse n'est pas recommandée
– Si plusieurs occurrences concernent la même référence : sélectionner l'occurrence de référence avec les autres.
Index général● La couleur verte indique un fichier particulier suivi du
nombre d'occurrences d'une même référence que l'on peut y trouver
● La suppression d'une référence entraîne aussi la suppression dans les fichiers particuliers : la couleur rouge y indique une référence morte
● La régularisation orthographique s'effectue dans le fichier général.
– Attention ! Ne pas toucher à l'identifiant généré automatiquement !
● Afficher au format HTML● Les filtres
A VOUS !
http://www.wordle.net/