TEI et Humanités Digitales : projet HumanitéDigitMaghreb

Mokhtar Ben HendaMICA EA 4426

TEI et Humanités Digitales : retour d’expérience du projet « HumanitéDigitMaghreb »

Trois axes :

HD : Humanités digitales

TEI : Text Encoding Initiative

HuMiDa : Projet HumanitéDigitMaghreb

Plan de présentation

HD : points d’histoire

Est-ce qu’il y a eu un Big Bang des HD ?

Les Humanités digitales synthétisent plus clairement l'esprit qui animait les anciennes fondations d'Alexandrie, Pergame, et Memphis, les grandes bibliothèques monastiques du Moyen Age, et même les premières bibliothèques de recherche des Lumières.

L’obsession par les variétés de représentation, de l'organisation des connaissances, la technologie de communication et de diffusion, et la production d'outils utiles pour la recherche académique

Au XXe Sc. l’informatique leur donne un nouvel élan

3 périodes successives qui ont marqué le développement des relations entre sciences humaines et informatique, ainsi que les principes qui les ont portées

1 - Le literacy and linguistic computing (1960-1980)

L’Index Thomisticum : début 1950, le père Busa était le premier à avoir l’idée générer de façon automatique un index de chaque mot (lemmatisation) du corpus de l’œuvre de Thomas D’Aquin

Brown Corpus for Use on Digital Computers (1964) Tous les mots de la langue anglaise dans toutes les variétés de discours, indexés au moyen de machines Première tentative de normaliser, de standardiser la construction d’un corpus selon des principes

statistiques

Le Thesaurus Linguae Graecae (1972) Base de données qui rassemblerait tous les textes de la littérature grecque (BetaCode Vs Cartes

perforées)

Considérer le texte comme un phénomène statistique Quantifier les signes, identifier les régularités statistiques dans les textes,

d’établir des concordances (recherche des occurrences en contexte pour chaque mot et tri)

Définir la paternité d’un texte en étudiant la distribution de fréquences

2 - L’humanities computing (1980-1994)

Années 1980 : importantes évolutions technologiques et informatiques

Encodage des données informatiques (OCR, appareil photo, clavier) Émergence du concept de document numérique Besoin d’un modèle abstrait de structuration pour :

– produire une représentation numérique des ressources du monde réel (livres, objets d’art…)

– pouvoir les traiter, les analyser automatiquement et les enrichir.

Enjeu Pérenniser les bits dont est composé un texte numérisé Exprimer la portée (sens) de l’encodage dans le modèle abstrait du

texte Langage à balises

Les HC coïncident avec l’émergence des langages de documents structurés 1968 : GML (Generalized Markup Language) 1985 : ODA (Open Document Architecture). Publié en 1993 1986 : SGML (Satandard Generalized Markup Langage) 1987 : TEI (Text Encoding Initiative)

Enjeu : rendre possible la mutualisation des données en apportant une solution à l’immense variété des manières d’encoder

Tel est l’enjeu fondamental de la Text Encoding Initiative Marquer tous les éléments devant être distingués dans un texte Un modèle unique, encyclopédique, de représentation des éléments

signifiants d’un texteMorale des humanities computing : « I used to read texts, but now I’m learning the tools to play with them » (Lou Burnard)

Institutionnalisation Création de formations universitaires Services de données : Arts and Humanities Data Service (http://www.ahds.ac.uk/)

Archivage longue durée : Oxford Text Archive (1976 : http://ota.ahds.ac.uk/)

Le partage et la collaboration En 1987 est fondée la liste Humanist : notion de communauté de pratiques reprise du principe

de la correspondance des savants du XVIIe

Interdisciplinarité & classification des sciences Alliance entre sciences sociales, sciences informatiques et sciences humaines (Pierre Bourdieu,

Régis Debray, Umberto Eco, Jack Goody, Eric Havelock, Harold Innis, André Leroi-Gourhan, Bruno Latour, Marshall McLuhan, Edgar Morin, Walter Ong…)

Industrialisation des savoirs L’imprimerie (SGML) : rupture avec l’imprimerie conventionnelle

3 - Les digital humanities (1994-…)

Développement exponentiel des capacités informatiques :

Pleine période de discussions théoriques sur l’encodage Explosion du nombre de bibliothèques numériques et de projets de numérisation

en masse Émergence du grid computing : partage et mise à disposition des informations Émergence du cloud computing Émergence de la folksonomie : contribution par l’utilisateur final sans médiation

scientifique ou technique03 âges numériques (Jean-Alain Pigearias)

1. Numérisation (machine) : [encodage binaire]2. Médiatisation : [Documents numériques structurés]3. Relation numérique (Scénographie) : [Réseaux virtuels,

Hypertexte, cloud…]

« La spécificité des sciences humaines et sociales consiste en l’étude du texte, de l’objet textuel. Nous travaillons sur le texte, qui représente un discours, raconte une histoire, et tâchons d’expliquer ces histoires, ces contes, ces représentations. »

« Nous sommes des experts de la maïeutique du texte, et c’est précisément ce qui définit la contribution des sciences humaines et sociales à l’élaboration du Web sémantique ».

Lou Burnard, « Du literary and linguistic computing aux digital humanities : retour sur 40 ans de relations entre sciences humaines et informatique », in Pierre Mounier (dir.), Read/Write Book 2, Marseille, OpenEdition Press (« Collection « Read/Write Book » »), 2012, p. 45-58

Or …

HD : au-delà de la textualité

La prédominance du texte est désormais remise en cause

Réfléchir à la déconstruction de la catégorie « texte » et prendre en compte les catégories parlées ou visuelles « Les Humanités délivrées » (*):

(*) Les « humanités délivrées » Cultures parlées, visuelles et écrites, réinventées hors du livre 1-2 octobre 2013, Amphimax 414, Université de Lausanne

Développement d’une attention aux « littératies plurielles » (imprimée, informatique, audiovisuelle)

La codification digitale d’un document, de quelque nature qu’il soit (écrit, oral, filmé, etc.), est aujourd’hui un des terrains les plus importants de redéfinition de la connaissance

La TEI s’y adapte progressivement d’une version à une autre

Text Encoding Initiative

TEI : logique structurelle

Un format XML (un langage à balises : jeux de recommandations de ‘‘Tags’’ pour représenter des formes de texte complexes

Les TEI Guidelines sont publiées en 1990 (P1) en pleine période de conception de langages structurés (fondés sur SGML)

Mode opératoire : définir la nature des faits à représenter, puis chercher un moyen de l’exprimer (définir des schémas de structure) [bottom-up]

1987: Vassar College, Poughkeepsie1990: P1 : SGML1992: P2 : SGML1994: P3 : SGML : 600 + elements1995: TeiLite : SGML : 131 elements1999: P3rev : SGML2000: TEI Consortium2001: P4 : XML comp2001: TeixLite : XML2005: P5 : XML2007: P5 version 1

Using TEI XML

A semantic markup language for recording and publishing texts It describes what something IS or what something MEANS

(rather than how it will look) We decide to what extent we want to identify and record

information about our texts -> the XML works for us, notthe other way round We choose the “tags” we want to use to mark up our texts, and

we list these in a schema that can be shared with others -> development of shared markup

Why use an ontology?

To model our common understandings and expert knowledge. This allows us to: Share our knowledge with other people - also across computers and

software Standardize our terms – shared vocabulary Explicitly state our knowledge (and discover any implicit assumptions) Reuse our models in similar scenarios Computer-assisted analysis to help us work

TEI Specific achievments

a determination that the Standard Generalized Markup Language (SC") is the framework for development of the Guidelines;

the specification of restrictions on and recommendations for SGML use that best serves the needs of interchange, as well as enables maximal generality and flexibility in order to serve the widest possible range of research, development, and application needs;

analysis and identification of categories and features for encoding textual data, at many levels of detail;

specification of a set of general text structure definitions that is effective, flexible, and extensible; specification of a method for in-file documentation of electronic texts compatible with

library cataloging conventions, which can be used to trace the history of the texts and thus assist in authenticating their provenance and the modifications they have undergone;

specification of encoding conventions for special kinds of texts or text features, including: character sets, language corpora, general linguistics, dictionaries, terminoiogicd data, spoken

texts, hypermedia, literary prose, verse, drama, histokcal souece materials, text critical apparatus

La TEI est une architecture plastique, qui peut s’adapter aux nouveaux besoins et enjeux de la recherche en SHS

Les réadaptations de la TEI :

TEI Lite : schéma pour la description de documents simples Bare TEI : schéma basique avec un minimum d’éléments All : schéma avec tous les modules inclus Corpus : schéma pour encoder les corpus linguistiques MS : schéma pour la description des manuscrits et les formes complexes Performance : schéma pour la description d’oeuvres théâtrales et autres (audio, vidéo) Speech : schéma pour la représentation du discours oral Verse : schéma pour la description de poèmes Dictionaries : schéma pour la description des dictionnaires MEI : Music Encoding Initiative (2010)

3 niveaux de représentation

Niveau 1 : Toutes les ressources numériques en SHS disposent d’un minimum de structure commune (Core TAG SET)

Niveau 2 : Les ressources en SHS peuvent être classées en sous catégories par genres ou types disposant à leurs tours d’un minimum de points communs (Base TAG SET)

Niveau 3 : Chaque ressource dans une sous catégorie peut avoir ses propres spécificités

Champs des SHS

Discipline Discipline Discipline

Document Document Document

Because the TE1 is an SGML application, a TE1 conformant document must be described by a document type definition (DTD), which defines tags and provides a BNF grammar description of the allowed structural relationships among them. A TEI DTD is composed of the core tagsets, a single base tagset, and any number of user selected additional tagsets, built up according to a set of rules documented in the TE1 Guidelines. In general, the full tagset for a given document is put together in such a way that sets of tags can be included or excluded from it, and thus the tags are allowed in a document or prohibited, respectively.

Addidiormal tagsets (optional)

special application areas such as alignment and linkage of text segments to fom hypertexts;

feature structure notation proposed for the encoding of entirely abstract in

A user of the TE9 scheme may combine as rnany or as few additional tagsets as suit his or her needs. The existence of tagsets for particulae application areas in the Guidelines reflects, to some extent, accidents of history: no claim to systematic or encyclopedic coverage is implied. It is expected that new tagsets will be defined as a part of the continued work of the TE1 and in related projectsterpretations of a text

Niveau collection

Niveau entité

Niveau unité

Niveau paragraphe

Niveau chapitre

Liminaires : page de titre, table des matières, préface, dédicace etc

Annexes : Index, …

En-tête (métadonnées) :Données bibliographqiues, Techniques, administratives, etc.

At the highest level, al1 TE1 documents conform to a common model. The basic unit is a text, that is, any single document or stretch of natural language regarded as a self-contained unit for processing purposes. The association of such a unit with a header describing it as a bibliographic entity is regarded as a single TE1 element. Two variations on this basic structure are defined: a collection of TE1 elements, or a variety of composite texts. The first is appropriate for large disparate collections of independent texts, for example in language corpora, or collections of unrelated papers in an archive; the second applies to cases such as the complete works of a given author, which might be regarded simultaneously as a single text in its own right and as a series of independent texts.

Structure minimale

<front> [liminaires...] </front>

<body> [contenu]

</body><back> [annexes] </back>

</text></TEI>

Identifier dans un poème : La mesure des vers Les différents types de vers Les groupes de verts (couplets,

tercets, quatrains) La strophe La forme de la strophe La rime L’enjambement Le rejet et le contre-rejet ...

Le choix de granularité peut varier entre grands segments et éléments plus petits

Stucturation d’un poème (TEIVerse)

Un sonnet : 2 quatrains, 2 tercet

Stucturation d’un poème (TEIVerse)

<text> <body> <head>Heureux qui, comme Ulysse, a fait un beau voyage </head>

<lg><l>Heureux qui, comme Ulysse, a fait un beau voyage </l><l> Ou comme cestuy-là qui conquit la toison </l><l> Et puis est retourné, plein d'usage et raison </l><l> Vivre entre ses parents le reste de son âge ! </l>

</lg><lg>

<l> Quand reverrai-je, hélas, de mon petit village </l><l> Fumer la cheminée, et en quelle saison </l><l> Reverrai-je le clos de ma pauvre maison </l><l> Qui m'est une province, et beaucoup davantage ?

</lg><lg>

<l> Plus me plaît le séjour qu'ont bâti mes aïeux </l><l> Que des palais Romains le front audacieux </l><l> Plus que le marbre dur me plaît l'ardoise fine : </l>

</lg><lg>

<l> Plus mon Loir gaulois, que le Tibre latin </l><l> Plus mon petit Liré, que le mont Palatin </l><l> Et plus que l'air marin la douceur angevine </l>

</lg> </body></text>

<teiHeader> <fileDesc> <titleStmt> <Title>Heureux qui comme Ulysse</title> <respStmt> <resp>Auteur</resp> <Name>Joacquim Du Belay</name> </respStmt> </titleStmt> <sourceDesc> <Bibl>Recueil Les regrets </bibl> </sourceDesc> </fileDesc></teiHeader><text>…

Identifier dans une pièce de théâtre : L’interprétation et la mise en scène La parole sur scène Les didascalies Les types d’exposition Le dénouement Le prologue …

Structuration d’une pièce de théâtre (TEIDrama)

Structuration d’un manuscrit (TEIManuscript)

<surface> : une page, une stèle, tout objet avec une inscription

La surface contient des zones et des lignes Elle a des coordonnées

<zone>: Une aire de la superficie définie de façon arbitraire à des fins éditoriaux. Les zones peuvent se superposer : la superposition est définie selon des coordonnées spatiaux

Peut contenir des <line> Dispose de coordonnées

<line> : une suite de texte identifiée de façon claire par l’éditeur

Peu contenir du texte et des <zone> Ne dispose pas de coordonnées

<line rend="right"> 1 April 2009</line> </zone><line>Fed Birds in the park today.</line><line>Might write an articleabout</line> <line>the Thick-billed Warbler.</line> </zone> <zone ulx="9" uly="20" lrx="70" lry="60" rotate="90”><line>Samaria is a Greek</line><line>brand of water that</line><line>comes from the natural</line> <line>springs of Stilos, in</line><line>Crete</line></zone></surface> </sourceDoc>

</surface>

<surface xml:id=“s1” ulx="0" uly="0" lrx="50" lry="50"> <zone xml:id=“s1-z1” ulx="1" uly="1" lrx="10" lry="10"> <line>Poem</line>  <line>the head</line> </zone> <zone xml:id=“s1-z2” ulx="4" uly="4" lrx="20" lry="20"> <surface xml:id=“s2” ulx="0" uly="0" lrx="100" lry="100"> <zone xml:id=“s2-z1” ulx="10" uly="10" lrx="90" lry="95"> Spring has just set in here, and the weather […] a steamer </zone> </surface> </zone></surface>

s1s1-z1

s1-z2s2

Structuration d’un graphique (Graph)

Image Markup Tool

Structuration d’un graphique (Graph)

<teiHeader> <fileDesc> <titleStmt> <title>The Image Markup Logo</title> </titleStmt> <publicationStmt> </publicationStmt> <sourceDesc> 377 x 259 </sourceDesc> </fileDesc> <encodingDesc> </encodingDesc> </teiHeader>

Structuration d’une partition musicale (MEI)

Structuration d’un partition musicale (MEI)

Structuration d’un partition musicale (MEI) M

الليل في الياسمينة تحت محاذيني والورد نسمة تــــميل عليا األغصان عيني دمعة في تمسحلي

اتكيت الياسمينة تحت وغنيت الـــعود عدلت وبكيت دمعي وتناطر تجيني كيفكنت تفكرتك

النوار مزينها جنينة األزهار ريحت من فاحت النار شعــــلت تفكرتك قليبي في لهليبة عملت

محتار متوحشوحدي حسأطيار ال ـو قمرة ال األشجار ع النسمة كان وتواسيني توانسفيا

Structuration d’un fichier son (TEISpeech)

Un énoncé se définit comme une « séquence attribuée à un locuteur à un instant » : flux temporel « Timeline »

Les énoncés sont regroupés dans des balises <div> (division)

Les segments de discours composant l’énoncé sont balisés par <s> ou <seg>

Opérer, au moyen de balises et d’attributs, une description très fine des différents phénomènes de communication oraux et non-oraux qui font partie du discours : pauses, chevauchements de paroles, changements

d’intonation, de voix ou de langue, expressions vocalisées (tousser, rire, se moucher, grogner…), gestes, etc.

Le projet HumanitéDigitMaghreb

Le projet est une recherche-action qui s’inscrit dans les orientations de recherche des Humanités Digitales

C'est un projet ISCC/CNRS mis en place en 2012 par une équipe de chercheurs de différentes institutions universitaires en France et au Maghreb et du Canada [des linguistes, chercheurs en littérature, culture, histoire, musique, arts,… tant en français qu’en arabe ou berbère]

Objectifs du projet

Mettre l’accent sur les opportunités, les difficultés et les limites de l'usage de la technologie numérique dans les pratiques des recherches scientifiques notamment dans les sciences humaines et la création artistique (Instrumentalisation de la recherche)

Quelles méthodes doit-on adopter aujourd’hui pour évaluer le rôle et l’importance des technologies numériques et de la communication dans la recherche scientifique ? (Organisation de dispositif)

Existe-t-il des procédures spécifiques pour diagnostiquer et juger les pratiques numériques en arts et en sciences humaines ? (évaluation/qualité de pratiques)

Trouver des orientations pour un meilleur usage des données du monde numérique, et une bonne pratique scientifique, surtout chez les jeunes chercheurs en art et sciences humaines (perspectives, stratégies)

Plus concrètement :

S’approprier des nouveaux habitus de recherche sur des ressources numériques en SHS

Maîtriser leur mise en corpus interopérables pour favoriser la synergie de coopération d’étude mondialisée sur ces patrimoines

Étudier les processus d’appropriations, les déplacements d’approches et donc les redéfinitions épistémologiques induites

Objectifs du projet

Plus concrètement encore …

Définir des modèles de structure de corpus numérique en SHS fondés sur des typologies de documents (genres littéraires) proposés par les partenaires du projet dans des disciplines des sciences humaines, des Arts et des techniques

Produire un environnement applicatif de production de corpus SHS normalisé par la TEI

Mettre en ligne un corpus de démonstration de ressources numériques en SHS mutualisées

Objectifs du projet

1. Les spécialistes en Arts et SHS identifient la structure logique d’un type de document dans leurs spécialités respectives (roman, poésie, théâtre, conte, manuscrit, peinture, musique, …)

Une distribution des rôles:

2. Les techniciens convertissent le modèle défini par les spécialistes SHS en schéma informatique (TEI/XML) avec un logiciel approprié

Problème d’interface

3. Les spécialiste de l’information font le référencement des corpus par métadonnées

Spécialiste Arts & SHS

Technicien XML/TEI

Spécialiste de l’Info-Com.

Corpus Arts & SHS

Articulation des activités

Schéma général du projet

Corpus SHS :échantillon de structures de documents

Poésie

Théâtre ConteMusique Manuscrit Discours

Autres

Vidéo Peinture

Oxygen : logiciel de production de corpus numérique en TEI

Les outils du projet

ROMA : pour créer des schémas TEI spécifiques et valides

OxGarage : pour convertir des formats de documents numériques de et vers la TEI ;

OMEKA : agrégateur de corpus/collection/document

OMEKA : référencement par métadonnées (Dublin Core)

OMEKA : Moissonnage par OAI-PMH

OMEKA : environnement d’archivage et de recherche

Le Quo vadis du projet !

Journées d’évaluation du projet à l’ISCC (25-26 avril 2013)

Pistes prévues

Inscrire le projet auprès du consortium TEI (participation de Lou Burnard aux journées)

Internationalisation des référentiels : traduction des (bouts des) Guidelines en Arabe Berbère

Monter des partenariats de bibliothèques numériques et préservation du patrimoine au Maghreb et en Afrique

Dynamique de recherche chez les partenaires Sud

Remercier la salle</Teiheader><Text>

<Body>

Merci de votre attention</body>

</Text></TEI>

TEI et Humanités Digitales : projet HumanitéDigitMaghreb

Data & Analytics

Projet de budget 2017 - UNIGE · Elle intègre par exemple le big data ou les humanités digitales dans ses enseignements. Elle intègre également, c’est sa ... au-delà du challenge

Introduction aux humanités numériques

aesthesisudem.files.wordpress.com · Web view2015. 6. 5. · Autres classes . Le temps des humanités digitales : la mutation des sciences humaines et sociales. sous la direction

HISTOIRE - Accueil Humanités - Faculté des Humanités

Enjeux de recherches pour les Humanités Digitales

Encoder l'oral en TEI : démarches, avantages, défis

L’option humanités théâtre Les cours

Master 2 Soin Humanités Société

Introduction à la TEI

Programme - Cours des Humanités

LBM Digital - Free Web Hosting...LBM Stage 2018 RAPPORT DE STAGE Master 1 Document Numérique et Humanités Digitales - Université BORDEAUX MONTAIGNE Firas Abdelmalek - LBM Digital

Les Humanités en Ligne_ Philosophie_ L'INTELLIGENCE

Sources et workflow : De l’encodage TEI Renaissance à l

Une introduction aux humanités numériques

Humanités numériques et littératies

TEI & Humanités digitales

La nouvelle maquette de licence Humanités

Humanités numériquesquebec

Bases de données en sciences humaines - UNIL...2 HUMANITÉS DIGITALES 7 2.1 DÉFINITION D ’UN PHÉNOMÈNE 7 2.2 HISTOIRE ET DEVENIR 8 2.3 LES PRATIQUES 9 3 BASES DE DONNÉES EN

ÉCOLE DOCTORALE Directrices Adjointes HUMANITÉS …