Upload
ngothien
View
217
Download
0
Embed Size (px)
Citation preview
TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES Innover ensemble pour et avec les chercheurs et les enseignants
TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES
Intervenants : Julien Roche, ADBU Didier Alexandre, Labex OBVIL Valérie Beaudouin, Télécom ParisTech Valérie Tesnière, BDIC Jean-Philippe Moreux, département de la Conservation (BnF)
Animateurs : Emmanuelle Bermès et Thierry Pardé, BnF
Source Gallica.bnf.fr 6-8-23, plage de Deauville [avec enfants creusant dans le
sable] : [photographie de presse] / [Agence Rol]
1E PARTIE : LA FOUILLE DE DONNÉES, QU’EST-CE QUE C’EST ?
Source Gallica.bnf.fr On creuse hâtivement des tranchées [crète de Vimy, Pas-de-Calais, avril
1917, soldats britanniques] : [photographie de presse] / [Agence Rol]
#JPAC16 - TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES
2E PARTIE : LA FOUILLE DE DONNÉES, QUELS RÉSULTATS ?
Source mandragore.bnf.fr Français 12322, fol. 121v, Extraction de l'or
#JPAC16 - TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES
Extraction des métadonnées
Identification des nœuds et des liens
Chaine de
traitement
Agrégation Filtrage
Délimiter Interpréter et représenter
Traiter
Webmining
identification des sites + archivage
Le point de vue des acteurs sur la carte (entretiens qualitatifs)
Analyse du contenu des sites
Archives du Web (BnF-DLWeb) Collecte dédiée
Data et Textmining : Forum Pages 14-18 - janv 2015
Corpus Analyser et interpréter
Traiter
10 années d’échanges 400 000 messages 15 000 inscrits 60 rubriques Quelles activités ? Quelle place pour les documents ?
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
Citation demessages
Citations texte
Lien
Image
Extraction : - Métadonnées des messages (locuteur, date, rubrique, sujet…) - Citations (document, image…)
Terrain qualitatif
- Entretiens avec des participants - Analyse manuelle de fils de discussion
FOUILLER LA PRESSE NUMÉRISÉE
Pourquoi ? Premier média de masse (abondant, universel) Central pour l’étude des XIXe et XXe siècles En écho à notre ère d’abondance
informationnelle
Des singularités « Flot » documentaire multicentenaire (certains titres) Forme homogène (parfois complexe : 7 colonnes à la une) Contenu composite (genres, discours, thèmes…)
Premier média de masse (abondant, universel)
En Europe : 150 M pages déjà numérisées, 1% - 10% des collections ?
Jean-Philippe Moreux, département de la Conservation (BnF)
LE DÉFI DU VOLUME : LE PARADOXE DE L’ABONDANCE Gérer le chaos : peu de métadonnées, beaucoup de texte (bruité) Sélectionner le périmètre : extraire une rubrique/genre/thème
de documents non structurés est un challenge technique
« La rubrique boursière, 1801-1870 » « Les feuilletons littéraires du XIXe »
La rubrique boursière, 1801
Collection numérique
?
RÉVOLUTIONS EN SÉRIE De l’image au document restructuré, du feuilletage
d’un numéro à la fouille de données
De l’œil au plein texte puis aux algorithmes (analyse d’images et de documents, analyse statistique, TAL, modélisation des textes, visualisation de données…)
feuilleter, dépouiller
chercher par mot-clé analyser, inférer,
synthétiser, réduire, visualiser…
EXEMPLE 1 : FOUILLER LES TEXTES ET LES DONNÉES Analyse des discours et des auteurs, circulation de
l’information, sociologie financière, histoire du journalisme…
avec outils de TAL, analyse statistique, visualisation de données
Thèse en sciences de l’information et de la communication, Pierre-Carl Langlais, 2015
La formation de la chronique boursière dans la presse quotidienne française
EXEMPLE 2 : FOUILLER LES TEXTES Viralité et mobilité des contenus journalistiques :
reprise, reprint, « plagiat », dépêches d’agence…
Identification des passages communs
Réseaux de viralité (entre titres de presse, géographiques)
Motifs temporels
Ryan Cordell, Northeastern University (Boston), 2015. https://viraltexts.org
Viral Texts Project, Mapping Networks of Reprinting in 19th-Century Newspapers and Magazines
EXEMPLE 3 : FOUILLER LES MÉTADONNÉES QUANTITATIVES Naviguer autrement dans la collection numérique :
visualisation de données pour les chercheurs (et les autres)
Naviguer dans un titre grâce à sa densité en mots
changements de format de papier et de mise en page
suppléments illustrés illustrés
censure de la presse (14-18)
Lecture distante : du macro au micro J-P Moreux, projet Europeana Newspapers/BnF
http://altomator.github.io/EN-data_mining
Fouiller les métadonnées de la presse
papier et de mise
3E PARTIE : QUELLE PLACE DANS LA RELATION ENTRE BIBLIOTHÈQUES ET CHERCHEURS, ET PLUS LARGEMENT DANS LA RELATION AUX PUBLICS ?
Source Gallica.bnf.fr / Rosalis, Bibliothèque numérique de Toulouse Vue du Hourat au chemin creusé dans les Rochers , chemin des Eaux-chaudes (Basses Pyrénées) - 1827
#JPAC16 - TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES