23
L’apport de la BnF dans le projet Pourquoi Europeana Newspapers ?

Presentation of Ioannis Anagnostopoulos at BnF Information Day

Embed Size (px)

Citation preview

Page 1: Presentation of Ioannis Anagnostopoulos at BnF Information Day

L’apport de la BnF dans le projet

Pourquoi Europeana

Newspapers ?

Page 2: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Car Europeana Newspapers nous permet…

• L’agrégation de journaux européens libres de droits issus des grands titres de la presse européenne.

• La visibilité et l’accessibilité sur le portail Europeana et sur le portail des bibliothèques partenaires.

• L’amélioration des fonctionnalités de recherche pour ce contenu grâce à l’enrichissement sémantique des données et des métadonnées relatives aux corpus traités.

Journée d’information27 novembre 2014

Page 3: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Car Europeana nous propose un point centralisé pour explorer la diversité européenne…

• Garantir un meilleur accès aux collections numérisées de presse existantes.

• Donner accès en ligne à 18 millions de pages via Europeana et TEL.

• Optimiser les processus de numérisation, dont l’OCR, ainsi que les dispositifs de reconnaissance des articles de presse (OLR).

Journée d’information27 novembre 2014

Page 4: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Partenaires

Journée d’information27 novembre 2014

Page 5: Presentation of Ioannis Anagnostopoulos at BnF Information Day

La Bibliothèque nationale de France participe avec environ 3 millions de pages

(environ 2,4 M traitées en OCR/OLR)

Contenus de la BnF

Journée d’information27 novembre 2014

Page 6: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Traitements et fonctionnalités avancées dédiées à l’amélioration de la consultation

Reconnaissance optique de caractères (OCR) – Université d’Innsbruck, Autriche

Recherche plein-texte sur corpus BnF sans OCR ou avec OCR non HQ (1,4 M pages)

Page 7: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Reconnaissance optique de la structuration et de la segmentation des articles (OLR) – CCS, Allemagne.

Traitements et fonctionnalités avancées dédiées à l’amélioration de la consultation

Consultation en mode Articles (1 M pages)

Page 8: Presentation of Ioannis Anagnostopoulos at BnF Information Day

• Identification/reconnaissance des colonnes

• Segmentation au niveau d’article (titres, sous-titres...)

• Reconnaissance de classes de page/contenu (publicités, petites annonces, tableaux, illustrations, légendes)

• Outils d’assurance qualité et de correction des résultats

OLR :

Traitements et fonctionnalités avancées dédiées à l’amélioration de la consultation

Page 9: Presentation of Ioannis Anagnostopoulos at BnF Information Day

OLR

Page 10: Presentation of Ioannis Anagnostopoulos at BnF Information Day

OLR

Page 11: Presentation of Ioannis Anagnostopoulos at BnF Information Day

OLR

Page 12: Presentation of Ioannis Anagnostopoulos at BnF Information Day

OLR

Page 13: Presentation of Ioannis Anagnostopoulos at BnF Information Day

OLR

Page 14: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Reconnaissance des entités nommées (REN)

• Sous-tâche de l’activité d’extraction d’information dans des corpus documentaires :

• Rechercher et identifier un certain nombre d’objets textuels (un mot ou un groupe de mots) présents dans des corpus documentaires.

• Catégorisables dans des classes telles que noms de personnes, noms d'organisations (institutions,entreprises, sociétés…) et noms de lieux (pays, ville, site…).

• Eventuellement alignés sur des référentiels d’autorités.

Traitements et fonctionnalités avancées dédiées à l’amélioration de la consultation

Partenaires scientifiques et techniques :

• KB (GE, NE)

• UPMC/LIP6 pour le français

Page 15: Presentation of Ioannis Anagnostopoulos at BnF Information Day

REN et Europeana Newspapers

• Concevoir, développer et appliquer un modèle pour la REN en français.

• Réfléchir aux cas d’usage pour l’amélioration des fonctionnalités de consultation et de présentation à l’intention des usagers d’Europeana et des bibliothèques nationales :

• Moteur de recherche sémantique

• Web sémantique

• Alignement avec des référentiels internationaux pour la recherche d’information multilingue

REN appliquée sur 100-500 K pages)

Page 16: Presentation of Ioannis Anagnostopoulos at BnF Information Day

•16

Entités nommées : comment les décrire ?

• Format externe (BIO, bases de données)

• TEI

• METS

• ALTO

• Europeana Newspapers a choisi d’utiliser le mécanisme d’étiquetage disponible dans ALTO v2.1.

Page 17: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Le format METS/ALTO nous offre…

• Données descriptives et techniques.• Informations sur le contenu et la disposition

physique de la page (segmentation).

• Description de la publication globale : MD bibliographiques, techniques, administratives.

• Informations/description de la structure logique du fascicule (TDM).

• Liens logiques entre TDM et blocs ALTO de texte/articles

ALTO

METS

Page 18: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Europeana Newspapers : un profil METS/ALTO dédié à la numérisation de la presse (ENMAP)

• Articulation autour de trois concepts : section, élément de contenu (« article »), élément de structure.

• Modèle adapté aux contenus presse.

• Classification des types de contenu (information, opinion, divertissement, publicité, métadonnée).

Alimenter la réflexion sur la problématique structuration minimale (article = titre + texte) vs. structuration riche

Page 19: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Europeana Newspapers : un profil METS/ALTO dédié à la numérisation de la presse (ENMAP)

Outillé par :• la documentation du modèle,• une application de structuration

(UIBK) :• test et validation d’un modèle

de structuration (lancement de projets de numérisation),

• visualisation de contenus (QA)• conversion entre formats• production pour projets

de petite taille

Publication finale du format en fin de projet (janvier 2015)

Page 20: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Europeana Newspapers : valorisation

Améliorer la recherche et l’accès au contenu

• Profiter de la structuration en articles individuels, avec table de navigation

• Utiliser le typage des contenus pour affiner la recherche (filtres)• Valoriser les entités nommées via des outils sémantiques (data.bnf.fr,

Exalead) ou d’autres services spécialisés

Enjeux autour du format et valorisation des contenus

• Le profil METS/ALTO ENMAP fournit un modèle viable pour le partage et l’échange de contenus de presse.

• La structuration avancée qu’il autorise facilite la réexploitation des contenus pour d’autres usages ou vers d’autres formats.

Page 21: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Europeana Newspapers : valorisation

www.theeuropeanlibrary.org/tel4/newspapers

Page 22: Presentation of Ioannis Anagnostopoulos at BnF Information Day

Les bénéfices pour la BnF…

• Améliorer l’OCR et utiliser des outils d’évaluation/correction : définition de nouvelles recommandations (futurs marchés).

• Contribuer aux travaux de convergence vers l’utilisation du profil ENMAP METS/ALTO.

• Enrichir les fonctionnalités de recherche et de consultation en mode texte/article pour les journaux sur Gallica.

• Attirer plus de visiteurs sur Gallica avec des contenus enrichis et liés à d’autres corpus.

• Alimenter d’autres vecteurs de diffusion avec ces contenus enrichis : data.bnf.fr

Page 23: Presentation of Ioannis Anagnostopoulos at BnF Information Day

merci de votre attention!