9
Bibliothèque nationale de France Jean-Philippe Moreux, Ourdia Djaout

Bibliothèque nationale de France - Jean-Philippe Moreux

Embed Size (px)

DESCRIPTION

Bibliothèque nationale de France presentation at "Succeed in Digitisation. Spreading Excellence" Conference. Validation and take-up of text digitisation tools.

Citation preview

Bibliothèque nationale de France Jean-Philippe Moreux, Ourdia Djaout

Bibliothèque nationale de France

• 1368 : premier inventaire de la bibliothèque royale

• 1537 : institution du dépôt légal par François 1er

• 1666 : installation de la bibliothèque à Richelieu

• 1994 : création de la Bibliothèque nationale de France

• 1995 : inauguration du bâtiment François-Mitterrand

1996-1998 ouverture au public du nouveau site

• Cinq sites ouverts au public

• Livres, périodiques, manuscrits, estampes,

photographies, affiches, cartes et plans, audiovisuel,

et aussi monnaies, médailles, maquettes, partitions,

décors et costumes de théâtre

• 3660 places dans les salles de lecture,

840 000 lecteurs en 2013

Cas d’usage : contrôle qualité OCR

Principe : comparer le document à évaluer à son document étalon (« vérité terrain ») afin de quantifier ses défauts.

Usage : marchés de numérisation (phases de test, audits), R&D

Outils : • Aletheia : création de vérité terrain • ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) • Layout Evaluation : évaluation de la qualité OCR (segmentation)

Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse)

x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis …

?

VT

Cas d’usage : contrôle qualité OCR

Usage : marchés de numérisation (phases de test, audits), R&D

Principe : comparer le document à évaluer à son document étalon (VT) afin de quantifier les défauts

Outils : • Aletheia : création de vérité terrain • ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) • Layout Evaluation : évaluation de la qualité OCR (segmentation)

Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse)

x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis …

1 ?

Aletheia (université de Salford)

• Binarisation et moteur OCR intégré

• Outils de segmentation semi-auto et

automatique, de typage des contenus…

• Outils de correction (segmentation,

texte, etc.)

• Granularité : bloc, ligne, mot, caractère

Format PAGE (et export .txt)

Cas d’usage : contrôle qualité OCR

Usage : marchés de numérisation (phases de test, audits), R&D

Principe : comparer le document à évaluer à son document étalon (VT) afin de quantifier les défauts

Outils : • Aletheia : création de vérité terrain • ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) • Layout Evaluation : évaluation de la qualité OCR (segmentation)

Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse)

?

x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis …

2

ocrevalUAtion (université d’Alicante)

• Evaluation de fichier ou de document (x fichiers)

• Formats ALTO, PAGE, FineReader, texte

• Options de périmètre : mots vides, casse,

ponctuation, accents, équivalences, zones,

?

4,3 % d’erreurs sur les caractères 11,45 % d’erreurs sur les mots

LayoutEvaluation (université de Salford)

?

• Profils d’évaluation par type d’usage

• Erreurs classées par types (omission,

fausse détection, fusion, scission,

classement erroné) et par niveaux (bloc,

ligne, mot)

0,3 % de mots omis 1,1 % de mots surdétectés 0,3 % de mots fusionnés 0,2 % de mots scindés …

Résultats d’évaluation

Evaluation

• Outils opérationnels, efficaces. Demandes d’évolution transmises aux

développeurs.

• Le contrôle qualité OCR avec VT est une activité chronophage !

Application

• Intégration des outils dans la boîte à outils Numérisation.

• Utilisation d’Alethia dans la phase de test du nouveau marché Imprimés

2014.

• Rédaction d’un guide pratique en français pour les bibliothèques partenaires.