47
Autour de Google Livres BCU – Dorigny / 11 mars 2010 Alain Jacquesson Vers.1.00

2010 BCU Google

Embed Size (px)

Citation preview

Page 1: 2010 BCU Google

Autour de Google Livres

BCU – Dorigny / 11 mars 2010

Alain Jacquesson

Vers.1.00

Page 2: 2010 BCU Google

Google / Jacquesson / Mars 2010 2

Deux pistes de réflexions

1. Les index de Google Livres

2. Les liens autour de Google Livres

Page 3: 2010 BCU Google

Google / Jacquesson / Mars 2010 3

Les index

Google a indexé tout le Web visible

– Tous les mots de toutes les pages de toutle Web…

Un peu plus que le Web visible

– Prêt du fichier RERO, par exemple

C‘est sa qualité

C‘est sa force

Page 4: 2010 BCU Google

Google / Jacquesson / Mars 2010 4

Mais…

Seuls ~15 % du savoir se trouvent sur

le Web,

donc ~85 % du savoir se trouvent

dans les livres

Philippe Colombet, responsable de Google Livres pour la France (Paris,BnF, janvier 2010)

Page 5: 2010 BCU Google

Google / Jacquesson / Mars 2010 5

De plus…

Google veut numériser tous les livres

Google's Goal:

Digitize Every Book Ever Printed

Daniel Clancy, Chef du projet Livres chez Google (Déc. 2009)

Page 6: 2010 BCU Google

Quelques chiffres…

RERO 5 millions (notices) Google Livres 12 millions (livres) BnF 14 millions (notices) Bibliothèque du Congrès 32 millions (notices) WorldCat

d’OCLC 169 millions (notices)Google / Jacquesson / Mars 2010 6

Page 7: 2010 BCU Google

Chiffres exacts d’une bibliothèqueparticipant à Google Livres (Michigan)

Après la numérisation de 1 million de livres (janvier 2008)

25,8 kilomètres linéaires680 tonnes361 millions de pages70’000 millions d’occurrences de mots428 Langues135’000 Sujets (LCSH)

Google / Jacquesson / Mars 2010 7

Page 8: 2010 BCU Google

Extrapolations à court terme(En février 2010 Google a numérisé 12 millions de livres)

Google / Jacquesson / Mars 2010 8

Page 9: 2010 BCU Google

Ajouts aux index de GoogleHypothèse : 15 millions de livres numérisés

Google / Jacquesson / Mars 2010 9

Mots non-significatifs

Mots significatifs

1’050’000 millionsd’occurrences

(1 billion)

210’000 millionsd’occurrences de mots

80 %

20 %

Page 10: 2010 BCU Google

Loi de Zipf(Vers 1920)

(Loi du moindre effort)

Google / Jacquesson / Mars 2010 10

La fréquence d’un mot est inversement proportionnelle à son rang

Page 11: 2010 BCU Google

Distribution statistique des recherches surInternet

50 % des recherches concernent les sites30 % des recherches ordinaires (shopping,

voyages, informations médicales, etc.)

20 % des mots rares, obscurs, spécialisés,exotiques, …

----------------- Loi de Pareto ---------------------------

Google / Jacquesson / Mars 2010 11

Page 12: 2010 BCU Google

Qui utilisent ces mots rares ?

Les chercheurs, les spécialistesVocabulaire scientifique, produits, etc.

Le Grand publicMachines disparues, lieux, etc.

Google / Jacquesson / Mars 2010 12

Page 13: 2010 BCU Google

Distribution valable pour tous lestypes d’internautes

« Ordinary People with ExtraordinaryTastes » - pour le grand public

Vocabulaire scientifique hautementspécialisé - pour les chercheurs

Google / Jacquesson / Mars 2010 13

Page 14: 2010 BCU Google

Distribution dite de la« Longue traîne »

Google / Jacquesson / Mars 2010 14

Page 15: 2010 BCU Google

Quels avantages ?

Google grâce à son projet Livres peutrépondre à beaucoup plus de questionsque ses concurrents

1 % de réponses supplémentaires = 5 % de satisfaction supplémentaire « Donc je reste sur Google pour la Fat

Tail »

Google / Jacquesson / Mars 2010 15

Page 16: 2010 BCU Google

Critiques Fat tail = forte concurrence Long tail = faible concurrence

L'avantage de Google est injuste car ses concurrentsne peuvent pas avoir accès au même corpus ; sonavance devient insurmontable

Pratiqué à cette échelle, Michael Lesk se demande sil'indexation relève encore du fair use

Google / Jacquesson / Mars 2010 16

Page 17: 2010 BCU Google

Saint Jean d’Acre Google Livres Saint Jean Acre 457 livres

Library of Congress Acre (Israel) 64 références1

Library of Congress Acre (Syria) from old catalog 3 références

BnF Acre (Israël) 23 références

Sudoc Acre (Israël) 14 références

Rero Acre (Israël) 12 références Rero Saint Jean d'Acre 1 référence

1Y compris des descriptions iconographiques

Google / Jacquesson / Mars 2010 17

Page 18: 2010 BCU Google

Mais…

Acre (Ville d’Israël / Syrie)

Acre (Province du Brésil)

Google ne fait pas de différence !

Google / Jacquesson / Mars 2010 18

Page 19: 2010 BCU Google

Pierre ollaire / Stéatite RERO partout pierre ollaire 42 références RERO voc contrôlé pierre ollaire 28 références RERO partout stéatite 9 références RERO voc controlé stéatite 7 références RERO.DOC pierre ollaire 1 réf. / 5 occurrences RERO.DOC stéatite 1 réf. / 5 occurrences

SUDOC pierre ollaire 51 références SUDOC stéatite 21 références

Google Livres pierre ollaire 902 livres Google Livres stéatite 5’610 livres

Google pierre ollaire 22’000 références Google stéatite 289’000 références

Google / Jacquesson / Mars 2010 19

Page 20: 2010 BCU Google

Et en sciences humaines… (1)

RERO partout constructivisme 396 références RERO voc contrôlé constructivisme 277 références (Note 1) RERO.DOC constructivisme 1 référence

SUDOC partout constructivisme 611 références SUDOC voc contrôlé constructivisme 2 références

BnF partout constructivisme 355 références BnF voc contrôlé constructivisme 59 références

Google Livres constructivisme 431 livres Google Livres constructivisme 1’527 occurrences

Google constructivisme 139’000 liens

Note 1 : Avantage RERO qui fait la distinction « constructivisme (philosophie) » et« constructivisme (psychologie) »

Google / Jacquesson / Mars 2010 20

Page 21: 2010 BCU Google

Et en sciences humaines… (2)

RERO partout Faillibilisme 396 références RERO voc contrôlé Faillibilisme 277 références RERO.DOC Faillibilisme 1 référence

SUDOC partout Faillibilisme 611 références SUDOC voc contrôlé Faillibilisme 2 références

BnF partout Faillibilisme 355 références BnF voc contrôlé Faillibilisme 59 références

Google Livres Faillibilisme 295 livres Google Livres Faillibilisme 531 occurrences

Google Faillibilisme 2’050 liens

Avantage RERO

Google / Jacquesson / Mars 2010 21

Page 22: 2010 BCU Google

Et en sciences humaines… (3)

RERO partout hypostase 19 références RERO voc contrôlé hypostase 8 références RERO.DOC hypostase 0 références

SUDOC partout hypostase 26 références SUDOC voc contrôlé hypostase 2 références

BnF partout hypostase 23 références BnF voc contrôlé hypostase 10 références

Google Livres hypostase 299 livres Google Livres hypostase 3’210 occurrences

Google hypostase 127’000 liens (Note 1)

Avantage : Google Note 1 : Wikipedia en premier, pas de publicité à placer !

Google / Jacquesson / Mars 2010 22

Page 23: 2010 BCU Google

Pour être complet… Google Livres constructivisme 431 livres Google Livres constructivisme 80 livres affichage complet

Google Livres faillibilisme 295 livres Google Livres faillibilisme 1 livre affichage complet

Google Livres hypostase 301 livres Google Livres hypostase 365 livres affichage complet

Les derniers résultats sont incohérents : l’affichage complet doit êtreégal ou inférieur au premier total (recherche répétée plusieurs fois)

Interrogations faites le 6 mars 2010

Google / Jacquesson / Mars 2010 23

Page 24: 2010 BCU Google

Evolution de la base de données

Août 2009 Décembre 09 Mars 2010Stendhal 5’547 4’490 5’220 RéponsesMarie Henri Beyle 331 322 345 RéponsesBeyle Marie Henri 332 333 351 RéponsesHenri Beyle 402 363 412 RéponsesBeyle Henri 401 365 412 RéponsesHenry(sic) Beyle 24 23 45 RéponsesBeyle Henry(sic) 24 23 45 Réponses

Google / Jacquesson / Mars 2010 24

Page 25: 2010 BCU Google

Conclusion provisoire

Avec la numérisation, l’indexation des livresest passée à un stade industriel

L’indexation est désormais « autre chose »

Les bibliothèques ne pourront pas échapper àun vaste débat sur le futur de l’indexationmanuelle

Google / Jacquesson / Mars 2010 25

Page 26: 2010 BCU Google

Les liens autour de Google Livres

Les ouvrages numérisés dans GoogleLivres ne sont pas isolés

De nombreux liens y arrivent

De nombreux liens en sortent

Google / Jacquesson / Mars 2010 26

Page 27: 2010 BCU Google

Les liens venant du catalogue local

Google / Jacquesson / Mars 2010 27

Google Livres

VD

VD

RERO

Page 28: 2010 BCU Google

Informations redondantes

Google / Jacquesson / Mars 2010 28

Google Livres

12 millions deLivres numérisés

RERO5 millions de notices

WorldCat/OCLC

169 millions de notices1,4 milliard de localisations

?

Page 29: 2010 BCU Google

Liens internes à Google Livres

Google / Jacquesson / Mars 2010 29

Google Livres

Ouvrageconsulté

Page 30: 2010 BCU Google

Liens sur des informationspropres à Google - 1

Google / Jacquesson / Mars 2010 30

Page 31: 2010 BCU Google

Liens sur des informationspropres à Google - 2

Google / Jacquesson / Mars 2010 31

Liens venant deGoogle Scholar

Page 32: 2010 BCU Google

Liens extérieurs à Google Livres(Internet Archive / 1.8 million de livres numérisés)

Google / Jacquesson / Mars 2010 32

Page 33: 2010 BCU Google

Liens commerciaux

Page 34: 2010 BCU Google

Le futur des liensVers des dictionnaires biographiques

Google / Jacquesson / Mars 2010 34

Google LivresCataloguesLoC, Rero, Sudoc, …

Notices d’autorité

DHSDictionnaire historique

de la Suisse Numérisé à Oxford le1/4/2008

Page 35: 2010 BCU Google

Constitution de grands « blocs »d’informations contrôlées

Monographies, périodiques, brochures…Catalogues, bibliographies, listes…

– Bibliothèques, domaines spécialisés, enseignants…Dictionnaires, répertoires, recueils, lexiques

– Biographiques, géographiques, historiques,techniques, scientifiques, archéologiques, etc.

Données brutes– Astrophysiques, biologiques, géolocalisées, mais

encore juridiques (lois, règlements, jurisprudence,etc.), culturelles, etc.

Google / Jacquesson / Mars 2010 35

Page 36: 2010 BCU Google

Mais encore des « blocs » non contrôlés

Wiki (?)– Est-ce de l’information contrôlée ?

Blogs– Grand public, spécialisés, etc.

Commerce– eBay, Abebooks, etc.– (Informations volatiles)

Google / Jacquesson / Mars 2010 36

Page 37: 2010 BCU Google

Google / Jacquesson / Mars 2010 37

Page 38: 2010 BCU Google

Nature des informations

Gratuites– Officielles, contrôlées, libres,

personnelles, …Payantes

– Commerciales (Elsevier, Benezit…)– Jstor, HighWire, …

Google / Jacquesson / Mars 2010 38

Page 39: 2010 BCU Google

Dans tous les cas :des informations stables

• Des adresses permanentes• PURL – Permanent URL• URN – Uniform Resource Name• DOI – Digital Object Identifier• Handle System (Ancres)• Des résolveurs de liens

Google / Jacquesson / Mars 2010 39

Page 40: 2010 BCU Google

Google et la gestion des liens

Un savoir faire exceptionnel sur lequelest construit initialement le moteur derecherche

Une avance énorme

Des essais dans tous les domaines

Google / Jacquesson / Mars 2010 40

Page 41: 2010 BCU Google

L’interconnexion des savoirs

Une nouvelle étape dans le domainedes bibliothèques numériques

Les bibliothèques devront travailleravec de nouveaux acteurs

Google / Jacquesson / Mars 2010 41

Page 42: 2010 BCU Google

Google / Jacquesson / Mars 2010 42

Page 43: 2010 BCU Google

Google / Jacquesson / Mars 2010 43

Page 44: 2010 BCU Google

Les futurs moteurs de recherche…

Disposeront d’un contenu hors norme

utiliseront abondamment les liens

à travers des interfaces graphiques

et interactivesGoogle / Jacquesson / Mars 2010 44

Page 45: 2010 BCU Google

Exemple d’interface graphiquede type « Fisheye »

http://ontology.univ-savoie.fr/tricot/recherche/cs/realisations/demo/SystemFigureDesConnaissancesHumaines/EyeTree/index.php

(très peu de données)

Google / Jacquesson / Mars 2010 45

Page 46: 2010 BCU Google

Références complémentairesAnatomy of the Long Tail: Ordinary People with Extraordinary TastesGoel, S.; Broder, A.; Gabrilovich, E.; Pang, B.WSDM (2010)http://research.yahoo.com/pub/3011

Google's Goal: Digitize Every Book Ever PrintedArlington, Virginia : Public Broadcasting Services (PBS) Newshour, Dec. 30, 2009 ; 8m35shttp://www.pbs.org/newshour/bb/entertainment/july-dec09/google_12-30.html[En anglais (américain). Avec des interviews de Daniel Clancy (Chef de projet de Google Livres), Michael Keller

(Directeur des Bibliothèques de Stanford), Garry Reback (Avocat de l'Open Book Alliance), etc. PBS estune télévision éducative indépendante].

Google / Jacquesson / Mars 2010 46

Page 47: 2010 BCU Google

Coordonnées

Google / Jacquesson / Mars 2010 47

Alain Jacquesson9 Route de Bellebouche1246 Corsier (GE) / Suisse

Tél 0(0 41) 22 751 20 63Mail [email protected]