Upload
fernandez
View
684
Download
0
Embed Size (px)
Citation preview
Autour de Google Livres
BCU – Dorigny / 11 mars 2010
Alain Jacquesson
Vers.1.00
Google / Jacquesson / Mars 2010 2
Deux pistes de réflexions
1. Les index de Google Livres
2. Les liens autour de Google Livres
Google / Jacquesson / Mars 2010 3
Les index
Google a indexé tout le Web visible
– Tous les mots de toutes les pages de toutle Web…
Un peu plus que le Web visible
– Prêt du fichier RERO, par exemple
C‘est sa qualité
C‘est sa force
Google / Jacquesson / Mars 2010 4
Mais…
Seuls ~15 % du savoir se trouvent sur
le Web,
donc ~85 % du savoir se trouvent
dans les livres
Philippe Colombet, responsable de Google Livres pour la France (Paris,BnF, janvier 2010)
Google / Jacquesson / Mars 2010 5
De plus…
Google veut numériser tous les livres
Google's Goal:
Digitize Every Book Ever Printed
Daniel Clancy, Chef du projet Livres chez Google (Déc. 2009)
Quelques chiffres…
RERO 5 millions (notices) Google Livres 12 millions (livres) BnF 14 millions (notices) Bibliothèque du Congrès 32 millions (notices) WorldCat
d’OCLC 169 millions (notices)Google / Jacquesson / Mars 2010 6
Chiffres exacts d’une bibliothèqueparticipant à Google Livres (Michigan)
Après la numérisation de 1 million de livres (janvier 2008)
25,8 kilomètres linéaires680 tonnes361 millions de pages70’000 millions d’occurrences de mots428 Langues135’000 Sujets (LCSH)
Google / Jacquesson / Mars 2010 7
Extrapolations à court terme(En février 2010 Google a numérisé 12 millions de livres)
Google / Jacquesson / Mars 2010 8
Ajouts aux index de GoogleHypothèse : 15 millions de livres numérisés
Google / Jacquesson / Mars 2010 9
Mots non-significatifs
Mots significatifs
1’050’000 millionsd’occurrences
(1 billion)
210’000 millionsd’occurrences de mots
80 %
20 %
Loi de Zipf(Vers 1920)
(Loi du moindre effort)
Google / Jacquesson / Mars 2010 10
La fréquence d’un mot est inversement proportionnelle à son rang
Distribution statistique des recherches surInternet
50 % des recherches concernent les sites30 % des recherches ordinaires (shopping,
voyages, informations médicales, etc.)
20 % des mots rares, obscurs, spécialisés,exotiques, …
----------------- Loi de Pareto ---------------------------
Google / Jacquesson / Mars 2010 11
Qui utilisent ces mots rares ?
Les chercheurs, les spécialistesVocabulaire scientifique, produits, etc.
Le Grand publicMachines disparues, lieux, etc.
Google / Jacquesson / Mars 2010 12
Distribution valable pour tous lestypes d’internautes
« Ordinary People with ExtraordinaryTastes » - pour le grand public
Vocabulaire scientifique hautementspécialisé - pour les chercheurs
Google / Jacquesson / Mars 2010 13
Distribution dite de la« Longue traîne »
Google / Jacquesson / Mars 2010 14
Quels avantages ?
Google grâce à son projet Livres peutrépondre à beaucoup plus de questionsque ses concurrents
1 % de réponses supplémentaires = 5 % de satisfaction supplémentaire « Donc je reste sur Google pour la Fat
Tail »
Google / Jacquesson / Mars 2010 15
Critiques Fat tail = forte concurrence Long tail = faible concurrence
L'avantage de Google est injuste car ses concurrentsne peuvent pas avoir accès au même corpus ; sonavance devient insurmontable
Pratiqué à cette échelle, Michael Lesk se demande sil'indexation relève encore du fair use
Google / Jacquesson / Mars 2010 16
Saint Jean d’Acre Google Livres Saint Jean Acre 457 livres
Library of Congress Acre (Israel) 64 références1
Library of Congress Acre (Syria) from old catalog 3 références
BnF Acre (Israël) 23 références
Sudoc Acre (Israël) 14 références
Rero Acre (Israël) 12 références Rero Saint Jean d'Acre 1 référence
1Y compris des descriptions iconographiques
Google / Jacquesson / Mars 2010 17
Mais…
Acre (Ville d’Israël / Syrie)
Acre (Province du Brésil)
Google ne fait pas de différence !
Google / Jacquesson / Mars 2010 18
Pierre ollaire / Stéatite RERO partout pierre ollaire 42 références RERO voc contrôlé pierre ollaire 28 références RERO partout stéatite 9 références RERO voc controlé stéatite 7 références RERO.DOC pierre ollaire 1 réf. / 5 occurrences RERO.DOC stéatite 1 réf. / 5 occurrences
SUDOC pierre ollaire 51 références SUDOC stéatite 21 références
Google Livres pierre ollaire 902 livres Google Livres stéatite 5’610 livres
Google pierre ollaire 22’000 références Google stéatite 289’000 références
Google / Jacquesson / Mars 2010 19
Et en sciences humaines… (1)
RERO partout constructivisme 396 références RERO voc contrôlé constructivisme 277 références (Note 1) RERO.DOC constructivisme 1 référence
SUDOC partout constructivisme 611 références SUDOC voc contrôlé constructivisme 2 références
BnF partout constructivisme 355 références BnF voc contrôlé constructivisme 59 références
Google Livres constructivisme 431 livres Google Livres constructivisme 1’527 occurrences
Google constructivisme 139’000 liens
Note 1 : Avantage RERO qui fait la distinction « constructivisme (philosophie) » et« constructivisme (psychologie) »
Google / Jacquesson / Mars 2010 20
Et en sciences humaines… (2)
RERO partout Faillibilisme 396 références RERO voc contrôlé Faillibilisme 277 références RERO.DOC Faillibilisme 1 référence
SUDOC partout Faillibilisme 611 références SUDOC voc contrôlé Faillibilisme 2 références
BnF partout Faillibilisme 355 références BnF voc contrôlé Faillibilisme 59 références
Google Livres Faillibilisme 295 livres Google Livres Faillibilisme 531 occurrences
Google Faillibilisme 2’050 liens
Avantage RERO
Google / Jacquesson / Mars 2010 21
Et en sciences humaines… (3)
RERO partout hypostase 19 références RERO voc contrôlé hypostase 8 références RERO.DOC hypostase 0 références
SUDOC partout hypostase 26 références SUDOC voc contrôlé hypostase 2 références
BnF partout hypostase 23 références BnF voc contrôlé hypostase 10 références
Google Livres hypostase 299 livres Google Livres hypostase 3’210 occurrences
Google hypostase 127’000 liens (Note 1)
Avantage : Google Note 1 : Wikipedia en premier, pas de publicité à placer !
Google / Jacquesson / Mars 2010 22
Pour être complet… Google Livres constructivisme 431 livres Google Livres constructivisme 80 livres affichage complet
Google Livres faillibilisme 295 livres Google Livres faillibilisme 1 livre affichage complet
Google Livres hypostase 301 livres Google Livres hypostase 365 livres affichage complet
Les derniers résultats sont incohérents : l’affichage complet doit êtreégal ou inférieur au premier total (recherche répétée plusieurs fois)
Interrogations faites le 6 mars 2010
Google / Jacquesson / Mars 2010 23
Evolution de la base de données
Août 2009 Décembre 09 Mars 2010Stendhal 5’547 4’490 5’220 RéponsesMarie Henri Beyle 331 322 345 RéponsesBeyle Marie Henri 332 333 351 RéponsesHenri Beyle 402 363 412 RéponsesBeyle Henri 401 365 412 RéponsesHenry(sic) Beyle 24 23 45 RéponsesBeyle Henry(sic) 24 23 45 Réponses
Google / Jacquesson / Mars 2010 24
Conclusion provisoire
Avec la numérisation, l’indexation des livresest passée à un stade industriel
L’indexation est désormais « autre chose »
Les bibliothèques ne pourront pas échapper àun vaste débat sur le futur de l’indexationmanuelle
Google / Jacquesson / Mars 2010 25
Les liens autour de Google Livres
Les ouvrages numérisés dans GoogleLivres ne sont pas isolés
De nombreux liens y arrivent
De nombreux liens en sortent
Google / Jacquesson / Mars 2010 26
Les liens venant du catalogue local
Google / Jacquesson / Mars 2010 27
Google Livres
VD
VD
RERO
Informations redondantes
Google / Jacquesson / Mars 2010 28
Google Livres
12 millions deLivres numérisés
RERO5 millions de notices
WorldCat/OCLC
169 millions de notices1,4 milliard de localisations
?
Liens internes à Google Livres
Google / Jacquesson / Mars 2010 29
Google Livres
Ouvrageconsulté
Liens sur des informationspropres à Google - 1
Google / Jacquesson / Mars 2010 30
Liens sur des informationspropres à Google - 2
Google / Jacquesson / Mars 2010 31
Liens venant deGoogle Scholar
Liens extérieurs à Google Livres(Internet Archive / 1.8 million de livres numérisés)
Google / Jacquesson / Mars 2010 32
Liens commerciaux
Le futur des liensVers des dictionnaires biographiques
Google / Jacquesson / Mars 2010 34
Google LivresCataloguesLoC, Rero, Sudoc, …
Notices d’autorité
DHSDictionnaire historique
de la Suisse Numérisé à Oxford le1/4/2008
Constitution de grands « blocs »d’informations contrôlées
Monographies, périodiques, brochures…Catalogues, bibliographies, listes…
– Bibliothèques, domaines spécialisés, enseignants…Dictionnaires, répertoires, recueils, lexiques
– Biographiques, géographiques, historiques,techniques, scientifiques, archéologiques, etc.
Données brutes– Astrophysiques, biologiques, géolocalisées, mais
encore juridiques (lois, règlements, jurisprudence,etc.), culturelles, etc.
Google / Jacquesson / Mars 2010 35
Mais encore des « blocs » non contrôlés
Wiki (?)– Est-ce de l’information contrôlée ?
Blogs– Grand public, spécialisés, etc.
Commerce– eBay, Abebooks, etc.– (Informations volatiles)
Google / Jacquesson / Mars 2010 36
Google / Jacquesson / Mars 2010 37
Nature des informations
Gratuites– Officielles, contrôlées, libres,
personnelles, …Payantes
– Commerciales (Elsevier, Benezit…)– Jstor, HighWire, …
Google / Jacquesson / Mars 2010 38
Dans tous les cas :des informations stables
• Des adresses permanentes• PURL – Permanent URL• URN – Uniform Resource Name• DOI – Digital Object Identifier• Handle System (Ancres)• Des résolveurs de liens
Google / Jacquesson / Mars 2010 39
Google et la gestion des liens
Un savoir faire exceptionnel sur lequelest construit initialement le moteur derecherche
Une avance énorme
Des essais dans tous les domaines
Google / Jacquesson / Mars 2010 40
L’interconnexion des savoirs
Une nouvelle étape dans le domainedes bibliothèques numériques
Les bibliothèques devront travailleravec de nouveaux acteurs
Google / Jacquesson / Mars 2010 41
Google / Jacquesson / Mars 2010 42
Google / Jacquesson / Mars 2010 43
Les futurs moteurs de recherche…
Disposeront d’un contenu hors norme
utiliseront abondamment les liens
à travers des interfaces graphiques
et interactivesGoogle / Jacquesson / Mars 2010 44
Exemple d’interface graphiquede type « Fisheye »
http://ontology.univ-savoie.fr/tricot/recherche/cs/realisations/demo/SystemFigureDesConnaissancesHumaines/EyeTree/index.php
(très peu de données)
Google / Jacquesson / Mars 2010 45
Références complémentairesAnatomy of the Long Tail: Ordinary People with Extraordinary TastesGoel, S.; Broder, A.; Gabrilovich, E.; Pang, B.WSDM (2010)http://research.yahoo.com/pub/3011
Google's Goal: Digitize Every Book Ever PrintedArlington, Virginia : Public Broadcasting Services (PBS) Newshour, Dec. 30, 2009 ; 8m35shttp://www.pbs.org/newshour/bb/entertainment/july-dec09/google_12-30.html[En anglais (américain). Avec des interviews de Daniel Clancy (Chef de projet de Google Livres), Michael Keller
(Directeur des Bibliothèques de Stanford), Garry Reback (Avocat de l'Open Book Alliance), etc. PBS estune télévision éducative indépendante].
Google / Jacquesson / Mars 2010 46
Coordonnées
Google / Jacquesson / Mars 2010 47
Alain Jacquesson9 Route de Bellebouche1246 Corsier (GE) / Suisse
Tél 0(0 41) 22 751 20 63Mail [email protected]