Upload
urfist-de-rennes
View
7.064
Download
2
Embed Size (px)
DESCRIPTION
Support d'un stage Urfist sur l'exploration de Google : puissance, stratégies, aspects critiques, fonctionnalités, modules...
Citation preview
Outils de recherche du web :approfondir Google
Stage URFIST de Rennes
18 mai 2010
Animé par Marie-Laure Malingre
© URFIST de Rennes, 2009 2
PLAN 1ère partie : Mieux connaître Google pour mieux
le questionner : Repères historiques, économiques, techniques… sur
la puissance de Google Fonctionnement technique Stratégie et innovations récentes Google et les données personnelles Questionnements critiques
2ème partie : Mieux exploiter les fonctionnalités et services de Google
© URFIST de Rennes, 2009 3
1.1 Quelques ressources sur Google Annuaire spécialisé :
Google’ World Blogs :
The Official Google Blog Zorgloob : 2004 Google XXL : mai 2007 Blog
du MIP sur l’innovation et sur Google: janvier 2009
Sites spécialisés: WebRankInfo :
dossiers sur Google
Livres : Ippolita. La face cachée de
Google, Payot, 2008 L’Entonnoir. Google
sous la loupe.. C&F Diaporamas :
FaberNovel.Tout savoir de Google
Voir aussi la Sélection de ressources sur les outils de recherche de l’URFIST de Rennes
© URFIST de Rennes, 2009 4
1.2 Repères chronologiques Origines :
1996 : projet de recherche BackRub, de Sergey Brin et Larry Page (en PhD à Stanford) : méthode d'analyse des liens pointant vers un site web.
Naissance le 7 septembre 1998, à Stanford, de la start-up Google
Le nom : dérivé du mot «googol » , nombre gigantesque (un 1 suivi de 100 zéros...).
Contexte : recherche d’information dominée par Alta Vista, Yahoo, HotBot, Lycos…
Quelques étapes : 1999 : de 500 000 à 3 millions
requêtes par jour 2000 :
premières publicités contextuelles, moteur de recherche le plus complet au monde : un demi-milliard de pages Web ; déjà 100 millions de requêtes par jour
2001 : Rachat de Deja.com et de
l'archivage de Usenet, création de Google Groups ; lancement de Images Search; indexation de nouveaux formats de fichiers sensibles (.doc; .xls, .ppt...)
Fin 2001 : 3 milliards de pages
© URFIST de Rennes, 2009 5
1.2 Repères chronologiques 2002 :
Lancement du modèle publicitaire des AdWords ; lancement officiel de Google News, indexant plus de 4000 sites de médias ; Fin 2002 : 250 millions de requêtes journalières
2003 :Rachat de plusieurs sociétés : Applied Semantics :
technologie de mots-clés Blogger : édition de blogs Sprinks : publicité
contextuelle Programme publicitaire
AdSense
2004 : Recherche localisée avec
Google Local. Gmail, service de webmail
gratuit Introduction en Bourse,
envolée boursière Picasa, gestion des photos
numériques Google Desktop,
indexation des disques durs
Novembre : doublement de l’index : de 4,3 milliards à 8,1 millards de pages
Google Scholar
http://www.journaldunet.com/dossiers/google/historique.shtml
© URFIST de Rennes, 2009 6
1.2 Repères chronologiques 2005 :
Lancement de : Google Video, Google Maps, Google Earth, Google Talk
Annonce de Google Print et de la numérisation des livres
Recrutement de Vinton Cerf, l’un des « pères d’Internet »
Augmentation de l’action Google de 117 % en un an
Fin 2005 : 1 milliard de requêtes journalières !
2006 : Lancement de Google.cn
en Chine, avec une censure des résultats
Rachat de Writely, qui deviendra Google Docs & Spreadsheets en octobre
Lancement de plusieurs applications : Google Calendar, Co-Op, Trends, Apps...
Septembre : procès et condamnation de Google Belgique face aux éditeurs de presse belges
Automne : Google News Archives, rachat de You Tube
© URFIST de Rennes, 2009 7
1.2 Repères chronologiques
2007 : Rachat de DoubleClick,
pour $ 3,1 Mds ; Juin : lancement de la
recherche universelle Août : extension de
Google Earth au ciel avec Google Sky
Automne : 1 million de livres numérisés, 27 partenaires pour Google Books
2008 : Mars : annonce de Google
Health, le dossier médical personnel en ligne
Juin : partenariat avec Yahoo pour le partage du marché publicitaire
Juillet : Google à 70 % du trafic aux USA, 82 % en France (cf Abondance)
Septembre : lancement du navigateur Google Chrome, et de GAUDI, portail de recherche audio
Pour une chronologie détaillée, voir Google 10th Birthday
© URFIST de Rennes, 2009 8
1.2 Repères chronologiques 2009 :
Janvier : Google connaît la crise : licenciements, fermetures…
Février : lancement de Google Latitude, service de géolocalisation sur téléphone mobile
Mai : lancement de Google Wave, plateforme centralisée de communication (cf Zorgloob)
Août : annonce de négociation entre Google et la BNF pour la numérisation des fonds
Septembre : lancement de SideWiki
Octobre : Partenariat avec Twitter,
indexation des tweets Recherche en temps réel :
Twitter, Facebook,MySpace, FrienFeed, Jaiku
lancement de Google Social Search, moteur de recherche social
Novembre : Google Street View au
Mexique, 15ème pays couvert (sur 33)
Lancement de Google DashBoard
Accord Google-éditeurs américains
© URFIST de Rennes, 2009 9
1.2 Repères chronologiques Quelques événements
depuis le début 2010 : Lancement de Google Buzz
Brevet de Google sur l’indexation basée sur l’analyse de phrase
Lancement de Jazz, une nouvelle interface pour la page de résultats
Extension de Google Street View tout le Royaume Uni ;
nouvelles vues au Japon et aux Pays-Bas ; Norvège, Finlande, Danemark, Suède ; premiers clichés de Macao et Hong-Kong; accord trouvé avec la Suisse
Fin de Search Wiki / intégration avec Google Bookmarks
Google comme FAI (fibrer entre 50 000 et 500 000 foyers américains)
Google reader : création de flux RSS à la volée
Google Docs : envoi et partage de n’importe quel type de fichier
3D sur Google Maps + Google Places
© URFIST de Rennes, 2009 10
1.3 Gigantisme de Google
Puissance de Google : Position monopolistique Stratégie de puissance
Tous les domaines investis par « l’ogre de Mountain View », « le maître de l’internet »
De multiples positionnements (Applications / Services + maîtrise des aspects réseaux) Moteur, FAI, Constructeur, Editeur, Navigateur, Plateforme de
services, Média … Plateforme complète d’accès à l’information Mais décisions récentes :
Abandon d’applications non totalement satisfaisantes Recentrage sur la recherche
© URFIST de Rennes, 2009 11
1.3 Gigantisme de Google
Puissance technique Puissance politique
Puissance humainePuissance d’innovation
Puissance économiquePuissance financière
© URFIST de Rennes, 2009 12
1.3 Gigantisme de Google : puissance financière
Evolution des revenus Google de 2005 à T1 2010 selon WebRankInfo
© URFIST de Rennes, 2009 13
1.3 Gigantisme de Google : puissance financière
Un poids financier considérable :
Des résultats financiers toujours positifs 1er trimestre 2010 : 6,7 Mrds $ de revenus (5,9 Mrds $ au T4 2009) Augmentation de 23 % par rapport au même trimestre en 2009
Des réserves de trésorerie au plus haut 26,5 Mrds $ au 31/03/2010 (+2Mds depuis fin 2009)
Quelques signes d’essoufflement ?
Ralentissement de sa croissance Fluctuations de l’action Google (-13% depuis le début de
l’année)
Une présence forte Liste des acquisitions / Dossier WebRankinfo
Derniers chiffres Google
© URFIST de Rennes, 2009 14
1.3 Gigantisme de Google : puissance financière
Adwords Emplacements publicitaires
dans les pages de résultats de Google, avec des liens vers les sites annonceurs, en fonction des mots clés saisis par l’internaute et achetés par l’annonceur.
Revenus Adwords / 1er trimestre 2010 4 Mrds $ = 65,5 % des revenus
Adsense Liens publicitaires sur des
sites affiliés à Google et choisis automatiquement en fonction du contenu et du contexte de la page + des requêtes
Revenus Adsense / 1er trimestre 2010 2,04 Mrds $ = 30,1% des
revenus
Google n° 1 mondial des liens sponsorisés
Chiffres 1er trimestre 2010 : Publicité = 95,6% de son CA Extension à de nouveaux modules (News, Maps, vidéos
YouTube…) et développement de la publicité hors web
© URFIST de Rennes, 2009 15
1.3 Gigantisme de Google : puissance humaine
Puissance humaine : 20 621 employés à
temps plein contre 19 665 au
30/09/2009 et 15916 en septembre 2007
Suppression de postes réduction du rythme des embauches en 2009
Orientation vers un recrutement ciblé et ajusté
© URFIST de Rennes, 2009 16
1.3 Gigantisme de Google : puissance économique
USA : Parts de visite Google.com : 65,1 % en mars 2010(source : Comscore)
France : Parts de visite pour Google.fr : 90,2 % en avril 2010(source : Baromètre Xiti)
Place de Google sur le marché des moteurs
© URFIST de Rennes, 2009 17
1.3 Gigantisme de Google : domination des usages Fréquentation de Google
Large prédominance de l’usage de Google Croissance régulière des requêtes effectuées sur
environ 500 millions de visiteurs uniques mensuels sur l'ensemble des sites de Google
au moins 2,5 milliards de requêtes par jour sur l'ensemble des sites de Google (juillet 2009)
En Europe, 8 requêtes sur 10 passent par Google
Source : WebRankinfo
© URFIST de Rennes, 2009 18
1.3 Gigantisme de Google : domination des usages
Source : http://www.accessoweb.com/
Etc.
Google : l’outil universel
Voir aussi : Google, produits et chiffres en une seule image
© URFIST de Rennes, 2009 19
1.3 Gigantisme de Google : puissance d’innovation
Nombreux projets de recherche, tous azimuts 171 produits et services
Google, un acteur protéiforme :
Fournisseur d’applications Web Google App Engine : création d’un
espace dédié pour la mise en ligne d’applications web
Opérateur de téléphonie mobile : 22 octobre 2008 : sortie de G1, 1er
Google phone Androïd
Acteur dans le domaine satellitaire, de la cartograpie et de la géolocalisation Google Maps, Street View satellites de Google
Google et la santé : Google Health : Service de recherche
spécialisé en Santé Cartographie du génome humain
Google éditeur de logiciels : Voir Google Pack
Google Google constructeur d’ordinateurs, de système d’exploitation et de langage de programmation
…
Question de la nature de Google : Moteur de recherche, média, et
plus...
© URFIST de Rennes, 2009 20
1.3 Gigantisme de Google : puissance d’innovation
Bureautique
Téléphonie
Réseaux sociaux Publicité
Cartographie
Recherche d’information / veille
Navigation web
Bibliothèques numériques
E-commerce
Création de contenus web
Voir à ce sujet Wikipedia et WebRankinfo
Personnalisation
Analyse et statistiques webSystème d’exploitationLogiciels
© URFIST de Rennes, 2009 21
1.3 Gigantisme de Google : puissance technique
Rôle-clé de l’infrastructure technique chez Google : Quantités gigantesques de
données à traiter : Index de plusieurs
centaines de milliards de pages ...
Nécessité de : Capacité de stockage : > 850
téraoctets Puissance de calcul : 600
teraflops (10 fois plus que Columbia, l'ordinateur le plus puissant de la NASA)
Solution adoptée : “Racks” de 88
ordinateurs plutôt que des gros serveurs
Au total : plus de deux millions de machines
Les Google Data Centers : Regroupement des milliers
d’ordinateurs hébergeant l’index de Google dans des centres de données
Plus de 60 Data Centers, pour la plupart aux USA et en Europe
Voir Chiffres-clé sur WebRankInfo
© URFIST de Rennes, 2009 22
1.4 Repères techniques : le référencement
Deux modes de référencement : Automatiquement :
Attendre le passage du robot Google Bot
Manuellement : Remplir le formulaire
d’envoi de contenu
Toujours bien veiller au référencement
Quelques règles simples : Soigner le
titre des pages (balise Title)
Présence de nombreux liens externes de qualité
Mises à jour régulières Mots-clés dans les URL … (voir sur WebRankinfo
)
© URFIST de Rennes, 2009 23
1.4 Repères techniques : le robot collecteur, Google Bot
Le robot GoogleBot : Visite les pages web
signalées ou non Délais : entre 12 h et 1
mois, selon le nombre de liens vers la page
Suivi des liens Première analyse de la
page : mots, balises HTML…
« Prime de fraîcheur » : apparition sur Google mais pas encore de PageRank
Voir Le système de crawl...
Fréquence des visites de GoogleBot : Selon le PageRank de la
page Le cache de Google :
Après chaque collecte et indexation de document, version du document stockée sur les milliers de serveurs : Version cache du document Correspond à la version du
document au moment du passage du robot
© URFIST de Rennes, 2009 24
1.4 Repères techniques : le classement, le PageRank Nombreux critères de
classement Texte, balises, URL…
Le PageRank : Calcul des liens
entrants et sortants Calcul de l’indice de
popularité de la pagehttp://
www.webrankinfo.com/google/pagerank/pagerank.php
Classement des pages par combinaison de plusieurs facteurs
Deux niveaux de pondération : 1ère pondération plus forte :
des « pages pivots » : listes de liens, sélections de ressources…
des « pages de référence »: pages recevant de nombreux liens
2ème pondération plus forte: des pages de référence
fréquemment citées par pages pivots
Mais PR n’est pas le seul critère de classement
Opacité des critères réels de classement
© URFIST de Rennes, 2009 25
1.4 Repères techniques : la Google Dance La Google Dance :
Mise à jour du PageRank de l’ensemble des pages de l’index de Google
Période de mise à jour (Google Update) durant plusieurs jours
Après calcul des nouveaux PageRank, distribution de l’index sur les milliers de serveurs
Pendant cette période, variation possible du PageRank d’une page : C’est la Google Dance...
Rythme mensuel, puis trimestriel ; plus irrégulier depuis 2006
La dernière Google Dance et le dernier PageRank : Calcul des BackLinks (liens
entrants) et établissement d’un palmarès des sites ayant un PR (PageRank) de 10
http://www.pr10.fr/google_dance_derniere.htm
© URFIST de Rennes, 2009 26
1.4 Repères techniques : l’infrastructure technique
Schéma des serveurs de Google utilisés pour répondre aux requêtes(source : WebRankInfo) Voir aussi sur Google : Cycle de vie d’une recherche
© URFIST de Rennes, 2009 27
1.4 Repères techniques : le classement des résultatsComment Google classe ses résultats ?
D’abord, constitution d’une liste des pages indexées par Google contenant les mots recherchés.
Ensuite, tri des pages selon une série de critères : valeur du PageRank :
PR : établi de 1 à 10 PR <2 : « mauvais » PR 4-5 : « bon » PR 6-7 : « très bon » PR 8-10 : « excellent »
correspondance entre les mots recherchés et le titre (balise <TITLE>)
correspondance entre les mots recherchés et les textes de liens (textes entre les balises <A> et </A>)
correspondance entre les mots recherchés et les titres de paragraphes (balises <H1> à <H6>)
correspondance entre les mots recherchés et le texte de la page (D’après WebRankInfo )
© URFIST de Rennes, 2009 28
1.4 Repères techniques : évolutions en cours Projet Google Caffeine :
Nouvelle architecture technique pour le crawl et l’indexation En beta test depuis août 2009 Objectifs :
Améliorer vitesse de collecte, d’indexation des documents, d’affichage des résultats…
Reposerait sur les technologies de « cloud computing » Lancement en décembre 09 (sur un seul Data Center, 50% du
temps) Déploiement à venir Voir articles :
L. Bourrelly O. Andrieu
© URFIST de Rennes, 2009 29
1.5 Stratégies...: Google, maître des images ? Chercher des images (juin 2001) : Google Images
Plusieurs milliards d’images indexées Enjeux énormes de la recherche d’images : plus de 100 milliards
d’images produites chaque année, déferlement des images sur le web, concurrence acharnée des grands moteurs...
Google Images : 2ème service de Google le plus utilisé au monde (10 % environ) Croissance de 35 % entre 2006 et 2007
Problème des droits d’auteur Différents formats de fichiers
Innovations Filtrage sur visages, actualités, taille, formats, couleurs ...
Image Swirl et Wonder Wheel : regroupement d’images par similarité
© URFIST de Rennes, 2009 30
1.5 Stratégies...: Google, nouveau navigateur, nouvel acteur de téléphonie ?
Google Chrome : Le navigateur de Google + applications web hors
navigateur Lancé en septembre 2008 Code source sous licence
libre Moteur WebKit
Réactions : Bilan contrasté des
premières utilisations Big browser / Big Brother
Nouveauté : scripts GreaseMonkey / Firefox
Google Phone : « ordinateur de poche communicant »
Lancement du 1er google phone
Technologie Android = système ouvert proposé par Google
Constructeur taïwanais HTC
Développement de programmes
Services : Moteur, Google Maps et Street View, Gmail …
Concurrent d’Apple, Nokia …
© URFIST de Rennes, 2009 31
1.5 Stratégies...: Google, nouveau réseau social ? L’offensive de Google dans les
réseaux sociaux : le projet OpenSocial
Jusque là, 5ème place de Google dans le monde des réseaux sociaux
OpenSocial lancé en nov. 2007 / OpenSocial Foundation
Ensemble d’interfaces de programmation : Regroupe API communes
permettant le développement d’applications web pour sites partenaires (réseaux sociaux et sites communautaires)
A la base : Orkut + sites partenaires du
projet (Xing, Friendster, Hi5, LinkedIn, mySpace …)
Evolution Fin 2007 : ralliement de
MySpace ; soutien de Viadeo et Xing
Mars 08 : Yahoo rejoint OpenSocial
Introduction de la “barre sociale”
Développement d’un moteur de recherche social : Google Social Search
© URFIST de Rennes, 2009 32
1.5 Stratégies... : Google, nouveau ministère de la santé ?
Google Health
Lancé sur Google.com Création de profils de santé
personnels Téléchargement de
rapports médicaux depuis le cabinet médical ou la pharmacie
Conseils et informations Recherche de médecins et
services Partage d’informations
Les questions posées par Google Health Sécurité des données
médicales personnelles Nécessité de normalisation
dans la saisie des données médicales
Pratique des médecins par rapport à Google ?
Projet d’extension à d’autres pays
© URFIST de Rennes, 2009 33
1.5 Stratégies...: Google, première agence de presse mondiale ?
Google News (Actualités) : Créé à la suite du 11/09/01, lancé en mars 2002 Diffusion en continu d’infos sur l’actualité Sélection de 25 000 sources d’information (avec les archives) Plus de 40 versions nationales de Google News Automatisation complète Collecte et analyse de chaque source par un robot spécial Classement automatique des informations dans des rubriques
prédéfinies Récemment sur Google News, recherche locale, catégories
personnalisées Nombreux conflits :
Avec les agences de presse, les journaux... Problème récent : affichage de publicités sur Google News ;
réticences des éditeurs de presse
© URFIST de Rennes, 2009 34
1.5 Stratégies...: Google, bibliothèque numérique mondiale ?
Du projet BackRub à Google Books 2004 : Google Livres, service en ligne permettant d’accéder à des
livres numérisés Deux volets du projet :
Projet Bibliothèques : (Google Library) Programme Partenaires / Editeurs : mise en ligne d’extraits
d’ouvrages et promotion auprès de librairies en ligne (Google Print) Mais un seul programme de numérisation
“Le service Google Recherche de Livres s’inscrit dans notre travail d’organisation des informations mondiales, afin de les rendres universellement accessibles et utiles.” (Jens Redmer, 2007)
Marché de l’information versus Bibliothèque universelle Débat autour de la numérisation et de la constitution de collections
numériques par Google : position dominante de Google dans l’économie des contenus en ligne / qualité de la numérisation
Droits d’auteur et actions des éditeurs (renversement par Google de la logique du copyright)
© URFIST de Rennes, 2009 35
1.5 Stratégies...: Google, bibliothèque numérique mondiale ?
Où en est-on aujourd’hui ? La collection
Environ 12 millions de titres aujourd’hui : Livres + Magazines Livres en librairie et sous droits d’auteur Livres sous droits d’auteurs mais épuisés Livres non soumis au copyright Registre des droits du livre
Accords avec de nombreuses bibliothèques universitaires et publiques américaines et européennes En France : BM de Lyon, BNF (en cours de négociation)
Le contentieux avec les éditeurs / numérisation Recours collectif engagé en 2005 (Author’s Guild, AAP) / Open Book Alliance Accord présenté le 13/11/2009 entre Google et les éditeurs anglo-saxons Protestation du SNE En France : le 18 décembre, La Martinière / Le Seuil gagne son procès contre
Google ; appel de Google La question des relations BNF / Google et le Conseil du Livre du 22/03
Et maintenant , la librairie Google… cet été
© URFIST de Rennes, 2009 36
1.5 Stratégies...: Google, premier portail scientifique mondial ?
Lancement de Google Scholar en novembre 2004
Indexation de littérature scientifique mondiale : Livres, articles, textes sur
archives ouvertes, préprints, bases de données bibliographiques…
Orientation stratégique de Google : Devenir guichet d’accès à
l’IST Concurrent direct
d'Elsevier (Scopus)
Nombreux partenariats : universités nord-
américaines éditeurs scientifiques
américains bibliothèques :
Catalogue OCLC : Open WorldCat
Sudoc 150 bibliothèques
INIST Google comme premier
point d’accès à l’IST française
© URFIST de Rennes, 2009 37
1.5 Stratégies...: Google, portail scientifique mondial ? Stratégie de Google :
« guichet universel » pour la science
grand catalogue mondial Succès de Google Scholar :
Très bon accueil dans les universités
Ancrage dans les bibliothèques anglo-saxonnes, et européennes : Initiative Library Links
Rivalité avec l’ISI : Même nombre de citations que
l’ISI
Intérêt de Google Scholar : Accès gratuit à l’IST, même
en référence secondaire Valorisation et visibilité des
AO Intérêt des citations Visibilité des chercheurs Pas de publicité
Problèmes posés : Situation dangereuse de
monopole d’accès Gratuité pour le moment,
mais jusqu’à quand ? Effets pervers de l’indice de
popularité Opacité du corpus
© URFIST de Rennes, 2009 38
1.5 Stratégies...: Google, portail juridique mondial ? Nouveauté sur Google Scholar (17/11) :
Accès à l’ensemble de la jurisprudence américaine : décisions de justice des tribunaux d’Etats, des cours
fédérales et de la Cour Suprême américaine Bouton à cocher : « Legal opinions and journals »
Projet d’extension à tous les pays anglo-saxons
Positionnement fort sur le terrain de l’information juridique : Concurrence avec Lexis/Nexis ? Google : « service public d’accès au droit » ? Monétisation des accès par la publicité Poursuite de stratégie d’omniprésence de Google sur tous les
champs de l’écrit
Recherche parmi les publications de brevets
© URFIST de Rennes, 2009 39
1.5 Stratégies...: Google, premier éducateur mondial ? Literacy Project
Lutter contre l’analphabétisme (septembre 2006) Diffusion de contenus favorisant
le développement de la lecture et de l’éducation:
Coopération : soutien de campagnes, projets
Livres, vidéos, articles scientifiques, LitCam, blogs...
Partenariat Google / UNESCO / LitCam
Site en français
La journée mondiale du livre avec le Literacy Project (avril 2008)
Google Apps Education = outils gratuits de communication, de collaboration et de publication
Développement dans l’enseignement supérieur 1er établissement français
: Portail My Esc Lille : http://partnerpage.google.com/esc-lille.fr Moteur de recherche,
Google Docs, Google Talk, Google Agenda, Gmail…
Dans de nombreuses universités de par le monde
Le Tout-Google ?
© URFIST de Rennes, 2009 40
1.5 Stratégies...: Google, premier office du tourisme mondial ?
Google Street View Initiative lancée en 2007 Option créée sous Google Maps Visualisation des villes en 3D via Google Maps et Google Earth
Selon Google : > 293 téra-octets de données pour la France ! Succès considérable Développement de Street View :
Google Street View disponible pour 20 pays Au total, 33 pays concernés (mars 09)
Le dernier en vue : la Croatie Dans les villes françaises :
Exemple à Rennes
Conflits : le dernier sur la captation de données d’identification sur les réseaux Wifi
Google Latitude, outil de « géolocalisation sociale »
© URFIST de Rennes, 2009 41
1.5 Stratégies...: Google, cartographe de l’univers ?
Google explore l’univers : les innovations liées à la cartographie et la géolocalisation
Après Google Sky, Moon et Mars, Google Ocean : Projet en cours d’élaboration Module d’exploration des fonds marins en 3 dimensions Exploration de la topographie des sols marins Ajout d’autres paramètres : températures, emplacement des
épaves… Moyens : cartographie des fonds marins, ou du moins mise à
disposition des images déjà disponibles Données issues de Google Maps, de laboratoires d’universités,
d’instituts de recherche océanographique
© URFIST de Rennes, 2009 42
1.6 Google et nous
« Nous n’en savons pas assez sur vous », Eric Schmidt, PDG de Google
Google, nouveau Big brother ? La conservation des données personnelles
Les efforts de transparence et leurs limites
Google, nouveau panopticon ? Street et le droit à l’image
© URFIST de Rennes, 2009 44
1.6.1 Google, “big brother” mondial ?Présence de Google dans (au moins) 10 domaines d’activités :
News : Alertes Google, Google News, Google Finance Blogs et RSS : Blogger, Feedburner, Google Reader Analyse de trafic : Google Analytics, Trends, Zeitgeist, Site Maps Bureautique : Gmail, Docs & Spreadsheet, Calendar, Writely, Desktop,
Greenborder E-commerce : Google Checkout, Base, Froogle Téléphonie : Dodgeball, Google Phone (en préparation), GTalk, services
mobiles Publicité : AdWords, AdSense, AdScape, Double Click Réseaux sociaux : Orkut, Jotspot, Google Groups Audiovisuel : Google Video, YouTube, Google Images, Picasa Cartographie : Google Earth, Google Maps, Sketchup, Mars, Panoramio (d’après Googlinside)
© URFIST de Rennes, 2009 45
1.6.1 Google, “big brother” mondial ? Quelles données recueillies par Google ?
Sur un compte personnel : Nom, adresse mel, mot de passe
Sur chaque accès à une page Google : Envoi de cookies : identification du navigateur, cookie
publicitaire… Sur chaque requête :
Adresse IP, date et heure, type de navigateur, mots-clés Sur Gmail :
Sujets des messages, pour envoi de publicités contextualisées Sur les services affiliés :
Informations personnelles transmises au service Sur Google Maps Mobiles :
Données de géolocalisation
© URFIST de Rennes, 2009 46
1.6.1 Google, “big brother” mondial ?
Dangers du rachat de DoubleClick (mai 07) : Première régie (1997) et
leader du marché publicitaire : gère les bandeaux publicitaires
Toucherait 80 à 85 % des internautes
Plus grande base de cookies du monde : 1,1 milliard de personnes !
Plusieurs plaintes aux EU
Question de la durée de conservation des données de connexion : Conflit avec la Commission
Européenne : Avril 08 : durée de
conservation des données fixée à 6 mois.
Reculs progressifs de Google : Durée de conservation
illimitée, de 98 à 2007 Mai 07 : 18 à 24 mois Sept. 08 : Google
réduit à 9 mois la durée de conservation
© URFIST de Rennes, 2009 47
1.6.1 Google, “big brother” mondial ? Ambivalence des discours de Google :
Reconnaissance progressive du problème de la conservation des données personnelles, mais : Position ambiguë ou (faussement) angélique Politique du fait accompli: cf Google Street Argument délirant de Larry Page (sur la grippe) ! :
« Le fait d’avoir ces données personnelles a beaucoup de valeur. Moins on gardera de traces comme celles-là, plus on aura de chances de tous mourir » (mai 2009).
Efforts de transparence, jusqu’à un certain point…
Lancement du « Front de Libération des Données »… par Google
© URFIST de Rennes, 2009 48
1.6.2 Les efforts de transparence de Google et leurs limites
Efforts de Google dans l’information sur les données personnelles : Centre de confidentialité des données :
Volonté de transparence : explication des conditions d’utilisation des données personnelles Mais pas de liste des « services associés »
Choix de l’utilisateur : possibilité de désactiver les cookies publicitaires
Pas d’identification personnelle abusive Depuis juillet 2008, accès depuis la page d’accueil
© URFIST de Rennes, 2009 49
1.6.2 Les efforts de transparence de Google et leurs limites
Lancement de Google DashBoard, début novembre 2009 Visualisation de toutes les traces laissées sur les
applications Google : Requêtes web, utilisation des services Google, etc.
Possibilité de gérer ses traces : Effacement des requêtes, gestion des alertes, etc.
Limites : Gestion des traces laissées volontairement et non celles
récupérées par Google à notre insu Quid du croisement des données par Google ?
Illusion de maîtrise par l’usager de ses usages ?
© URFIST de Rennes, 2009 50
1.6.2 Google et les failles de sécurité
Problèmes des failles de sécurité et du cryptage des données : Bug sur Google Docs (7 mars 2009) : partage non
autorisé de documents privés entre utilisateurs ; dénonciation des « pratiques laxistes » par l’EPIC, enquête du Gouvernement américain ;
En Australie, découverte (20 mars) de 22 000 cartes bancaires dans le cache de Google
http://fr.techcrunch.com/2009/03/27/fr-pourquoi-google-nest-pas-invincible/
© URFIST de Rennes, 2009 52
1.6.2 Google,
panopticon mondial ? Google Street View Nombreux procès, réactions négatives :
Aux USA, au Japon, en Grèce, en Allemagne, en France… Deux problèmes juridiques posés par G. Street View :
Notion de donnée personnelle : Visage, plaque d’immatriculation = données personnelles
Autorisation nécessaire des personnes photographiées En France, intervention de la CNIL (3 juillet 2008), obligeant Google à
flouter les visages des personnes, les plaques d’immatriculation… Floutage comme contournement technique du droit
Le droit à l’image : Des personnes :
Protection de la vie privée, représentation d’une silhouette.. Floutage souvent insuffisant, reconnaissance possible Problème des photos prises dans un espace privé : ex. du Japon
Des biens : Plaintes possibles contre Google
© URFIST de Rennes, 2009 53
1.6.2 Google, panopticon mondial ?
Au-delà des aspects juridiques, problème de la transparence (surveillance) généralisée, posé par Google Street View
Google Latitude : Application lancée en février 2009 dans 27 pays Service de géolocalisation des personnes, à partir du
téléphone mobile (et de l’ordinateur) : Compatible avec plusieurs mobiles Transmission en temps réel de sa localisation à son réseau, suivi
sur Google Maps.. Enjeux de profilage marketing
Des techniques "potentiellement liberticides« (CNIL) Problème d’une société de (l’auto-) surveillance
© URFIST de Rennes, 2009 55
1.6 Sur les effets possibles des pouvoirs de Google… dans l’avenir
Voir la nouvelle de Cory Doctorrow, « Scroggled », traduit en français par C&F Editions « enGooglés » :
« Pas si simple. Voilà le truc : la surveillance du DHS dans les aéroports n'est rien qu'un premier tri. Cela permet aux affreux d'affiner leurs critères de recherche. Une fois que tu as été retenu pour un interrogatoire complémentaire à la frontière, tu rentres dans la catégorie personne intéressante - et ça ne s'arrête plus jamais. Il vont passer en revue les webcams à la recherche de ton visage et de ta démarche . Il vont lire ton courrier, il vont étudier tes recherches en ligne. »
© URFIST de Rennes, 2009 56
1.7 Questionnements critiques
Nécessité d’un discours critique sur Google, compte-tenu de son hégémonie et des questions posées
Au moins quatre critiques, entrecroisées : Dénonciation des dangers du monopole : “le monde
selon Google” Alerte face aux dangers de la traçabilité, de la
conservation des donnéées personnelles... Vigilance face à la “googlisation” des usages Critique de “l’idéologie Google”, de
“l’impérialisme du bien”
© URFIST de Rennes, 2009 57
1.7 Questionnements critiques :le « monde selon Google »
Risques de monopole d’une entreprise privée sur tous les secteurs de l’information : Dangers de tout monopole Google maître de l’Internet ?
Domination de tous les domaines de l’information : recherche d’information, vidéos, info. scientifique, géolocalisation, dossiers médicaux...
Ampleur mondiale Nombreuses missions de service public assurées par une
entreprise privée : Google Scholar, Books... Question de l’avenir : quelle politique de Google dans 10 ou
20 ans ? Quelle garantie de gratuité d’accès ? Premières ripostes du gouvernement américain
Voir aussi l’article : Google, la « fascisation » rampante du web
© URFIST de Rennes, 2009 58
1.7 Questionnements critiques : Big Brother Google
Dangers de la traçabilité généralisée : Vouloir “organiser toute l’information du monde” = vouloir être
informé de tout Somme colossale, inédite, d’informations personnelles
détenues par une entreprise privée Pouvoir immense sur les consommateurs :
Cf Google Health Vers une société de contrôle général :
Fichage généralisé des individus par les états + profilage marketing des consommateurs par les
grandes sociétés + transparence des réseaux sociaux + géolocalisation des individus et des objets
© URFIST de Rennes, 2009 59
1.7 Questionnements critiques : la « googlisation » des usages
“La vie selon Google” : L’utilisation exclusive de Google pour différentes opérations
informationnelles Accès universel pour tous les types de services proposés par
Google http://partnerpage.google.com/esc-lille.fr
“Googlisation” des usages : Cf élèves et étudiants qui ne connaissent plus que Google
Risques de cette “googlisation” : Appauvrissement des usages, des pratiques et des
connaissances en matière d’information Conditionnement par l’idéologie Google Soumission au monopole de Google
© URFIST de Rennes, 2009 60
1.7 Questionnements critiques : les pièges de « l’idéologie Google »
Deux proclamations célèbres : “Google a pour mission d'organiser à l'échelle mondiale les
informations dans le but de les rendre accessibles et utiles à tous.”
“Don’t be evil !” Vision missionnaire, évangéliste de l’information :
“Saint-Google”, patron de l’information ? « L'idéologie Google » :
Dimension morale chez les fondateurs “Impérialisme du bien” Mythe de la transparence
© URFIST de Rennes, 2009 61
1.7 Questionnements critiques : les pièges de « l’idéologie Google »
« Don’t be evil » : mythes et réalités de l’idéologie du bien : Distinction entre la « pureté des résultats » et les liens sponsorisés Investissements réels de Google dans de nombreuses bonnes
causes : Fondation Google, Literacy Project, volonté de rendre accessibles les
ressources… Concours lancé en 2008 pour des projets pouvant « changer le monde » !
Voir les 15 projets philanthropiques retenus Mais fonction d’habillage, de « discours de communication » de
cette posture éthique : Mélange de naïveté morale et de calculs stratégiques Bonne conscience absolue : peu de questionnements auto-critiques des
« googlers » Contradictions avec la réalité et les pratiques réelles de Google :
Cf problèmes sur le droit d’auteur, la censure en Chine, les données personnelles, la politique du secret…
© URFIST de Rennes, 2009 62
1.7 Questionnements critiques : les pièges de « l’idéologie Google »
Trois confusions épistémologiques du discours sur l’information : Sur l’organisation de « toute l’information du
monde » : Confusion entre infos-data, données informationnelles
et information Sur l’accès à la connaissance :
Confusion entre information et connaissance Sur la « démocratie culturelle » :
Confusion entre information et culture
© URFIST de Rennes, 2009 63
1.7 Questionnements critiques : conséquences sur la formation
Enjeux de la formation des usagers : Diversifier les outils :
Nécessité de faire connaître d’autres outils Elever les niveaux d’usage de Google :
Interrogation avancée, différents modules... Déconstruire Google :
Expliquer le fonctionnement technique, économique... Montrer les aspects problématiques : données personnelles
Donner du recul critique : Face à l’idéologie Google et ses confusions Face aux dangers du monopole
© URFIST de Rennes, 2009 64
2ème partie : Mieux exploiter les fonctionnalités et les services de Google
2.1 Maîtriser le mode d’interrogation avancée 2.2 Exploration de 6 modules spécialisés :
Books News Scholar Blogs Images Groups Autres services
© URFIST de Rennes, 2009 65
2 Les différents services et produits de Google : vue d’ensemble
La recherche d’information : Web Groups Images Annuaire News (Actualités) Maps Books Scholar Blogs Desktop Search Earth Video …
La communication : GMail Blogger Talk Mobile
La gestion de sites : Analytics Adwords Sitemaps Adsense
Autres services : Picasa Translate …Voir liste complète :
http://www.webrankinfo.com/google/produits.php
© URFIST de Rennes, 2009 67
2.1 Maîtriser l’interrogation avancée : les opérateurs de recherche
Opérateurs booléens et de présence : AND : implicite ; différent de + + : prend en compte l’orthographe exacte - : exclut un ou plusieurs termes (SAUF) OR (ou |) : l’un ou l’autre ou tous les termes
Opérateurs numériques : .. = entre (200..300 euros) ..200 = <200 200.. = >200
© URFIST de Rennes, 2009 68
2.1 Maîtriser l’interrogation avancée : les opérateurs de recherche
Opérateurs linguistiques : «… » : recherche d’expression exacte * : astérisque permet de remplacer un terme ~ : recherche sur les synonymes (dans
version anglaise) define: : pour trouver la définition d’un mot
Règle des requêtes : limite des 10 mots
© URFIST de Rennes, 2009 69
2.1 Maîtriser l’interrogation avancée : les opérateurs de recherche
Filtrage sur le type de documents : filetype: ou ext: : recherche sur le format ou l’extension de
fichier Opérateurs de filtrage sur une page web :
pour utiliser les caractéristiques d’une page web site: recherche sur le nom de domaine (hostname)
Lister toutes les pages d’un site Rechercher des fichiers particuliers sur un site (croiser ext: et site:) Affiner une recherche sur un type de sites
inurl: et allinurl: : recherche sur l’URL de la page intitle: et allintitle: : affinement de la recherche sur le titre de la
page (balise Title) inanchor: et allinanchor: : recherches sur les liens contenant
les mots-clés
© URFIST de Rennes, 2009 70
2.1 Maîtriser l’interrogation avancée : les opérateurs de recherche
Opérateurs de fonctions : pour trouver des informations sur une page ou un site cache: : affiche la version cache du document related: : affiche les pages similaires au site ou à la
page indiquée link: : affiche les pages liées à un site (fonction bridée
sur Google) info: : récapitule toutes les informations dont dispose
Google sur un site : version cache, pages similaires, pages liées, pages du site…
© URFIST de Rennes, 2009 71
2.1 Maîtriser l’interrogation avancée : le filtrage des résultats
Nouvelles options de recherche : D’abord sur Google.com ; sur Google.fr depuis novembre 09 Plusieurs possibilités de filtrage :
Sur les types de ressources : blogs, vidéos, actualités… Sur les dates de publication
Options de tri et d’affichage : Sur la chronologie Sur les recherches associées
Affinement et outils : barre latérale gauche de la page de résultats Sur Google.com, opérateur supplémentaire :
Wonder wheel : représentation cartographique des concepts
Résultats Intégration des données de résultats (ex. date de naissance) Fil d’Ariane des pages web
© URFIST de Rennes, 2009 72
2.1 Maîtriser l’interrogation avancée :utilisation des nuages de tags Plug-in pour Firefox : Search Cloudlet
créé par un Institut de recherche en informatique (INTSPEI) Pour télécharger le plug-in : http://getcloudlet.com/
Création d’un nuage de tags à partir d’une page de résultats, sur Google et Yahoo Demander « Affichage des résultats par 100 », dans les Préférences
Double intérêt pour : La navigation dans les résultats :
Clic sur un tag : affinement de la requête Onglet « Sites » : affichage et recherche dans les sites les plus
présents Onglet « Net » : affichage des noms de domaines représentés
La veille : Représentation des grandes thématiques sur un corpus Repérage des « signaux faibles »
(d’après Netsources, n° 78, 2009)
© URFIST de Rennes, 2009 73
2.2 Modules spécialisés : Google Livres
Fonctions : Recherche
fonctionne de la même façon que la recherche web
Consultation des livres en ligne Selon les droits attachés, accès à un aperçu du livre, à des
extraits ou au texte intégral Pour des ouvrages du domaine public, téléchargement pdf
possible
Informations complémentaires Critique de livre, références…
Accès au livre Bibliothèque ou librairie
© URFIST de Rennes, 2009 74
2.2 Modules spécialisés : Google Livres
Affichage du livre en entier
(Source Google Livres)
© URFIST de Rennes, 2009 75
2.2 Modules spécialisés : Google Livres
Aperçu limité
(Source Google Livres)
© URFIST de Rennes, 2009 76
2.2 Modules spécialisés : Google Livres
Affichage d’extraits
Source Google Livres
© URFIST de Rennes, 2009 77
2.2 Modules spécialisés : Google Livres
Exploiter le document et gérer sa bibliothèque à partir du compte personnel Google
Marquer (bookmarks) des livres et les partager Ajouter à sa bibliothèque Annoter, évaluer et commenter les ouvrages Naviguer dans l’ouvrage Consulter les infos sur l’ouvrage Trouver l’ouvrage Rechercher dans l’ouvrage
© URFIST de Rennes, 2009 78
2.3 Modules spécialisés : Google Actualités Recherche dans plus de 500 sources d’actualité en langue
française Recherche avancée :
Filtrages possibles sur : La source, la date, le lieu, l’emplacement des mots
Opérateurs de recherche : intitle: et allintitle: : dans le titre des articles intext: et allintext: : dans le texte des articles inurl: : dans un site particulier source: : sur une source précise
Source:Libération location: : dans un pays précis
Location:Algérie
© URFIST de Rennes, 2009 79
2.3 Modules spécialisés : Google Actualités
Fonctionnalités : Personnalisation :
Ouvrir Modifier cette page Voir aussi sur les InfoStratèges.com
Veille : Syndication de fils RSS Abonnement gratuit aux alertes : par thèmes...
Deux nouveautés : Recherche dans les archives de journaux Recherche d’informations locales pour la France
Google News Archive Search : Archives de presse Lancé en 2006, généralisé en 2008 Recherche dans 200 ans d’archives de journaux
Affichage de chronologies Pour en savoir plus : voir brochure de Google
© URFIST de Rennes, 2009 80
2.4 Modules spécialisés : Google Scholar Préférences :
interface en français Lien vers bibliothèques
Champs et opérateurs avancés d’interrogation : Sur l’auteur :
author: ou champ Auteur en mode avancé Sur le titre d’une revue :
Uniquement en mode avancé : champ Publication, Sur le titre d’un article ou d’un document :
Opérateur intitle: Sur la date :
Uniquement en mode avancé : champ Date Pour en savoir plus
© URFIST de Rennes, 2009 81
2.5 Modules spécialisés : Google Blogs BlogSearch :
Lancé en sept. 2005 Au début, collecte des contenus par les fils RSS et non par le robot ;
depuis automne 2008, indexation par le robot web Indexation en temps réel
Fonctionnalités de recherche : Sur le titre du blog Sur l’adresse d’un blog Sur le titre d’un billet Sur l’auteur Sur les dates
Conservation des anciens billets : Recherche possible sur les anciens billets en précisant la date
© URFIST de Rennes, 2009 82
2.6 Modules spécialisés : Google Images De nouvelles modalités pour la recherche d’images :
Filtres de Google Image : Filtrage par type de contenus : recherche de visages, images
d’actualités, dessins, photos, images clipart Filtrage par taille des images Filtrage par format d’image et format de fichier Filtrage des couleurs
En ajoutant à l'URL de la page de résultats le paramètre "&imgcolor=" suivi du nom anglais de la couleur de votre choix
Filtrage par domaines Filtrage par type de licence SafeSearch Images similaires
Problèmes récents de pertinence de la recherche et du classement des résultats sur Google Image
Voir le site Googr.net
© URFIST de Rennes, 2009 83
2.7 Modules spécialisés : Google Groups
Chercher ou créer un forum de discussion ( > avril 2001) :
Google Groups : Ancienne base de DejaNews Toutes les archives de Usenet depuis 1976 Recherche + possibilité de créer un groupe
Recherche : Sur la date des messages Sur le nom du groupe Sur l’objet du messsage Sur l’auteur du message Sur son ID
© URFIST de Rennes, 2009 84
2.8 Services de recherche d’information : alertes, pages perso.
Google Alerts Alertes Google Actualités :
février 2004 en France Google Web Alertes : mars
2004 Fusion en septembre 2004 :
une seule interface Système de veille, avec envoi
par mel d’articles (News), de textes (Web)…
Paramètres : Indication de mots clés Domaines de recherche
(actualités, web, groupes, tous les types)
Fréquence de l’alerte mail
IGoogle : création de sa page
personnalisée Sélection de centres
d’intérêt Choix d’un thème Modules Google Ajout de flux RSS
Google Reader : Agrégateur RSS de
Google permettant d’afficher les flux sur la page personnelle
© URFIST de Rennes, 2009 85
2.9 Services de recherche d’information : moteur personnalisable
Définition des moteurs personnalisables : Choix par l’internaute du périmètre des recherches :
ensemble donné de sites web, thématique précise, type d’informations
Compte gratuit, système de veille Tendance actuelle des moteurs de recherche Google Custom Search Engine :
Lancé en octobre 2006 Base du moteur : index de Google Pas de limite au nombre de sites Possibilité d’intégrer le moteur sur un site privé
Ex. : Réseau Urfist