86
Outils de recherche du web : approfondir Google Stage URFIST de Rennes 18 mai 2010 Animé par Marie-Laure Malingre

Stage Explorer Google 24novembre09

Embed Size (px)

DESCRIPTION

Support d'un stage Urfist sur l'exploration de Google : puissance, stratégies, aspects critiques, fonctionnalités, modules...

Citation preview

Outils de recherche du web :approfondir Google

Stage URFIST de Rennes

18 mai 2010

Animé par Marie-Laure Malingre

© URFIST de Rennes, 2009 2

PLAN 1ère partie : Mieux connaître Google pour mieux

le questionner : Repères historiques, économiques, techniques… sur

la puissance de Google Fonctionnement technique Stratégie et innovations récentes Google et les données personnelles Questionnements critiques

2ème partie : Mieux exploiter les fonctionnalités et services de Google

© URFIST de Rennes, 2009 3

1.1 Quelques ressources sur Google Annuaire spécialisé :

Google’ World Blogs :

The Official Google Blog Zorgloob : 2004 Google XXL : mai 2007 Blog

du MIP sur l’innovation et sur Google: janvier 2009

Sites spécialisés: WebRankInfo :

dossiers sur Google

Livres : Ippolita. La face cachée de

Google, Payot, 2008 L’Entonnoir. Google

sous la loupe.. C&F Diaporamas :

FaberNovel.Tout savoir de Google

Voir aussi la Sélection de ressources sur les outils de recherche de l’URFIST de Rennes

© URFIST de Rennes, 2009 4

1.2 Repères chronologiques Origines :

1996 : projet de recherche BackRub, de Sergey Brin et Larry Page (en PhD à Stanford) : méthode d'analyse des liens pointant vers un site web.

Naissance le 7 septembre 1998, à Stanford, de la start-up Google

Le nom : dérivé du mot «googol » , nombre gigantesque (un 1 suivi de 100 zéros...).

Contexte : recherche d’information dominée par Alta Vista, Yahoo, HotBot, Lycos…

Quelques étapes : 1999 : de 500 000 à 3 millions

requêtes par jour 2000 :

premières publicités contextuelles, moteur de recherche le plus complet au monde : un demi-milliard de pages Web ; déjà 100 millions de requêtes par jour

2001 : Rachat de Deja.com et de

l'archivage de Usenet, création de Google Groups ; lancement de Images Search; indexation de nouveaux formats de fichiers sensibles (.doc; .xls, .ppt...)

Fin 2001 : 3 milliards de pages

© URFIST de Rennes, 2009 5

1.2 Repères chronologiques 2002 :

Lancement du modèle publicitaire des AdWords ; lancement officiel de Google News, indexant plus de 4000 sites de médias ; Fin 2002 : 250 millions de requêtes journalières

2003 :Rachat de plusieurs sociétés : Applied Semantics :

technologie de mots-clés Blogger : édition de blogs Sprinks : publicité

contextuelle Programme publicitaire

AdSense

2004 : Recherche localisée avec

Google Local. Gmail, service de webmail

gratuit Introduction en Bourse,

envolée boursière Picasa, gestion des photos

numériques Google Desktop,

indexation des disques durs

Novembre : doublement de l’index : de 4,3 milliards à 8,1 millards de pages

Google Scholar

http://www.journaldunet.com/dossiers/google/historique.shtml

© URFIST de Rennes, 2009 6

1.2 Repères chronologiques 2005 :

Lancement de : Google Video, Google Maps, Google Earth, Google Talk

Annonce de Google Print et de la numérisation des livres

Recrutement de Vinton Cerf, l’un des « pères d’Internet »

Augmentation de l’action Google de 117 % en un an

Fin 2005 : 1 milliard de requêtes journalières !

2006 : Lancement de Google.cn

en Chine, avec une censure des résultats

Rachat de Writely, qui deviendra Google Docs & Spreadsheets en octobre

Lancement de plusieurs applications : Google Calendar, Co-Op, Trends, Apps...

Septembre : procès et condamnation de Google Belgique face aux éditeurs de presse belges

Automne : Google News Archives, rachat de You Tube

© URFIST de Rennes, 2009 7

1.2 Repères chronologiques

2007 : Rachat de DoubleClick,

pour $ 3,1 Mds ; Juin : lancement de la

recherche universelle Août : extension de

Google Earth au ciel avec Google Sky

Automne : 1 million de livres numérisés, 27 partenaires pour Google Books

2008 : Mars : annonce de Google

Health, le dossier médical personnel en ligne

Juin : partenariat avec Yahoo pour le partage du marché publicitaire

Juillet : Google à 70 % du trafic aux USA, 82 % en France (cf Abondance)

Septembre : lancement du navigateur Google Chrome, et de GAUDI, portail de recherche audio

Pour une chronologie détaillée, voir Google 10th Birthday

© URFIST de Rennes, 2009 8

1.2 Repères chronologiques 2009 :

Janvier : Google connaît la crise : licenciements, fermetures…

Février : lancement de Google Latitude, service de géolocalisation sur téléphone mobile

Mai : lancement de Google Wave, plateforme centralisée de communication (cf Zorgloob)

Août : annonce de négociation entre Google et la BNF pour la numérisation des fonds

Septembre : lancement de SideWiki

Octobre : Partenariat avec Twitter,

indexation des tweets Recherche en temps réel :

Twitter, Facebook,MySpace, FrienFeed, Jaiku

lancement de Google Social Search, moteur de recherche social

Novembre : Google Street View au

Mexique, 15ème pays couvert (sur 33)

Lancement de Google DashBoard

Accord Google-éditeurs américains

© URFIST de Rennes, 2009 9

1.2 Repères chronologiques Quelques événements

depuis le début 2010 : Lancement de Google Buzz

Brevet de Google sur l’indexation basée sur l’analyse de phrase

Lancement de Jazz, une nouvelle interface pour la page de résultats

Extension de Google Street View tout le Royaume Uni ;

nouvelles vues au Japon et aux Pays-Bas ; Norvège, Finlande, Danemark, Suède ; premiers clichés de Macao et Hong-Kong; accord trouvé avec la Suisse

Fin de Search Wiki / intégration avec Google Bookmarks

Google comme FAI (fibrer entre 50 000 et 500 000 foyers américains)

Google reader : création de flux RSS à la volée

Google Docs : envoi et partage de n’importe quel type de fichier

3D sur Google Maps + Google Places

© URFIST de Rennes, 2009 10

1.3 Gigantisme de Google

Puissance de Google : Position monopolistique Stratégie de puissance

Tous les domaines investis par « l’ogre de Mountain View », « le maître de l’internet  »

De multiples positionnements (Applications / Services + maîtrise des aspects réseaux) Moteur, FAI, Constructeur, Editeur, Navigateur, Plateforme de

services, Média … Plateforme complète d’accès à l’information Mais décisions récentes :

Abandon d’applications non totalement satisfaisantes Recentrage sur la recherche

© URFIST de Rennes, 2009 11

1.3 Gigantisme de Google

Google

Puissance technique Puissance politique

Puissance humainePuissance d’innovation

Puissance économiquePuissance financière

© URFIST de Rennes, 2009 12

1.3 Gigantisme de Google : puissance financière

Evolution des revenus Google de 2005 à T1 2010 selon WebRankInfo

© URFIST de Rennes, 2009 13

1.3 Gigantisme de Google : puissance financière

Un poids financier considérable :

Des résultats financiers toujours positifs 1er trimestre 2010 : 6,7 Mrds $ de revenus (5,9 Mrds $ au T4 2009) Augmentation de 23 % par rapport au même trimestre en 2009

Des réserves de trésorerie au plus haut 26,5 Mrds $ au 31/03/2010 (+2Mds depuis fin 2009)

Quelques signes d’essoufflement ?

Ralentissement de sa croissance Fluctuations de l’action Google (-13% depuis le début de

l’année)

Une présence forte Liste des acquisitions / Dossier WebRankinfo

Derniers chiffres Google

© URFIST de Rennes, 2009 14

1.3 Gigantisme de Google : puissance financière

Adwords Emplacements publicitaires

dans les pages de résultats de Google, avec des liens vers les sites annonceurs, en fonction des mots clés saisis par l’internaute et achetés par l’annonceur.

Revenus Adwords / 1er trimestre 2010 4 Mrds $ = 65,5 % des revenus

Adsense Liens publicitaires sur des

sites affiliés à Google et choisis automatiquement en fonction du contenu et du contexte de la page + des requêtes

Revenus Adsense / 1er trimestre 2010 2,04 Mrds $ = 30,1% des

revenus

Google n° 1 mondial des liens sponsorisés

Chiffres 1er trimestre 2010 : Publicité = 95,6% de son CA Extension à de nouveaux modules (News, Maps, vidéos

YouTube…) et développement de la publicité hors web

© URFIST de Rennes, 2009 15

1.3 Gigantisme de Google : puissance humaine

Puissance humaine : 20 621 employés à

temps plein contre 19 665 au

30/09/2009 et 15916 en septembre 2007

Suppression de postes réduction du rythme des embauches en 2009

Orientation vers un recrutement ciblé et ajusté

© URFIST de Rennes, 2009 16

1.3 Gigantisme de Google : puissance économique

USA : Parts de visite Google.com : 65,1 % en mars 2010(source : Comscore)

France : Parts de visite pour Google.fr : 90,2 % en avril 2010(source : Baromètre Xiti)

Place de Google sur le marché des moteurs

© URFIST de Rennes, 2009 17

1.3 Gigantisme de Google : domination des usages Fréquentation de Google

Large prédominance de l’usage de Google Croissance régulière des requêtes effectuées sur

Google

environ 500 millions de visiteurs uniques mensuels sur l'ensemble des sites de Google

au moins 2,5 milliards de requêtes par jour sur l'ensemble des sites de Google (juillet 2009)

En Europe, 8 requêtes sur 10 passent par Google

Source : WebRankinfo

© URFIST de Rennes, 2009 18

1.3 Gigantisme de Google : domination des usages

Source : http://www.accessoweb.com/

Etc.

Google : l’outil universel

Voir aussi : Google, produits et chiffres en une seule image

© URFIST de Rennes, 2009 19

1.3 Gigantisme de Google : puissance d’innovation

Nombreux projets de recherche, tous azimuts 171 produits et services

Google, un acteur protéiforme :

Fournisseur d’applications Web Google App Engine : création d’un

espace dédié pour la mise en ligne d’applications web

Opérateur de téléphonie mobile : 22 octobre 2008 : sortie de G1, 1er

Google phone Androïd

Acteur dans le domaine satellitaire, de la cartograpie et de la géolocalisation Google Maps, Street View satellites de Google

Google et la santé : Google Health : Service de recherche

spécialisé en Santé Cartographie du génome humain

Google éditeur de logiciels : Voir Google Pack

Google Google constructeur d’ordinateurs, de système d’exploitation et de langage de programmation

Question de la nature de Google : Moteur de recherche, média, et

plus...

© URFIST de Rennes, 2009 20

1.3 Gigantisme de Google : puissance d’innovation

GOOGLE

Bureautique

Téléphonie

Réseaux sociaux Publicité

Cartographie

Recherche d’information / veille

Navigation web

Bibliothèques numériques

E-commerce

Création de contenus web

Voir à ce sujet Wikipedia et WebRankinfo

Personnalisation

Analyse et statistiques webSystème d’exploitationLogiciels

© URFIST de Rennes, 2009 21

1.3 Gigantisme de Google : puissance technique

Rôle-clé de l’infrastructure technique chez Google : Quantités gigantesques de

données à traiter : Index de plusieurs

centaines de milliards de pages ...

Nécessité de : Capacité de stockage : > 850

téraoctets Puissance de calcul : 600

teraflops (10 fois plus que Columbia, l'ordinateur le plus puissant de la NASA)

Solution adoptée : “Racks” de 88

ordinateurs plutôt que des gros serveurs

Au total : plus de deux millions de machines

Les Google Data Centers : Regroupement des milliers

d’ordinateurs hébergeant l’index de Google dans des centres de données

Plus de 60 Data Centers, pour la plupart aux USA et en Europe

Voir Chiffres-clé sur WebRankInfo

© URFIST de Rennes, 2009 22

1.4 Repères techniques : le référencement

Deux modes de référencement : Automatiquement :

Attendre le passage du robot Google Bot

Manuellement : Remplir le formulaire

d’envoi de contenu

Toujours bien veiller au référencement

Quelques règles simples : Soigner le

titre des pages (balise Title)

Présence de nombreux liens externes de qualité

Mises à jour régulières Mots-clés dans les URL … (voir sur WebRankinfo

)

© URFIST de Rennes, 2009 23

1.4 Repères techniques : le robot collecteur, Google Bot

Le robot GoogleBot : Visite les pages web

signalées ou non Délais : entre 12 h et 1

mois, selon le nombre de liens vers la page

Suivi des liens Première analyse de la

page : mots, balises HTML…

« Prime de fraîcheur » : apparition sur Google mais pas encore de PageRank

Voir Le système de crawl...

Fréquence des visites de GoogleBot : Selon le PageRank de la

page Le cache de Google :

Après chaque collecte et indexation de document, version du document stockée sur les milliers de serveurs : Version cache du document Correspond à la version du

document au moment du passage du robot

© URFIST de Rennes, 2009 24

1.4 Repères techniques : le classement, le PageRank Nombreux critères de

classement Texte, balises, URL…

Le PageRank : Calcul des liens

entrants et sortants Calcul de l’indice de

popularité de la pagehttp://

www.webrankinfo.com/google/pagerank/pagerank.php

Classement des pages par combinaison de plusieurs facteurs

Deux niveaux de pondération : 1ère pondération plus forte :

des « pages pivots » : listes de liens, sélections de ressources…

des « pages de référence »: pages recevant de nombreux liens

2ème pondération plus forte: des pages de référence

fréquemment citées par pages pivots

Mais PR n’est pas le seul critère de classement

Opacité des critères réels de classement

© URFIST de Rennes, 2009 25

1.4 Repères techniques : la Google Dance La Google Dance :

Mise à jour du PageRank de l’ensemble des pages de l’index de Google

Période de mise à jour (Google Update) durant plusieurs jours

Après calcul des nouveaux PageRank, distribution de l’index sur les milliers de serveurs

Pendant cette période, variation possible du PageRank d’une page : C’est la Google Dance...

Rythme mensuel, puis trimestriel ; plus irrégulier depuis 2006

La dernière Google Dance et le dernier PageRank : Calcul des BackLinks (liens

entrants) et établissement d’un palmarès des sites ayant un PR (PageRank) de 10

http://www.pr10.fr/google_dance_derniere.htm

© URFIST de Rennes, 2009 26

1.4 Repères techniques : l’infrastructure technique

Schéma des serveurs de Google utilisés pour répondre aux requêtes(source : WebRankInfo) Voir aussi sur Google : Cycle de vie d’une recherche

© URFIST de Rennes, 2009 27

1.4 Repères techniques : le classement des résultatsComment Google classe ses résultats ?

D’abord, constitution d’une liste des pages indexées par Google contenant les mots recherchés.

Ensuite, tri des pages selon une série de critères : valeur du PageRank :

PR : établi de 1 à 10 PR <2 : « mauvais »  PR 4-5 : « bon » PR 6-7 : « très bon » PR 8-10 : « excellent »

correspondance entre les mots recherchés et le titre (balise <TITLE>)

correspondance entre les mots recherchés et les textes de liens (textes entre les balises <A> et </A>)

correspondance entre les mots recherchés et les titres de paragraphes (balises <H1> à <H6>)

correspondance entre les mots recherchés et le texte de la page (D’après WebRankInfo )

© URFIST de Rennes, 2009 28

1.4 Repères techniques : évolutions en cours Projet Google Caffeine :

Nouvelle architecture technique pour le crawl et l’indexation En beta test depuis août 2009 Objectifs :

Améliorer vitesse de collecte, d’indexation des documents, d’affichage des résultats…

Reposerait sur les technologies de « cloud computing » Lancement en décembre 09 (sur un seul Data Center, 50% du

temps) Déploiement à venir Voir articles :

L. Bourrelly O. Andrieu

© URFIST de Rennes, 2009 29

1.5 Stratégies...: Google, maître des images ? Chercher des images (juin 2001) : Google Images

Plusieurs milliards d’images indexées Enjeux énormes de la recherche d’images : plus de 100 milliards

d’images produites chaque année, déferlement des images sur le web, concurrence acharnée des grands moteurs...

Google Images : 2ème service de Google le plus utilisé au monde (10 % environ) Croissance de 35 % entre 2006 et 2007

Problème des droits d’auteur Différents formats de fichiers

Innovations Filtrage sur visages, actualités, taille, formats, couleurs ...

Image Swirl et Wonder Wheel : regroupement d’images par similarité

© URFIST de Rennes, 2009 30

1.5 Stratégies...: Google, nouveau navigateur, nouvel acteur de téléphonie ?

Google Chrome : Le navigateur de Google + applications web hors

navigateur Lancé en septembre 2008 Code source sous licence

libre Moteur WebKit

Réactions : Bilan contrasté des

premières utilisations Big browser / Big Brother

Nouveauté : scripts GreaseMonkey / Firefox

Google Phone : « ordinateur de poche communicant »

Lancement du 1er google phone

Technologie Android = système ouvert proposé par Google

Constructeur taïwanais HTC

Développement de programmes

Services : Moteur, Google Maps et Street View, Gmail …

Concurrent d’Apple, Nokia …

© URFIST de Rennes, 2009 31

1.5 Stratégies...: Google, nouveau réseau social ? L’offensive de Google dans les

réseaux sociaux : le projet OpenSocial

Jusque là, 5ème place de Google dans le monde des réseaux sociaux

OpenSocial lancé en nov. 2007 / OpenSocial Foundation

Ensemble d’interfaces de programmation : Regroupe API communes

permettant le développement d’applications web pour sites partenaires (réseaux sociaux et sites communautaires)

A la base : Orkut + sites partenaires du

projet (Xing, Friendster, Hi5, LinkedIn, mySpace …)

Evolution Fin 2007 : ralliement de

MySpace ; soutien de Viadeo et Xing

Mars 08 : Yahoo rejoint OpenSocial

Introduction de la “barre sociale”

Développement d’un moteur de recherche social : Google Social Search

© URFIST de Rennes, 2009 32

1.5 Stratégies... : Google, nouveau ministère de la santé ?

Google Health

Lancé sur Google.com Création de profils de santé

personnels Téléchargement de

rapports médicaux depuis le cabinet médical ou la pharmacie

Conseils et informations Recherche de médecins et

services Partage d’informations

Les questions posées par Google Health Sécurité des données

médicales personnelles Nécessité de normalisation

dans la saisie des données médicales

Pratique des médecins par rapport à Google ?

Projet d’extension à d’autres pays

© URFIST de Rennes, 2009 33

1.5 Stratégies...: Google, première agence de presse mondiale ?

Google News (Actualités) : Créé à la suite du 11/09/01, lancé en mars 2002 Diffusion en continu d’infos sur l’actualité Sélection de 25 000 sources d’information (avec les archives) Plus de 40 versions nationales de Google News Automatisation complète Collecte et analyse de chaque source par un robot spécial Classement automatique des informations dans des rubriques

prédéfinies Récemment sur Google News, recherche locale, catégories

personnalisées Nombreux conflits :

Avec les agences de presse, les journaux... Problème récent : affichage de publicités sur Google News ;

réticences des éditeurs de presse

© URFIST de Rennes, 2009 34

1.5 Stratégies...: Google, bibliothèque numérique mondiale ?

Du projet BackRub à Google Books 2004 : Google Livres, service en ligne permettant d’accéder à des

livres numérisés Deux volets du projet :

Projet Bibliothèques : (Google Library) Programme Partenaires / Editeurs : mise en ligne d’extraits

d’ouvrages et promotion auprès de librairies en ligne (Google Print) Mais un seul programme de numérisation

“Le service Google Recherche de Livres s’inscrit dans notre travail d’organisation des informations mondiales, afin de les rendres universellement accessibles et utiles.” (Jens Redmer, 2007)

Marché de l’information versus Bibliothèque universelle Débat autour de la numérisation et de la constitution de collections

numériques par Google : position dominante de Google dans l’économie des contenus en ligne / qualité de la numérisation

Droits d’auteur et actions des éditeurs (renversement par Google de la logique du copyright)

© URFIST de Rennes, 2009 35

1.5 Stratégies...: Google, bibliothèque numérique mondiale ?

Où en est-on aujourd’hui ? La collection

Environ 12 millions de titres aujourd’hui : Livres + Magazines Livres en librairie et sous droits d’auteur Livres sous droits d’auteurs mais épuisés Livres non soumis au copyright Registre des droits du livre

Accords avec de nombreuses bibliothèques universitaires et publiques américaines et européennes En France : BM de Lyon, BNF (en cours de négociation)

Le contentieux avec les éditeurs / numérisation Recours collectif engagé en 2005 (Author’s Guild, AAP) / Open Book Alliance Accord présenté le 13/11/2009 entre Google et les éditeurs anglo-saxons Protestation du SNE En France : le 18 décembre, La Martinière / Le Seuil gagne son procès contre

Google ; appel de Google La question des relations BNF / Google et le Conseil du Livre du 22/03

Et maintenant , la librairie Google… cet été

© URFIST de Rennes, 2009 36

1.5 Stratégies...: Google, premier portail scientifique mondial ?

Lancement de Google Scholar en novembre 2004

Indexation de littérature scientifique mondiale : Livres, articles, textes sur

archives ouvertes, préprints, bases de données bibliographiques…

Orientation stratégique de Google : Devenir guichet d’accès à

l’IST Concurrent direct

d'Elsevier (Scopus)

Nombreux partenariats : universités nord-

américaines éditeurs scientifiques

américains bibliothèques :

Catalogue OCLC : Open WorldCat

Sudoc 150 bibliothèques

INIST Google comme premier

point d’accès à l’IST française

© URFIST de Rennes, 2009 37

1.5 Stratégies...: Google, portail scientifique mondial ? Stratégie de Google :

« guichet universel » pour la science

grand catalogue mondial Succès de Google Scholar :

Très bon accueil dans les universités

Ancrage dans les bibliothèques anglo-saxonnes, et européennes : Initiative Library Links

Rivalité avec l’ISI : Même nombre de citations que

l’ISI

Intérêt de Google Scholar : Accès gratuit à l’IST, même

en référence secondaire Valorisation et visibilité des

AO Intérêt des citations Visibilité des chercheurs Pas de publicité

Problèmes posés : Situation dangereuse de

monopole d’accès Gratuité pour le moment,

mais jusqu’à quand ? Effets pervers de l’indice de

popularité Opacité du corpus

© URFIST de Rennes, 2009 38

1.5 Stratégies...: Google, portail juridique mondial ? Nouveauté sur Google Scholar (17/11) :

Accès à l’ensemble de la jurisprudence américaine : décisions de justice des tribunaux d’Etats, des cours

fédérales et de la Cour Suprême américaine Bouton à cocher : « Legal opinions and journals »

Projet d’extension à tous les pays anglo-saxons

Positionnement fort sur le terrain de l’information juridique : Concurrence avec Lexis/Nexis ? Google : « service public d’accès au droit » ? Monétisation des accès par la publicité Poursuite de stratégie d’omniprésence de Google sur tous les

champs de l’écrit

Recherche parmi les publications de brevets

© URFIST de Rennes, 2009 39

1.5 Stratégies...: Google, premier éducateur mondial ? Literacy Project

Lutter contre l’analphabétisme (septembre 2006) Diffusion de contenus favorisant

le développement de la lecture et de l’éducation:

Coopération : soutien de campagnes, projets

Livres, vidéos, articles scientifiques, LitCam, blogs...

Partenariat Google / UNESCO / LitCam

Site en français

La journée mondiale du livre avec le Literacy Project (avril 2008)

Google Apps Education = outils gratuits de communication, de collaboration et de publication

Développement dans l’enseignement supérieur 1er établissement français

: Portail My Esc Lille : http://partnerpage.google.com/esc-lille.fr Moteur de recherche,

Google Docs, Google Talk, Google Agenda, Gmail…

Dans de nombreuses universités de par le monde

Le Tout-Google ?

© URFIST de Rennes, 2009 40

1.5 Stratégies...: Google, premier office du tourisme mondial ?

Google Street View Initiative lancée en 2007 Option créée sous Google Maps Visualisation des villes en 3D via Google Maps et Google Earth

Selon Google : > 293 téra-octets de données pour la France ! Succès considérable Développement de Street View :

Google Street View disponible pour 20 pays Au total, 33 pays concernés (mars 09)

Le dernier en vue : la Croatie Dans les villes françaises :

Exemple à Rennes

Conflits : le dernier sur la captation de données d’identification sur les réseaux Wifi

Google Latitude, outil de « géolocalisation sociale »

© URFIST de Rennes, 2009 41

1.5 Stratégies...: Google, cartographe de l’univers ?

Google explore l’univers : les innovations liées à la cartographie et la géolocalisation

Après Google Sky, Moon et Mars, Google Ocean : Projet en cours d’élaboration Module d’exploration des fonds marins en 3 dimensions Exploration de la topographie des sols marins Ajout d’autres paramètres : températures, emplacement des

épaves… Moyens : cartographie des fonds marins, ou du moins mise à

disposition des images déjà disponibles Données issues de Google Maps, de laboratoires d’universités,

d’instituts de recherche océanographique

© URFIST de Rennes, 2009 42

1.6 Google et nous

« Nous n’en savons pas assez sur vous », Eric Schmidt, PDG de Google

Google, nouveau Big brother ? La conservation des données personnelles

Les efforts de transparence et leurs limites

Google, nouveau panopticon ? Street et le droit à l’image

© URFIST de Rennes, 2009 43

1.6.1 Google, “big brother” mondial ?

Source : Googlinside

© URFIST de Rennes, 2009 44

1.6.1 Google, “big brother” mondial ?Présence de Google dans (au moins) 10 domaines d’activités :

News : Alertes Google, Google News, Google Finance Blogs et RSS : Blogger, Feedburner, Google Reader Analyse de trafic : Google Analytics, Trends, Zeitgeist, Site Maps Bureautique : Gmail, Docs & Spreadsheet, Calendar, Writely, Desktop,

Greenborder E-commerce : Google Checkout, Base, Froogle Téléphonie : Dodgeball, Google Phone (en préparation), GTalk, services

mobiles Publicité : AdWords, AdSense, AdScape, Double Click Réseaux sociaux : Orkut, Jotspot, Google Groups Audiovisuel : Google Video, YouTube, Google Images, Picasa Cartographie : Google Earth, Google Maps, Sketchup, Mars, Panoramio (d’après Googlinside)

© URFIST de Rennes, 2009 45

1.6.1 Google, “big brother” mondial ? Quelles données recueillies par Google ?

Sur un compte personnel : Nom, adresse mel, mot de passe

Sur chaque accès à une page Google : Envoi de cookies : identification du navigateur, cookie

publicitaire… Sur chaque requête :

Adresse IP, date et heure, type de navigateur, mots-clés Sur Gmail :

Sujets des messages, pour envoi de publicités contextualisées Sur les services affiliés :

Informations personnelles transmises au service Sur Google Maps Mobiles :

Données de géolocalisation

© URFIST de Rennes, 2009 46

1.6.1 Google, “big brother” mondial ?

Dangers du rachat de DoubleClick (mai 07) : Première régie (1997) et

leader du marché publicitaire : gère les bandeaux publicitaires

Toucherait 80 à 85 % des internautes

Plus grande base de cookies du monde : 1,1 milliard de personnes !

Plusieurs plaintes aux EU

Question de la durée de conservation des données de connexion : Conflit avec la Commission

Européenne : Avril 08 : durée de

conservation des données fixée à 6 mois.

Reculs progressifs de Google : Durée de conservation

illimitée, de 98 à 2007 Mai 07 : 18 à 24 mois Sept. 08 : Google

réduit à 9 mois la durée de conservation

© URFIST de Rennes, 2009 47

1.6.1 Google, “big brother” mondial ? Ambivalence des discours de Google :

Reconnaissance progressive du problème de la conservation des données personnelles, mais : Position ambiguë ou (faussement) angélique Politique du fait accompli: cf Google Street Argument délirant de Larry Page (sur la grippe) ! :

« Le fait d’avoir ces données personnelles a beaucoup de valeur. Moins on gardera de traces comme celles-là, plus on aura de chances de tous mourir » (mai 2009).

Efforts de transparence, jusqu’à un certain point…

Lancement du « Front de Libération des Données »… par Google

© URFIST de Rennes, 2009 48

1.6.2 Les efforts de transparence de Google et leurs limites

Efforts de Google dans l’information sur les données personnelles : Centre de confidentialité des données :

Volonté de transparence : explication des conditions d’utilisation des données personnelles Mais pas de liste des « services associés »

Choix de l’utilisateur : possibilité de désactiver les cookies publicitaires

Pas d’identification personnelle abusive Depuis juillet 2008, accès depuis la page d’accueil

© URFIST de Rennes, 2009 49

1.6.2 Les efforts de transparence de Google et leurs limites

Lancement de Google DashBoard, début novembre 2009 Visualisation de toutes les traces laissées sur les

applications Google : Requêtes web, utilisation des services Google, etc.

Possibilité de gérer ses traces : Effacement des requêtes, gestion des alertes, etc.

Limites : Gestion des traces laissées volontairement et non celles

récupérées par Google à notre insu Quid du croisement des données par Google ?

Illusion de maîtrise par l’usager de ses usages ?

© URFIST de Rennes, 2009 50

1.6.2 Google et les failles de sécurité

Problèmes des failles de sécurité et du cryptage des données : Bug sur Google Docs (7 mars 2009) : partage non

autorisé de documents privés entre utilisateurs ; dénonciation des « pratiques laxistes » par l’EPIC, enquête du Gouvernement américain ;

En Australie, découverte (20 mars) de 22 000 cartes bancaires dans le cache de Google

http://fr.techcrunch.com/2009/03/27/fr-pourquoi-google-nest-pas-invincible/

© URFIST de Rennes, 2009

© URFIST de Rennes, 2009 52

1.6.2 Google,

panopticon mondial ? Google Street View Nombreux procès, réactions négatives :

Aux USA, au Japon, en Grèce, en Allemagne, en France… Deux problèmes juridiques posés par G. Street View :

Notion de donnée personnelle : Visage, plaque d’immatriculation = données personnelles

Autorisation nécessaire des personnes photographiées En France, intervention de la CNIL (3 juillet 2008), obligeant Google à

flouter les visages des personnes, les plaques d’immatriculation… Floutage comme contournement technique du droit

Le droit à l’image : Des personnes :

Protection de la vie privée, représentation d’une silhouette.. Floutage souvent insuffisant, reconnaissance possible Problème des photos prises dans un espace privé : ex. du Japon

Des biens : Plaintes possibles contre Google

© URFIST de Rennes, 2009 53

1.6.2 Google, panopticon mondial ?

Au-delà des aspects juridiques, problème de la transparence (surveillance) généralisée, posé par Google Street View

Google Latitude : Application lancée en février 2009 dans 27 pays Service de géolocalisation des personnes, à partir du

téléphone mobile (et de l’ordinateur) : Compatible avec plusieurs mobiles Transmission en temps réel de sa localisation à son réseau, suivi

sur Google Maps.. Enjeux de profilage marketing

Des techniques "potentiellement liberticides«  (CNIL) Problème d’une société de (l’auto-) surveillance

© URFIST de Rennes, 2009

© URFIST de Rennes, 2009 55

1.6 Sur les effets possibles des pouvoirs de Google… dans l’avenir

Voir la nouvelle de Cory Doctorrow, « Scroggled », traduit en français par C&F Editions « enGooglés » :

« Pas si simple. Voilà le truc : la surveillance du DHS dans les aéroports n'est rien qu'un premier tri. Cela permet aux affreux d'affiner leurs critères de recherche. Une fois que tu as été retenu pour un interrogatoire complémentaire à la frontière, tu rentres dans la catégorie personne intéressante - et ça ne s'arrête plus jamais. Il vont passer en revue les webcams à la recherche de ton visage et de ta démarche . Il vont lire ton courrier, il vont étudier tes recherches en ligne. »

© URFIST de Rennes, 2009 56

1.7 Questionnements critiques

Nécessité d’un discours critique sur Google, compte-tenu de son hégémonie et des questions posées

Au moins quatre critiques, entrecroisées : Dénonciation des dangers du monopole : “le monde

selon Google” Alerte face aux dangers de la traçabilité, de la

conservation des donnéées personnelles... Vigilance face à la “googlisation” des usages Critique de “l’idéologie Google”, de

“l’impérialisme du bien”

© URFIST de Rennes, 2009 57

1.7 Questionnements critiques :le « monde selon Google »

Risques de monopole d’une entreprise privée sur tous les secteurs de l’information : Dangers de tout monopole Google maître de l’Internet ?

Domination de tous les domaines de l’information : recherche d’information, vidéos, info. scientifique, géolocalisation, dossiers médicaux...

Ampleur mondiale Nombreuses missions de service public assurées par une

entreprise privée : Google Scholar, Books... Question de l’avenir : quelle politique de Google dans 10 ou

20 ans ? Quelle garantie de gratuité d’accès ? Premières ripostes du gouvernement américain

Voir aussi l’article : Google, la « fascisation » rampante du web

© URFIST de Rennes, 2009 58

1.7 Questionnements critiques : Big Brother Google

Dangers de la traçabilité généralisée : Vouloir “organiser toute l’information du monde” = vouloir être

informé de tout Somme colossale, inédite, d’informations personnelles

détenues par une entreprise privée Pouvoir immense sur les consommateurs :

Cf Google Health Vers une société de contrôle général :

Fichage généralisé des individus par les états + profilage marketing des consommateurs par les

grandes sociétés + transparence des réseaux sociaux + géolocalisation des individus et des objets

© URFIST de Rennes, 2009 59

1.7 Questionnements critiques : la « googlisation » des usages

“La vie selon Google” : L’utilisation exclusive de Google pour différentes opérations

informationnelles Accès universel pour tous les types de services proposés par

Google http://partnerpage.google.com/esc-lille.fr

“Googlisation” des usages : Cf élèves et étudiants qui ne connaissent plus que Google

Risques de cette “googlisation” : Appauvrissement des usages, des pratiques et des

connaissances en matière d’information Conditionnement par l’idéologie Google Soumission au monopole de Google

© URFIST de Rennes, 2009 60

1.7 Questionnements critiques : les pièges de « l’idéologie Google »

Deux proclamations célèbres : “Google a pour mission d'organiser à l'échelle mondiale les

informations dans le but de les rendre accessibles et utiles à tous.”

“Don’t be evil !” Vision missionnaire, évangéliste de l’information :

“Saint-Google”, patron de l’information ? « L'idéologie Google » :

Dimension morale chez les fondateurs “Impérialisme du bien” Mythe de la transparence

© URFIST de Rennes, 2009 61

1.7 Questionnements critiques : les pièges de « l’idéologie Google »

« Don’t be evil » : mythes et réalités de l’idéologie du bien : Distinction entre la « pureté des résultats » et les liens sponsorisés Investissements réels de Google dans de nombreuses bonnes

causes : Fondation Google, Literacy Project, volonté de rendre accessibles les

ressources… Concours lancé en 2008 pour des projets pouvant « changer le monde » !

Voir les 15 projets philanthropiques retenus Mais fonction d’habillage, de « discours de communication » de

cette posture éthique : Mélange de naïveté morale et de calculs stratégiques Bonne conscience absolue : peu de questionnements auto-critiques des

« googlers » Contradictions avec la réalité et les pratiques réelles de Google :

Cf problèmes sur le droit d’auteur, la censure en Chine, les données personnelles, la politique du secret…

© URFIST de Rennes, 2009 62

1.7 Questionnements critiques : les pièges de « l’idéologie Google »

Trois confusions épistémologiques du discours sur l’information : Sur l’organisation de « toute l’information du

monde » : Confusion entre infos-data, données informationnelles

et information Sur l’accès à la connaissance :

Confusion entre information et connaissance Sur la « démocratie culturelle » :

Confusion entre information et culture

© URFIST de Rennes, 2009 63

1.7 Questionnements critiques : conséquences sur la formation

Enjeux de la formation des usagers : Diversifier les outils :

Nécessité de faire connaître d’autres outils Elever les niveaux d’usage de Google :

Interrogation avancée, différents modules... Déconstruire Google :

Expliquer le fonctionnement technique, économique... Montrer les aspects problématiques : données personnelles

Donner du recul critique : Face à l’idéologie Google et ses confusions Face aux dangers du monopole

© URFIST de Rennes, 2009 64

2ème partie : Mieux exploiter les fonctionnalités et les services de Google

2.1 Maîtriser le mode d’interrogation avancée 2.2 Exploration de 6 modules spécialisés :

Books News Scholar Blogs Images Groups Autres services

© URFIST de Rennes, 2009 65

2 Les différents services et produits de Google : vue d’ensemble

La recherche d’information : Web Groups Images Annuaire News (Actualités) Maps Books Scholar Blogs Desktop Search Earth Video …

La communication : GMail Blogger Talk Mobile

La gestion de sites : Analytics Adwords Sitemaps Adsense

Autres services : Picasa Translate …Voir liste complète :

http://www.webrankinfo.com/google/produits.php

© URFIST de Rennes, 2009 66

2 Les différents services et produits de Google : vue d’ensemble

© URFIST de Rennes, 2009 67

2.1 Maîtriser l’interrogation avancée : les opérateurs de recherche

Opérateurs booléens et de présence : AND : implicite ; différent de + + : prend en compte l’orthographe exacte - : exclut un ou plusieurs termes (SAUF) OR (ou |) : l’un ou l’autre ou tous les termes

Opérateurs numériques : .. = entre (200..300 euros) ..200 = <200 200.. = >200

© URFIST de Rennes, 2009 68

2.1 Maîtriser l’interrogation avancée : les opérateurs de recherche

Opérateurs linguistiques : «… » : recherche d’expression exacte * : astérisque permet de remplacer un terme ~ : recherche sur les synonymes (dans

version anglaise) define: : pour trouver la définition d’un mot

Règle des requêtes : limite des 10 mots

© URFIST de Rennes, 2009 69

2.1 Maîtriser l’interrogation avancée : les opérateurs de recherche

Filtrage sur le type de documents : filetype: ou ext: : recherche sur le format ou l’extension de

fichier Opérateurs de filtrage sur une page web :

pour utiliser les caractéristiques d’une page web site: recherche sur le nom de domaine (hostname)

Lister toutes les pages d’un site Rechercher des fichiers particuliers sur un site (croiser ext: et site:) Affiner une recherche sur un type de sites

inurl: et allinurl: : recherche sur l’URL de la page intitle: et allintitle: : affinement de la recherche sur le titre de la

page (balise Title) inanchor: et allinanchor: : recherches sur les liens contenant

les mots-clés

© URFIST de Rennes, 2009 70

2.1 Maîtriser l’interrogation avancée : les opérateurs de recherche

Opérateurs de fonctions : pour trouver des informations sur une page ou un site cache: : affiche la version cache du document related: : affiche les pages similaires au site ou à la

page indiquée link: : affiche les pages liées à un site (fonction bridée

sur Google) info: : récapitule toutes les informations dont dispose

Google sur un site : version cache, pages similaires, pages liées, pages du site…

© URFIST de Rennes, 2009 71

2.1 Maîtriser l’interrogation avancée : le filtrage des résultats

Nouvelles options de recherche : D’abord sur Google.com ; sur Google.fr depuis novembre 09 Plusieurs possibilités de filtrage :

Sur les types de ressources : blogs, vidéos, actualités… Sur les dates de publication

Options de tri et d’affichage : Sur la chronologie Sur les recherches associées

Affinement et outils : barre latérale gauche de la page de résultats Sur Google.com, opérateur supplémentaire :

Wonder wheel : représentation cartographique des concepts

Résultats Intégration des données de résultats (ex. date de naissance) Fil d’Ariane des pages web

© URFIST de Rennes, 2009 72

2.1 Maîtriser l’interrogation avancée :utilisation des nuages de tags Plug-in pour Firefox : Search Cloudlet

créé par un Institut de recherche en informatique (INTSPEI) Pour télécharger le plug-in : http://getcloudlet.com/

Création d’un nuage de tags à partir d’une page de résultats, sur Google et Yahoo Demander « Affichage des résultats par 100 », dans les Préférences

Double intérêt pour : La navigation dans les résultats :

Clic sur un tag : affinement de la requête Onglet « Sites » : affichage et recherche dans les sites les plus

présents Onglet « Net » : affichage des noms de domaines représentés

La veille : Représentation des grandes thématiques sur un corpus Repérage des « signaux faibles »

(d’après Netsources, n° 78, 2009)

© URFIST de Rennes, 2009 73

2.2 Modules spécialisés : Google Livres

Fonctions : Recherche

fonctionne de la même façon que la recherche web

Consultation des livres en ligne Selon les droits attachés, accès à un aperçu du livre, à des

extraits ou au texte intégral Pour des ouvrages du domaine public, téléchargement pdf

possible

Informations complémentaires Critique de livre, références…

Accès au livre Bibliothèque ou librairie

© URFIST de Rennes, 2009 74

2.2 Modules spécialisés : Google Livres

Affichage du livre en entier

(Source Google Livres)

© URFIST de Rennes, 2009 75

2.2 Modules spécialisés : Google Livres

Aperçu limité

(Source Google Livres)

© URFIST de Rennes, 2009 76

2.2 Modules spécialisés : Google Livres

Affichage d’extraits

Source Google Livres

© URFIST de Rennes, 2009 77

2.2 Modules spécialisés : Google Livres

Exploiter le document et gérer sa bibliothèque à partir du compte personnel Google

Marquer (bookmarks) des livres et les partager Ajouter à sa bibliothèque Annoter, évaluer et commenter les ouvrages Naviguer dans l’ouvrage Consulter les infos sur l’ouvrage Trouver l’ouvrage Rechercher dans l’ouvrage

© URFIST de Rennes, 2009 78

2.3 Modules spécialisés : Google Actualités Recherche dans plus de 500 sources d’actualité en langue

française Recherche avancée :

Filtrages possibles sur : La source, la date, le lieu, l’emplacement des mots

Opérateurs de recherche : intitle: et allintitle: : dans le titre des articles intext: et allintext: : dans le texte des articles inurl: : dans un site particulier source: : sur une source précise

Source:Libération location: : dans un pays précis

Location:Algérie

© URFIST de Rennes, 2009 79

2.3 Modules spécialisés : Google Actualités

Fonctionnalités : Personnalisation :

Ouvrir Modifier cette page Voir aussi sur les InfoStratèges.com

Veille : Syndication de fils RSS Abonnement gratuit aux alertes : par thèmes...

Deux nouveautés : Recherche dans les archives de journaux Recherche d’informations locales pour la France

Google News Archive Search : Archives de presse Lancé en 2006, généralisé en 2008 Recherche dans 200 ans d’archives de journaux

Affichage de chronologies Pour en savoir plus : voir brochure de Google

© URFIST de Rennes, 2009 80

2.4 Modules spécialisés : Google Scholar Préférences :

interface en français Lien vers bibliothèques

Champs et opérateurs avancés d’interrogation : Sur l’auteur :

author: ou champ Auteur en mode avancé Sur le titre d’une revue :

Uniquement en mode avancé : champ Publication, Sur le titre d’un article ou d’un document :

Opérateur intitle: Sur la date :

Uniquement en mode avancé : champ Date Pour en savoir plus

© URFIST de Rennes, 2009 81

2.5 Modules spécialisés : Google Blogs BlogSearch :

Lancé en sept. 2005 Au début, collecte des contenus par les fils RSS et non par le robot ;

depuis automne 2008, indexation par le robot web Indexation en temps réel

Fonctionnalités de recherche : Sur le titre du blog Sur l’adresse d’un blog Sur le titre d’un billet Sur l’auteur Sur les dates

Conservation des anciens billets : Recherche possible sur les anciens billets en précisant la date

© URFIST de Rennes, 2009 82

2.6 Modules spécialisés : Google Images De nouvelles modalités pour la recherche d’images :

Filtres de Google Image : Filtrage par type de contenus : recherche de visages, images

d’actualités, dessins, photos, images clipart Filtrage par taille des images Filtrage par format d’image et format de fichier Filtrage des couleurs

En ajoutant à l'URL de la page de résultats le paramètre "&imgcolor=" suivi du nom anglais de la couleur de votre choix

Filtrage par domaines Filtrage par type de licence SafeSearch Images similaires

Problèmes récents de pertinence de la recherche et du classement des résultats sur Google Image

Voir le site Googr.net

© URFIST de Rennes, 2009 83

2.7 Modules spécialisés : Google Groups

Chercher ou créer un forum de discussion ( > avril 2001) :

Google Groups : Ancienne base de DejaNews Toutes les archives de Usenet depuis 1976 Recherche + possibilité de créer un groupe

Recherche : Sur la date des messages Sur le nom du groupe Sur l’objet du messsage Sur l’auteur du message Sur son ID

© URFIST de Rennes, 2009 84

2.8 Services de recherche d’information : alertes, pages perso.

Google Alerts Alertes Google Actualités :

février 2004 en France Google Web Alertes : mars

2004 Fusion en septembre 2004 :

une seule interface Système de veille, avec envoi

par mel d’articles (News), de textes (Web)…

Paramètres : Indication de mots clés Domaines de recherche

(actualités, web, groupes, tous les types)

Fréquence de l’alerte mail

IGoogle : création de sa page

personnalisée Sélection de centres

d’intérêt Choix d’un thème Modules Google Ajout de flux RSS

Google Reader : Agrégateur RSS de

Google permettant d’afficher les flux sur la page personnelle

© URFIST de Rennes, 2009 85

2.9 Services de recherche d’information : moteur personnalisable

Définition des moteurs personnalisables : Choix par l’internaute du périmètre des recherches :

ensemble donné de sites web, thématique précise, type d’informations

Compte gratuit, système de veille Tendance actuelle des moteurs de recherche Google Custom Search Engine :

Lancé en octobre 2006 Base du moteur : index de Google Pas de limite au nombre de sites Possibilité d’intégrer le moteur sur un site privé

Ex. : Réseau Urfist

© URFIST de Rennes, 2009 86

2.10 Outils de suivi de Google

Google Zeitgeist : Liste des requêtes les plus populaires posées sur

Google Publiées tous les mois et tous les ans sur la

version américaine : Voir Zeitgeist 2008

Consultation des Zeitgeist par pays Intérêt sociologique et historique