64
Sommaire Introduction I) Le recueil de documents Les outils de recueil de documents Les robots Les outils de recherche Moteurs de recherche Outils d'indexation sur le contenu Les répertoires Exemple de répertoire commercial : Yahoo ! Exemple de répertoire non lucratif : The Open Directory Project (ODP) Les outils de surveillance de site Internet Les navigateurs Internet Les navigateurs hors connexion Deux outils gratuits, C4U et Urlywarning Le Web invisible et les formes de documents Les pages Web Les forums de discussions et les Newsgroups : Les discussions en direct Les documents Multimédias Comment réduire le silence ? Explorer le Web invisible Invisible Web Google Ilor Internet Archive Wayback Machine Les métamoteurs de Recherche Les agents de recherche (principes, portée, limites) Un Méta-Moteur gratuit : Copernic Les agents de recherche payants Le langage de la recherche Comment réduire le bruit ?

L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Embed Size (px)

Citation preview

Page 1: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Sommaire

IntroductionI) Le recueil de documents

Les outils de recueil de documentsLes robotsLes outils de rechercheMoteurs de rechercheOutils d'indexation sur le contenuLes répertoiresExemple de répertoire commercial : Yahoo !Exemple de répertoire non lucratif : The Open Directory Project (ODP)

Les outils de surveillance de site InternetLes navigateurs InternetLes navigateurs hors connexion Deux outils gratuits, C4U et Urlywarning

Le Web invisible et les formes de documentsLes pages WebLes forums de discussions et les Newsgroups :Les discussions en directLes documents Multimédias

Comment réduire le silence ?Explorer le Web invisible Invisible WebGoogle IlorInternet Archive Wayback MachineLes métamoteurs de Recherche Les agents de recherche (principes, portée, limites)Un Méta-Moteur gratuit : CopernicLes agents de recherche payantsLe langage de la recherche

Comment réduire le bruit ?les sites d'informations spécialisés dans le domaine ou dans un domaine procheLes opérateurs de proximité :Le mélange recherche par mots clés/ recherche catégorielleComment éliminer les pages désuètes ?Les autres filtres

II) Le traitement automatique de l’information

Page 2: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

L’information semi-structuréeL’infométrie appliquée aux newsgroups

L’information non structuréeLa fouille de données de la Toile (Web Mining ou Internet Data Mining)La visualisation cartographique interactive de l’informationExemple du méta-moteur Kartoo

Le classementVivisimoArisemWebCompass

Le Résumé de Texte Automatique (RTA)l’extrait le résumé PertinenceExtractor

III) Le traitement humain de l'information

Comment caractériser les sources?Caractérisation immédiateLes effets d'expérienceexemple d’évaluation de site Internet

Les types d'informationsLes types d'informations crédibles sur les sites des concurrentsLes informations légalesLes produits-servicesLe non-dit

Quelle attitude adopter face à la désinformation?Les méthodes de désinformationSolutions contre la désinformationLe recoupement: une illusion?

Les informations à creuserLes pages similairesLieux de maintenance: existe-t-il des sites Internet locaux? Les contratsL’adresse Internet du site qui diffuse l'informationprises de participations, filiales et maisons mères, alliés et partenairesLes offres d'emploiTransporteurs aériens et industrie aéronautique

Page 3: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

ConclusionBibliographie

Page 4: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Introduction:Dans le milieu de l’aéronautique, les rumeurs sont nombreuses et encore plus depuis la crise du 11 septembre 2001, et Internet agit comme une caisse de résonance comme en témoigne cet article du Monde :http://interactif.lemonde.fr/article/0,5611,2857--234210-0,FF.html(page consultée le 10/11/2001)"Depuis le 11 septembre, les rumeurs enflent sur Internet.Mais, si les guerres et grandes catastrophes ont toujours inspiré d'innombrables rumeurs, Internet amplifie considérablement ce phénomène (…). Face à la rapidité de transmission et à la dimension mondiale du courrier électronique, il est encore plus difficile de lutter contre la désinformation." Bien sûr, Internet relaie des plaisanteries de mauvais goût comme celle qui disait qu’un des numéros de vol des avions détournés était Q33NY http://www.hoaxbuster.com/hliste/01_09/Q33NY.html, ce qui ne correspond pas à la numérotation en vigueur. Mais le Web contient aussi des rumeurs portant sur des entreprises du secteur. Il peut s’agir de rumeurs de faillites, d’alliances, de rachats, de rabais sur les achats d’avions…Une compagnie aérienne qui passe pour être proche de la faillite fait peur aux clients, en perd et…peut faire faillite. De même, une compagnie qui pense que les prix des avions baissent sera tentée de faire baisser les prix.Ces rumeurs sont parfois présentes dans les banques de données payantes ou les revues spécialisées, mais ces bases sont soumises à une discipline (plusieurs personnes doivent donner leur accord avant qu’un article y soit publié). En revanche, sur la partie gratuite d’Internet, n’importe qui peut dire n’importe quoi, en particulier sur les pages Web personnelles.Par information gratuite, j’entends la partie d’Internet en libre accès même si les matériels et logiciels pour y accéder peuvent être payants.Dans ce mémoire, je m’attacherais à évaluer la portée et les limites de l’information gratuite sur Internet dans le domaine de l’intelligence concurrentielle, en prenant comme exemple de domaine de recherche d’informations la maintenance des avions en Asie.Par maintenance avions, j’entends maintenance, réparation, petit et grand entretien de tout ou partie d’avion.

maintenance des avions en AsieEntrent dans le domaine de recherche d’informations les établissements de maintenance avions en Asie qu'il appartienne ou non à une firme asiatique.Pourquoi faire un mémoire portant sur le Web ?L’explosion du Web rend difficile l’exploitation de la masse d'informations qui s’y trouve. J’ai voulu montrer par ce mémoire que ce problème n’est pas insurmontable.Pourquoi en Asie ?Il est intéressant d’étudier un continent ou l’information est relativement peu publiée.Beaucoup de grandes entreprises japonaises, par exemple, n’ont publié que récemment leurs vrais bilans.

Page 5: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Nous aborderons ce sujet en évoquant les questions qu’il amène dans l’ordre chronologique où elles se posent :Quels sont les outils pour trouver des documents et où trouver les documents?Quels traitements automatiques peuvent valoriser ces documents ?Quels traitements humains peuvent valoriser ces documents ?

Page 6: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

I) Le recueil de documents

Les outils de recueil de documentsLa variété des types de documents disponibles sur la Toile a pour conséquence la variété des outils pour les obtenir. Le prix des outils est lié à leur degré de sophistication, la gamme va du logiciel gratuit (graticiel ou freeware) au moteur sémantique à plusieurs centaines de milliers de francs.

Forums de discussion et listes de diffusionLes contenus peuvent être récupérés grâce aux logiciels de messagerie (Outlook, par exemple).Pour les autres formes de documents, il existe plusieurs moyens pour se les procurer :Les aspirateurs de sites :

http://www.topgratuit.telecharger.com/windows/Internet/aspirateur/ pages consultée le 03/09/2001Ils servent à recopier tout ou partie de sites Internet. Pour rester dans la légalité, il faut soit obtenir l’autorisation des auteurs du site, soit faire la copie dans un répertoire temporaire (comme temporary Internet files de Microsoft Internet Explorer).

Les robots

Exemple de robot grand public: Webreaper (http://www.Webreaper.net/download.html)Ce logiciel copie une page spécifiée par l’utilisateur et les pages liées directement et indirectement. Ces pages peuvent ensuite être consultées sans être connecté, et. Contrairement aux aspirateurs de site, qui ouvrent un nombre limité de liens, ce logiciel n’est limité que par la taille du disque dur de l’ordinateur.

Les outils de recherche

moteurs de recherche (principes, portée, limites)

« Gigantesque base de données sur le Web que vous pouvez appeler à partir de mots clés.  »http://www.dicofr.com/def2/m/m042.html dictionnaire de l’informatique 03/09/2001 « Les robots constituent un service en amont dont le but est de recueillir les données afin de mettre à jour une base de données W3. Le service de repérage est, quant à lui, un service en aval qui correspond naturellement à l'interface utilisateur pour effectuer la recherche. Enfin, les moteurs de recherche offrent des services pour tirer profit des données et établir le pont entre la base de données W3 et l'interface utilisateur. » Jean-Noël Plourde http://www.fas.umontreal.ca./ebsi/cursus/vol1no2/plourde.html août 2001

outils d'indexation sur le contenu (Altavista)

Page 7: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

“Le service indexe au préalable un certain nombre de pages Web sur la planète. Cette indexation s'effectue en texte intégral, tous les mots de toutes les pages référencées devenant alors des index de recherche potentiels. (…)L'indexation préalable des pages peut se faire de deux façons différentes :- Par déclaration volontaire du responsable du site Web distant qui indique au moteur de recherche (sous la forme d'un formulaire sur le Web) l'existence de son service par un choix sélectif de mots clés Sur la base de ces mots clés le moteur indexe alors toutes les pages du service qui est ainsi référencé. Ce type d'indexation vaut par sa précision.- Au travers de robots qui parcourent de façon automatique le Web et ses pages d'information. Ces robots logiciels partent d'un certain nombre de pages de base, et testent tous les liens hypertexte rencontrés sur chacune des pages atteintes. »http://www.cybercable.tm.fr/~biblioa/motscles.html - motclé Bibliothèque Médicale A.F.Lemanissier page consultée le 03/09/2001

Les répertoiresLe principe du répertoire est de ranger les pages dans des catégories.

Exemple de répertoire commercial : Yahoo !Si on s’intéresse à la maintenance d’avions à Singapour, on trouvera dans la catégorie http://dir.yahoo.com/Regional/Countries/Singapore/Business_and_Economy/Business_to_Business/Transportation/Aviation/Aircraft/ les entreprises B/E Services Singapore et Windsor Airmotive Asia. Ce genre de classement amène beaucoup de silence, de plus, du point de vue de l’ergonomie, le classement varie d’un pays à l’autre.Ce répertoire est très décevant.

Exemple de répertoire non lucratif : The Open Directory Project (ODP)http://www.idf.net/articles/open-directory-project.html (page consultée le 13/11/2001)En fouillant sur le site, on obtient la catégorie suivante :http://dmoz.org/Business/Industries/Transportation/Aviation/Aircraft/Maintenance_and_Repairs/ qui contient surtout des liens vers des entreprises américaines.Ce répertoire n’est pas satisfaisant non plus.

Les outils de surveillance de site Internet

Les navigateurs Internethttp://memoireonline.free.fr/agents.htm« On peut penser, en examinant les dernières versions de certains navigateurs ou de certains moteurs de recherche traditionnels que les services rendus par les agents de gestion documentaire seront peu à peu intégrées aux navigateurs à partir du moment où elles seront plus fiables et correspondront à un besoin réel pour le grand public. En effet, la possibilité de surveiller les modifications de sites Web existe déjà dans Microsoft Internet Explorer.”

Page 8: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Les navigateurs hors connexion

Exemple : eCatch http://www.ecatch.com/accueil.htm

Ce logiciel permet de surveiller la totalité des pages d’un site Internet. Il peut dire pour chaque page si elle a été lue, modifiée, supprimée. Ceci nécessite un débit de données très important. En effet la maintenance des avions est souvent un service annexe au transport de passagers, de marchandises, ou à la fabrication de tout ou partie d’un avion et cet outil surveillerait des pages qui n’ont rien à voir avec la maintenance des avions. Dans le domaine de la maintenance aéronautique, il est préférable d’utiliser des logiciels qui ne surveillent qu’un nombre limité de pages :

Deux outils gratuits, C4U et UrlywarningC4U:L'utilisateur paramètre les pages à surveiller et le logiciel détermine par exemple les nouveaux liens sur la page. Il peut aussi détecter les changements du texte, les nouvelles images, adresses e-mail… mais il est interdit de télécharger ces changements sans l'autorisation des auteurs du site.Copernic a une fonction de veille sur une recherche par mots clé mais le même résultat peut être obtenu en demandant à C4U de surveiller une page telle que http://search.dogpile.com/texis/search?q=maintenance+avions+Asie&geo=no&fs=Webqui lance la recherche maintenance ET avions ET Asie sur le méta-moteur Dogpile.

Ce logiciel permet aussi de surveiller l’apparition de mots clé sur une pageExemple : Yahoo! présente chaque jour des nouvelles du secteur aéronautique On demande au logiciel de surveiller MRO and aircraft and AsiaSur les pagesAirline-Aviation News sur http://biz.yahoo.com/n/y/y0002.htmlEt Aerospace Defense News sur http://biz.yahoo.com/n/y/y0001.html

Urly Warning Urly Warning http://www.urlywarning.com/free_download.htm un peu plus élaboré que C4U , raye les mots qui ont été supprimés sur les pages surveillées (et affiche les nouveaux).

Page 9: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Le Web invisible et les formes de documents

(http://www.sciences.univ-nantes.fr/info/perso/permanents/desmontils/InvisibleWeb.html) « Le Web invisible correspond à l'ensemble des documents (textes, vidéos, images...) qui n'est pas indexé par les outils de recherche (moteurs, annuaires...). Ces données peuvent être soient de nature non indexable (animations), non référencées (volontairement ou non), ou dynamiques. [Laurent Soron, "Le Web invisible, cet inconnu..."] »accessibilité du Web(http://www.mmedium.com/veille/mondial/nouvelle.html)" seulement 25 % à 35 % de toutes ces informations sont accessibles "

D’après Arisem, le Web n’est visible qu’à 40%.Le Web invisible contient les forums de discussion, les nouveaux sites, certains types de fichiers comme les fichiers Acrobat (norme de la société Adobe) qui portent l’extension pdf (portable document format) ou les fichiers office (Word, Excel…) car ils ne sont généralement pas indexés par les moteurs de recherche.

Les pages Web

Le Web visible est principalement constitué de pages Web (qui portent l’extension html, xml…), mais la plupart des pages Web font partie du Web invisible.

http://Web.archive.org/collections/Web/faqs.html - exclusionsLe standard d’exclusion de robots (SRE) est un moyen pour les propriétaires de sites d’empêcher à des systèmes automatiques de parcourir leurs sites. Les propriétaires de sites peuvent spécifier les fichiers ou répertoires qui pourront être indexés, éventuellement avec différentes règles selon les robots. Toute cette information est contenue dans un fichier appelé robots.txt.La plupart robots et moteurs de recherche passent outre mais ils sont dans l’illégalité, en effet seules les pages d’accueil (une « home page » par site) peuvent légalement être indexées par les moteurs. On peut cacher ces pages parce qu’elles n’ont rien à voir avec le site (certaines personnes stockent des documents personnels dans les répertoires de leur site Internet), parce qu’elles contiennent des indications utiles aux pirates, ou pour obliger les visiteurs du site à regarder des publicités. De plus, certaines pages disparaissent du Web visible (elles sont enlevées ou déréférencées). Certaines pages sont dynamiques, c’est à dire crées en fonction des besoins de l’Internaute. Yahoo ! fournit par exemple des historiques de cours d’actions qui sont paramétrés par les visiteurs du site.

Un cas particulier de pages dynamiques : le cloacking Cette technique consiste pour un site Internet à changer d’apparence selon le visiteur.Certains sites sont visibles dans un seul pays. D’autres montrent une page d’accueil différentes aux robots et aux navigateurs Internet (service vendu par IP Delivery http://www.ip-delivery.com/ ), d’autres encore montrent des pages dépouillées si on

Page 10: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

passe par un site de surf anonyme comme http://www.the-cloak.com/homepage/index.php3 ou bloquent les navigateurs hors connexion.Solutions :Naviguer à partir du pays où les pages sont visibles si elles sont invisibles ailleurs.Le navigateur hors connexion Teleport Pro peut se faire passer pour un navigateur classique (Internet Explorer ou Netscape)

Page 11: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Les forums de discussions et les Newsgroups :

http://www.edu.polytechnique.fr/Actualite/1999/voc-Internet.pdfdéfinition« Forum : service permettant l’échange et la discussion sur un thème donné: chaque utilisateur peut lire à tout moment les interventions de tous les autres et apporter sa propre contribution sous forme d’articles. »

différence entre un newsgroup et une liste de diffusion :http://csidoc.insa-lyon.fr/sapristi/fristi17.htmlLes listes de diffusion (ou listes de discussion) sont des forums utilisant le courrier électronique. Différence essentielle avec les newsgroups, il est nécessaire d'être abonné pour y participer. L'abonnement à une liste est le plus souvent gratuit, mais toutes ne sont pas publiques ni accessibles.

http://www.geocities.com/SiliconValley/1248/nntp.htmlpage consultée le 18 septembre 2001Note de l’auteur : ici news signifie newsgroup« Un serveur de news public est un serveur de news qui propose à quiconqued'accéder librement et gratuitement aux newsgroups en lecture/écriture ouen lecture seule.

1% des serveurs de news existant dans le monde sont en fait des serveurs de newspublics.

Dans la majorité des cas, il s'agit en fait de serveurs de news privésmal configurés qui deviennent "publics" par la force des choses.

En général, l'administrateur du serveur de news s'en rend compte assezrapidement et coupe l'accès de son serveur aux personnes extérieures.

C'est pour cette raison que la plupart des utilisateurs de serveurs de newspublics sont en constante recherche d'un vrai serveur de news public. »

Discussions en direct (chat)

Aucun « chat » n’a pour sujet la maintenance aéronautique, et les « chats », ne serait-ce que sur l’aviation, sont rares et dépeuplés. Ce genre de support d’information est sans intérêt dans le domaine.

Les documents Multimédias (son, vidéo)Le contenu des fichiers son et vidéo n’est pas indexé. Cela dit, ceux-ci se trouvent parfois sur des pages Web qui les décrivent. Cette description peut être indexée. D’autre part, quand il s’agit d’un discours, celui-ci peut être retranscrit sur une ou des

Page 12: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

pages Web indexées. La retranscription, même fidèle, ne laisse transparaître qu’une partie des informations. Un expert en maintenance d’avions qui regarde une vidéo tournée chez un concurrent et publiée sur son site reconnaît les types d’avions réparés, les pièces changées…et cela lui apprend peut être plus que le commentaire sonore (sauf si c’est une mise en scène).

Comment réduire le silence ?

DéfinitionSilence : absence de réponse à une question posée

Explorer le Web invisible

Invisible Web http://www.invisible Web.com/Ce site Internet doit permettre de trouver des documents exclusivement dans le Web invisible. En pratique, si on lance la requête aircraft maintenance Asia ou même aircraft maintenance, on ne trouve rien.

Google http://www.google.com/ Google est incapable d’indexer le contenu des fichiers son et vidéo, mais c’est un moteur de recherche spécialisé dans le Web invisible. Il permet les recherches dans les fichiers Acrobat et les forums de discussion « deja » (ils ont repris le site « dejanews» qui stockaient les forums). http://www.ledevoir.com/public/client-css/news-Webview.jsp;jsessionid=2666%3A3bea7fdd%3Ac050a1c6caa43fb3?newsid=5826 (page consultée le 8/11/2001)« Depuis le 31 octobre 2001, les programmeurs de Google ont ajouté à ce populaire moteur de recherche une fonctionnalité qui fera frémir les gouvernements et les sociétés du monde entier. En effet, depuis cette date, Google indexe et répertorie le contenu intégral de tous les documents Word, Excel, PowerPoint et Postscript. De quoi révéler petits et immenses secrets aux curieux mal intentionnés du monde, et mettre à mal la sécurité de bien des institutions.”http://www.ledevoir.com/public/client-css/news-Webview.jsp;jsessionid=2666%3A3bea7fdd%3Ac050a1c6caa43fb3?newsid=5898(page consultée le 8/11/2001)« Il nous a été possible de trouver en quelques minutes d'autres fichiers regorgeant d'informations privées. Numéros de carte de crédit et de téléphone, adresses électroniques, adresses IP, numéros de sécurité sociale (l'assurance sociale américaine), il est possible, pour qui possède quelques notions en recherche, de se monter un fichier particulièrement éloquent de données personnelles et, qui sait, de frauder les sociétés émettrices de cartes de crédit.(…) les domaines se terminant par les suffixes .com, .net, .org (dont plusieurs sont situés au Canada) et .mil (militaires) sont ceux qui livrent le plus de secrets.”

Page 13: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Google garde en mémoire des pages qui ont disparu, et transforme des fichiers Acrobat en pages Web. Google « blanchit » donc des informations secrètes et rend leur accès tout à fait légal.

Ilor http://www.ilor.com/Ilor a globalement les mêmes fonctionnalités que Google mais avec des petites améliorations http://www.abondance.com/trucs-et-astuces/outils25.html« lorsqu'on passe sa souris sur un des liens proposés comme résultat, un menu contextuel (appelé "LORLinks Menu") apparaît et propose des choix supplémentaires : archivage dans une liste de favoris, sauvegarde des paramètres de la recherche, etc.”On peut ajouter la fonctionnalité qui permet d’ouvrir le document dans une nouvelle fenêtre.

Internet Archive Wayback Machine

Ceci est un service d’archivage du Web créé par Alexa Internet Corp.http://Web.archive.org/collections/Web/advanced.html (page consultée le 01/11/2001)Pour l’instant, ce service est saturé car victime de son succès.L’archive croît de 12 teraoctets tous les mois.Il permet en théorie de trouver les différentes versions d’un site (ou d’une page) entre deux dates (ou à une date donnée). Il sert à naviguer dans le Web invisible à plusieurs titres :-il stocke les pages supprimées-il stocke des fichiers de formats non indexés par les moteurs classiques (images, vidéos, sons, fichiers Acrobat, programmes…Il est par exemple théoriquement possible de lister toutes les vidéos qui sont ou qui ont été sur un site mais en pratique, cela ne marche pas encore.-les pages dynamiques sont archivéesCela dit, ce service respecte « robots.txt » (fichier présent sur un site et qui interdit la copie de fichiers présents sur ce même site).

Le grand défaut de ce service est qu’il ne permet pas de faire des recherches comme le permettent les moteurs. Il faut savoir à l’avance quel est le site à fouiller. Et quand on sait, on tombe souvent sur un message d’erreur.Pour ce qui est de la recherche par catégorie, il y en a quatre grandes :-le 11 septembre 2001-les élections présidentielles de 2000 aux USA-les pionniers du Web-les sites gouvernementaux (dont un grand nombre de sous-domaines des sites de la NASA de la federal aviation administration comme av-info.faa.gov)Pour l’instant, cet outil n’est pas très maniable.

Page 14: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée
Page 15: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Les métamoteurs de Recherche http://www.olf.gouv.qc.ca/ressources/Internet/fiches/8873187.htm“Logiciel permettant de lancer une requête dans plusieurs moteurs de recherche simultanément.Synonyme(s): métachercheur moteur de métarecherche, multimoteur de recherche, multichercheur »En fait, le métamoteur peut prendre la forme d’un logiciel enregistré sur le disque dur de l’Internaute (comme Copernic) ou d’un multichercheur en ligne (comme Ariane).Les multichercheurs enregistrés localement sont généralement appelés agents de recherche

Les agents de recherche (principes, portée, limites)http://www.agentland.fr/"outil logiciel qui accomplit des tâches sur Internet de façon automatisée, en fonction de ce que vous lui demandez"principe: interrogation automatique de moteurs de recherche, ouverture des liens pertinentsUn Méta-Moteur gratuit : Copernic"Copernic 2001 Server interroge des centaines de sources d'information spécialisées et multilingues (...)génère un rapport de résultats trié par ordre de pertinence, élimine automatiquement les doublons et surligne les mots clés des requêtes."

Les agents de recherche payantsExemple : Arisemhttp://www.arisem.com/fr/tour/watch_edition.html page consultée le 26/10/2001« Véritable tableau de bord (accès thématique) alimenté par des profils de veille, qui scrutent le Web indexé et non indexé. (Le Web invisible représente 60% du Web !). Cette information est analysée automatiquement selon le sens de son contenu, en 4 langues, puis classée automatiquement dans des catégories thématiques : elle est accessible, et véritablement utile pour des prises de décisions, des analyses de marché, d’évolutions technologiques. Les arborescences thématiques et/ou croisées me permettent d’accéder intuitivement et instantanément à l’information juste et juste nécessaire. »La société Arisem vend des outils sémantiques qui téléchargent des pages Web en tenant compte des synonymes et para synonymes. Les para synonymes sont des mots qui ont un sens proche (comme avion et aéronef) :

http://solutions.journaldunet.com/0109/010907_arisem.shtml« Vendredi 7 septembre 2001 Arisem se place au cœur de la gestion sémantique du contenu non structuré

Entreprise fondée en 1996, Arisem s'est positionnée d'emblée sur le segment de la gestion des connaissances. Au centre de son offre : un moteur d'analyse sémantique conçu au départ pour le traitement de grosses quantités de données non structurées.

Page 16: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Depuis, la société a choisi d'étendre ses solutions aux domaines de la veille et du travail collaboratif, avec à la clef un tarif d'entrée de 53 000 euros.

Le moteur d'Arisem s'appuie sur un référentiel de concepts, sorte de thésaurus liant termes et expressions, pour « recontextualiser » le vocabulaire dans un texte. Suite à une demande d’un utilisateur, il commencera par appliquer cette méthode à la requête, ainsi qu'au contenu des documents de la base visée. Puis, il comparera les deux résultats, et donnera une note de pertinence quant au recoupement de leurs réseaux sémantiques respectifs. Ainsi, le mot 'table' dans la demande 'table de calcul' sera associé au domaine des mathématiques, et non à celui du mobilier. Pour l'heure, le module intègre cinq langues (français, anglais, espagnol, italien et anglais) et répertorie près de 500 000 mots et expressions. »

Le langage de la rechercheRecherche en langage naturel http://memoireonline.free.fr/agents.htm« Les outils qui acceptent une formulation des requêtes en langage naturel transforment la requête de manière plus ou moins efficace en prédicats sur des mots clés comme expliqué dans le paragraphe précédent. Par exemple, avec DigOut4 et Autonomy, l'utilisateur introduit sa requête sous forme d'une ou plusieurs phrases qui sont décomposées en concepts ou mots clés de façon à faire correspondre le contenu des questions aux règles strictes d'interrogation des moteurs. Malheureusement, les logiciels ont du mal à comprendre une question. Il semble que la décomposition de la question en mots clés ne se fasse pas de manière correcte car les résultats des recherches ont souvent une très faible pertinence. De plus la manière dont la question doit être formulée pour être facilement compréhensible par le logiciel n'est pas clairement expliquée. DigOut4U permet en outre des recherches multilingues. Une requête formulée en français sera automatiquement traduite en anglais et vice versa. La recherche sera alors multilingue. Attention cependant : la traduction des termes se fait selon un dictionnaire parfois un peu hasardeux. Par exemple le terme d'agent est transformé automatiquement en "personne". Heureusement il est possible de corriger la traduction qui est faite des termes de la recherche. »

Problème : Si on ne dispose pas d’un outil multilingue comme le moteur d'Arisem, dans quelle langue effectuer la recherche?

Recherche en français:Exemple de recherche1e recherche lancée sur le méta-moteur en ligne Ariane (http://www.ariane6.com/)Maintenance avions Asie

1er résultat : Messier-Dowty« En Asie, Messier-Dowty Singapore, société commune avec Singapore Aerospace Manufacturing, a commencé sa première année d’activité. Cette unité est spécialisée dans la production de petits et moyens trains d’atterrissage. »

Page 17: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

« Maintenance-réparation sur le train d’atterrissage d’un Airbus A340 »(illustration d’une image)Il s’agit de bruit (document inutile), en effet, les mots recherchés se trouvent dans des phrases différentes. La page est hors sujet. Les pages suivantes sont aussi hors sujet.

Si on fait la même requête sur le méta-moteur en ligne Dogpile (Maintenance avions Asie) http://search.dogpile.com/texis/search?q=maintenance+avions+Asie&geo=no&fs=Web, les résultats sont mauvais.

Si on fait la recherche en Anglais (Asia aircraft maintenance )sur Ariane, les résultats sont tout aussi mauvais.Recherche en anglais sur Dogpile( Asia aircraft maintenance)http://search.dogpile.com/texis/search?q=asia+aircraft+maintenance&geo=no&fs=Web1er site trouvé : aviation et maintenance en Asie et Pacifique (site australien) : plus proche du sujet2e site trouvé : service de maintenance d’avions de Thai Airways3e site trouvé : Singapore Technologies Aerospace (en se déplaçant sur le site, on voit qu’ils font aussi de la maintenance d’avions)

Conclusion : Il est préférable de faire les recherches en Anglais.De plus, certains sites ne donnent plus d’information en anglais qu’en français (par exemple dans leurs rapports annuels).

Page 18: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Comment réduire le bruit ?

Les sites d'informations spécialisés dans le domaine ou dans un domaine proche

Il est facile d’éviter le bruit sur ce genre de site. Certains contiennent leur propre moteur de recherche, d’autres non. Il faut alors soit télécharger tout le site (ce qui pose des problèmes de droits d’auteur), soit utiliser un moteur de recherche externe au site à fouiller. Exemple : Orient Aviation est une revue qui a un site Internet. Ce site contient des archives, mais pas de moteur de recherche pour les fouiller. On peut lancer une recherche avancée sur ilor.com :Le résultat devra contenir Aircraft Maintenance ET Asia et la page devra se trouver sur le serveur orientaviation.comApparaît alors la page : http://www.ilor.com/searchilor.lor?num=10&searchselector=0&pg=aq&as_q=maintenance+aircraft+Asia&sa=Search&as_oq=&as_epq=&as_eq=&as_occt=any&as_sitesearch=orientaviation.com&as_dt=iDes dizaines de documents apparaissent, tous postérieurs à février 2000 (requête lancée le 03/09/2001). Aucun n’est hors sujet.

Le moteur de recherche Ilor permet de faire une recherche réduite aux mots du titre de la page (si elle en a un). Si on lance une recherche pour trouver une page dont le titre contient aircraft maintenance ET Asia, http://www.ilor.com/searchilor.lor?searchselector=0&pg=&q=aircraft+maintenance+asia&as_occt=title on ne trouve qu’un site australien et il est hors sujet.La recherche sur le titre est adaptée à des domaines moins pointus, à moins de la faire pays par pays :Le recherche d’un titre contenant aircraft maintenance ET China http://www.ilor.com/searchilor.lor?searchselector=0&pg=&q=aircraft+maintenance+China&sa=Search&as_occt=title donne de bons résultats.Il existe aussi des bases de données gratuites qui recensent les entreprises aéronautiques. C’est le cas de Global Aerospace Database http://aerospace.x-cd.com/ qui recense 8000 entreprises. Malheureusement, comme souvent, les entreprises d’aéronautique et de défense sont mélangées.

Les opérateurs de proximité :Quand la page est hors sujet car les termes recherchés y sont dispersés, on peut utiliser un opérateur de proximité grâce à un agent de recherche comme Webseeker (vendu $29.95). On précisera alors dans la requête le nombre maximum de mots séparant les mots clés recherchés.http://www.bluesquirrel.com/products/seeker/(pages consultées le 30/10/2001)L’opérateur de proximité existe sur le méta-moteur Kartoo mais il est simpliste :on peut seulement taper deux mots qui seront séparés par moins de 10 mots dans les pages trouvées.

Page 19: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Le mélange recherche par mots clés/ recherche catégorielle

Si on lance sur Northern Light la rechercheaircraft maintenance Asia dans le formulaire « Business Search »http://www.northernlight.com/business.html en réduisant à la catégorie « Transportation », on obtient des milliers de pages pertinentes.

Les pages totalement accessibles :Northern Light se comporte comme un moteur de recherche pour ces pages.

La collection spécialeNorthern Light affiche un résumé et propose d’acheter l’article. Cela ressemble alors à une base de données bibliographique.http://library.northernlight.com/CK19991014010003333.html?cb=0&dx=1014&sc=0 - doctraduction : Ce qui suit est un résumé gratuit d’un document de grande qualité de la collection spéciale de Northern Light. Si vous voulez acquérir le document dans sa totalité, appuyez s’il vous plaît sur le bouton « acheter le document »texte original « The following is a free summary of a premium quality document from Northern Light's Special Collection. If you wish to purchase the entire document, please press the "Purchase Document" button .

Title: BMW Rolls-Royce

Summary: BMW Rolls-Royce and Ameco (Aircraft Maintenance & Engineering Corp; Beijing, China) form alliance to service BR715 engines on the Boeing 717

Source: Interavia Business & TechnologyDate: 09/1999Price: $1.00Document Size: Very Short (60 words)Document ID: CK19991014010003333Subject(s): china; pacific rim; southern & eastern asia; all company; foreign business; joint venture Joint ventures; International trade Citation Information: (ISSN: 0983-1592) Vol. 54 Iss. 634 Pg. 4Copyright Holder: 1999, Aerospace Media Publishing SADocument Type: Articles & General info; Articles & General info; Articles & General info »

Comme le résumé est clair, l’inconvénient ressemble plutôt à un avantage.De plus, le site fait apparaître une arborescence, les « Custom Search Folders »:Pour la requête ci-dessus, l’arborescence contient 13 rubriques dont : aviation and space technologyAerospace & Defense industry

Page 20: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Civil aviationJoint ventures

La partie Joint ventures (coentreprise) permet de comprendre rapidement les liens entre entreprises.Enfin, Northern Light permet de restreindre la recherche -par les mots du titre (de la page Web ou de l’article)-en spécifiant l’entreprise sur laquelle on veut des informations-dans le cas des études de marché, en spécifiant la firme qui l’a produite-à une revue

Ainsi, en lançant une recherche sur le mot-clé Asia sur la revue Aero Safety & Maintenance,http://www.northernlight.com/nlquery.fcg?dx=1014&cb=0&so=4%3A38+2%3A1658+2%3A1673+2%3A1858+2%3A12818+2%3A1649+2%3A18513+1%3A193+2%3A16590+2%3A1650&qr=Asia&qt=&qb=&qf=&pu=Aero+Safety+%26+Maintenance&si=&d1=&d2=&rv=1&search.x=14&search.y=18 (page visitée le 01/11/2001)on obtient 52 documents quasiment tous pertinents.

Page 21: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Comment éliminer les pages désuètes ?

La plupart des moteurs mélangent résultats anciens et récents.La recherche avancée d’Altavista permet en théorie d’éliminer les pages anciennes mais non en pratique.Nous avons vu dans la partie sur le Web invisible qu’il était possible de retrouver des pages disparues. Il est aussi possible de faire le contraire et de se limiter aux pages récentes.Certains moteurs de recherche permettent de ne sélectionner les résultats les plus récents. C’est le cas d’Excite http://www.excite.com/search/news et Northern Light http://www.northernlight.com/news.htmlDans le cas d’Excite, on ne sait pas jusqu’à quelle date remontent les documents.Northern Light permet de faire une recherche dans des documents remontant àDeux heuresVingt-quatre heuresDeux semaines

Certains agents de recherche permettent de supprimer les liens morts (qui ne conduisent à aucun document). C’est le cas de BullsEye http://www.intelliseek.com/prod/bullseye/pro_trial.htm qui recherche en interrogeant 650 moteurs. Cet agent permet aussi de créer un filtre par date.

Les autres filtresBullsEye contient d’autres filtres pour exclure des adresses Internet, des pays, des mots contenus dans les pages, des pages trop volumineuses, les doublons…

II) Le traitement de l’information

Le traitement automatique de l’information

L’information semi-structurée

L’infométrie appliquée aux newsgroupsL’infométrie consiste à faire des statistiques sur des documents. Sur le Web, les documents sont plus où moins structurés. Certaines pages Web contiennent, la langue, l’auteur… mais l’auteur de la page Web n’est pas contraint de donner ces renseignements, sauf dans les newsgroups. En effet, pour chaque message, on a :-le newsgroup-l’objet-Le nom et le prénom de l’auteur (qui peuvent être faux)-L’adresse e-mail de l’auteur-la date

Page 22: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Les newsgroups sont donc des documents semi-structurés qui se prêtent bien aux techniques utilisées pour la bibliométrie (statistiques réalisées sur les livres)

Comment caractériser les newsgroups ?http://www.netskills.ac.uk/TonicNG/cgi/sesame?detective_fr

« Quelques questions générales à se poser à propos des listes de discussion et de leurs archives:

Quel est l'objectif de la liste? A qui s'adresse-t-elle et quel type de messages peut-on envoyer ? La liste est-elle modérée? ( c'est-à-dire, les messages sont-ils filtrés par le

propriétaire de la liste avant d'être envoyés à tous les abonnés ) Dans ce cas, quel est le rôle du modérateur ?

Combien y-a-t-il de membres ? Quel est leur statut ? Quel est le niveau de trafic sur la liste? ( c'est-à-dire, combien de messages sont

postés par mois ?) La liste est-elle ouverte (tout le monde peut s'abonner ) ou fermée ? Y-a-t-il une page d'accueil? Les archives sont-elles disponibles? Dans ce cas, à quand remontent-elles?

Peut-on y faire des recherches par mots clés?”

Aucun newsgroup ( forum électronique) public n’a pour sujet la maintenance aéronautique. Cependant, en lançant la requête aircraft maintenance Asia sur le site « deja » de Google http://groups.google.com/qui a repris les archives de « dejanews », on obtient des messages dispersés sur plusieurs newsgroups : misc.transport.air-industry.cargo,sci.aeronautics.airliners,rec.travel.air, rec.travel.asia…

En effet les intervenants des newsgroups s’autocensurent, sci.aeronautics.airliners ne contient qu’une vingtaine de messages entre le 18 janvier et le 17 juin 2001. Et ils utilisent de moins en moins leur adresse e-mail dans leurs entreprises respectives pour intervenir dans les newsgroups.Une fois les résultats affichés, on peut accéder à des « fils » qui contiennent le message qui contient les mots recherchés et les messages qui lui sont liés. En effet, sur les newsgroups, les intervenants se répondent, le message de départ et les réactions constituent un fil. http://www.edu.polytechnique.fr/Actualite/1999/voc-Internet.pdf« Fil (de la discussion) : Dans les échanges au sein d’un forum ou entre utilisateurs du courrier électronique, enchaînement des commentaires à un article donné »« deja » permet aussi de savoir dans quels newsgroups est intervenue une personne à partir de n’importe lequel de ces messages.Il est aussi possible de faire des recherches avancées dans les newsgroups, http://groups.google.com/advanced_group_searchpar newsgroup, sujet, auteur, langue, mots clés dans le corps des messages, et entre deux dates. Ces messages peuvent faire l’objet d’un traitement humain (ils contiennent souvent des liens Internet à explorer) ou automatique (dans les newsgroups récréatifs, qui commencent par rec, les informations sur la maintenance aéronautique sont souvent accessoires dans le message et encore plus dans le fil).

Page 23: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Les collèges invisibles :Entre certains intervenants, des affinités apparaissent dans les newsgroups (X

répond beaucoup à Y et peu à Z, Y répond beaucoup à X et peu à Z…), on parle alors de « collèges invisibles » (ici composé de X et Y). Si on pose une question à l’intervenant qui suscite habituellement le plus de réactions (autrement dit le plus écouté), et s’il répond, on a une chance d’avoir beaucoup d’information sur le sujet qu’on a abordé.Les collèges invisibles peuvent porter sur le thème du newsgroup, sur un thème encore plus précis, ou encore sur un thème abordé sur plusieurs newsgroups (comme le transport).SamplerDes logiciels comme Sampler permettent de faire apparaître ces collèges invisibles.On peut paramétrer le nombre d’échanges significatifs (A répond à B..) et ils apparaissent sous forme de carte.

Page 24: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

L’information non structurée

La « fouille de données de la Toile » (Web Mining ou Internet Data Mining)(Ici, la Toile désigne le Web)Cette discipline en est à ses balbutiements. Elle vise à appliquer l’extraction de connaissances à partir des données (ECD) obtenues par la Fouille de Données Textuelles (FDT), en anglais Text-Mining (TM). Pour l’instant, le text mining sert surtout à la veille technologique et à gestion de la relation client. L’intelligence concurrentielle n’est abordée que par le biais des courriers clients.

La visualisation cartographique interactive de l’informationExemple du méta-moteur Kartoo http://www.kartoo.com/http://www.google.fr/search?q=cache:CVO9CtaAdyk:www.kartoo.net/fr/revueI3-final.pdf+visualisation+information+-g%E9ographi&hl=fr&lr=lang_fr“ Kartoo, un méta-moteur de recherche qui combine technique de fouille de texte et nouvelles stratégies de présentation.En aval, il s'agit d'analyser les résultats de façon à simplifier la tâche de l'utilisateur. Outre les analyses de base, permettant par exemple le filtrage des sites jumeaux, Kartoo utilise des techniques de fouille de données textuelles (« text mining ») pour analyser le texte recueilli de sorte à déterminer statistiquement, et bientôt sémantiquement, les principaux thèmes abordés dans les documents résultants. C'est alors que Kartoo quitte les sentiers battus en construisant une représentation graphique des résultats. Cette vue de synthèse (Fig. 1) est composée de boules représentant les sites pertinents et le diamètre de ces boules reflète la pertinence du site pour la requête. Les thèmes extraits automatiquement par Kartoo sont également affichés et liés aux sites d'où ils sont extraits. »

Kartoo dégage des « thèmes » qui sont en fait des mots ou expressions souvent présentes sur les mêmes pages Web que celles qui sont obtenus par la requête.

Exemple on lance la requête Asia aircraft maintenancePlusieurs thèmes apparaissent : maintenance; aircraft; aerospace; services ; Europe ; editorUn site correspond à la recherche : Messier services Asia http://www.intentia.com/w2000.nsf/Index!Openframeset&Frame=Middle&src=/w2000.nsf/pages/FR_3FE93B/qui répare des équipements d’avions à Singapour. Il bien sûr possible de le vérifier sur le site de la société, sur d’autres sites ou sur des bases de données payantes.Kartoo permet de préciser la recherche en éliminant les « thèmes » hors sujet.On retire par exemple le thème « Europe ». On parle alors de « requête dynamique »Les nouveaux thèmes dégagés sont aircraft maintenance repair engineering aerospace servicesIls correspondent tous au vocabulaire de la maintenance aéronautique.En outre, la recherche avancée de Kartoo permet de faire des recherches sur le titre de la page, les mots contenus dans l’adresse, Kartoo a un opérateur de proximité, enfin ce

Page 25: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

méta moteur permet de chercher dans un seul site ou domaine ou de dessiner la carte du site et des sites proches.

Inconvénients de l’outil :Certains mots de la requête apparaissent de nouveau à l’identique, dans une autre langue ou sous forme de synonyme. Nombreux, ils écartent les autres mots significatifs.Si Kartoo relie avion à aviation, cela ne sert à rien.

Page 26: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Classement et mise à disposition

VivisimoCe méta-moteur en ligne propose une arborescence sur deux niveaux en fonction de la recherche lancée.http://www.google.fr/search?q=cache:CVO9CtaAdyk:www.kartoo.net/fr/revueI3-final.pdf+visualisation+information+-g%E9ographi&hl=fr&lr=lang_fr« Un type de filtrage dynamique a été développé par Furnas (1986)Il s'agit d'une technique appelée fisheye. Cette technique a été appliquée àdes visualisations d'arbres et permet de faire apparaître ou disparaître desnœuds de l'arbre en fonction de leur degré d'intérêt »Exemple : requête +aircraft +maintenance +AsiaLe résultat est une arborescence qui au premier niveau donne aviation, aircraft parts ( pièces détachées)…http://vivisimo.com/search?query=%2Baircraft+%2Bmaintenance+%2BAsia&se=Yahoo%2CAltaVista%2CMSN%2CFast%2CNetscape%2COD%2CExcite%2CLooksmart%2CAskJeeves%2CEuroseek&x=55&y=23Au deuxième niveau beaucoup d’autres termes apparaissent et permettent généralement de classer les pages par groupes de deux ou trois. Ce regroupement s’appelle le « document clustering »Exemple : thème : aircraft parts et sous-thème : China aircraft parts and maintenancehttp://vivisimo.com/search?overRequest=2&form=Settings&query=%2Baircraft+%2Bmaintenance+%2Basia&se=Yahoo&se=AltaVista&se=MSN&se=Fast&se=OD&se=Excite&se=DirectHit&se=Looksmart&se=Euroseek&num%3Asort%3Adate=200&language=all&showURL=1&showSummary=1&sproblème : les documents affichés ne contiennent pas forcément tous les termes de la requête mais des mots proches. L’intérêt de ce méta-moteur est qu’il ne nécessite pas de refaire des requêtes avec des synonymes pour trouver de nouveaux sites mais il faut se méfier des sites hors sujet.D’autre part, les documents sont classés sur le site Internet mais pas sur son propre ordinateur. Les logiciels d’Arisem sortent de la légalité en faisant le contraire :

Arisemhttp://solutions.journaldunet.com/0109/010907_arisem.shtml« En 1998, Arisem choisit de compléter son métamoteur, DigOut4U, d'une application serveur destinée à classer les documents stockés localement. "Cette initiative partait du constat que la fonction d'indexation d'une base de données est beaucoup plus pertinente quand elle s'accompagne d'un travail d'organisation des connaissances en amont", commente le responsable. En effet, si une requête ne contient que le mot 'table', un moteur de recherche linguistique aussi performant soit-il sera incapable de cerner le domaine de recherche du demandeur. D'où l'articulation de la solution autour d'un module de classement. "Comme dans une bibliothèque, on commence par ranger une ressource sur un rayonnage avant de l'indexer."

Page 27: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Ce nouveau produit, baptisé Watch Edition, s'appuie lui aussi sur DigOut4U. Objectif : fournir une méthode de classement des documents en arborescence de thématiques. "Cette opération s'effectue en fonction des noms attribués à chaque catégorie et sous-catégorie, ou de requêtes définies parallèlement ", explique Matthieu Lluis. Principaux avantages mis en avant : la possibilité de filtrer une grosse quantité de sources, et celle de constituer de nombreuses vues logiques de la même base. Au total, Watch Edition permettra par exemple de créer des intranets de gestion documentaire personnalisés en fonction des spécialités de chaque département au sein d'une entreprise.

Un moteur de recherche plein texte intégréUne dernière solution (Media Edition), dédiée quant à elle au travail collaboratif, propose des fonctions intranet complémentaires. Au programme (…), l'intégration du moteur Index Server de Microsoft pour effectuer des recherches par catégorie, ainsi qu'un système de structuration par objets (document, catégorie, utilisateur, etc.). "Chacun d'eux se définissant au vu de son corps de texte et/ou de meta données", commente Matthieu Lluis. Ainsi, un utilisateur de Media Edition sera lui-même décrit dans un objet (comparable à son profil), et ceci en fonction des documents qu'il publiera ou qu'il visualisera. Grâce à cette méthode, DigOut4U (également intégré à Media Edition) sera capable d'apporter des informations complémentaires à la réponse du moteur de Microsoft. A savoir : les catégories dans lesquelles apparaissent les termes de la demande, les utilisateurs spécialistes du domaine requêté, etc.(…)[Antoine Crochet Damais, JDNet]

WebCompasshttp://memoireonline.free.fr/agents.htmhttp://service2.symantec.com/SUPPORT/qdeckkb.nsf/f4843474506acff8852566d600719c24/fd35e6279f09ec69852566d00011b96d?OpenDocument« WebCompass calcule pour chaque document résultat un profil en fonction des mots clés les plus souvent rencontrés dans le document. Ensuite l'utilisateur peut travailler sur les profils en créant des relations hiérarchiques entre eux. Par exemple, supposons une recherche de tous les documents sur "Airbus". On désire diviser le profil "Airbus" en sous-profils. WebCompass proposera une liste de sous-profils composés des mots clés les plus souvent rencontrés dans les documents ayant pour thème Airbus. Par exemple "Boeing" et "SNECMA" sont des termes qui apparaissent souvent dans les documents relatifs à Airbus. WebCompass va proposer à l'utilisateur d'en faire des sous-profils, rassemblant tous les documents contenant les termes "Boeing" ou "SNECMA". Les profils deviennent donc des sortes de dossiers de documents divisés en sous-dossiers. WebCompass propose également d'effectuer la veille des sites associés à un profil. »

Page 28: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Le Résumé de Texte Automatique (RTA)

Une fois les documents trouvés par l’analyste, il peut gagner du temps en ne les lisant pas entièrement. Il lira alors le titre, un extrait ou un résumé.

http://www.lehmam.freesurf.fr/autoresu.html’extrait : « Une bonne majorité des moteurs de recherche grand public dont Yahoo, Altavista, Lycos ou Voilà, affiche un extrait du document. Il s'agit bien généralement des deux ou trois premières lignes, et non pas de phrases, de ce dernier... ce qui nous donne un texte souvent très peu informationnel. »

le résumé :« Résumer est ce processus qui cherche à transformer un texte source en un nouveau texte dans une version plus courte et dont les informations pertinentes ont été préservées. »

Le site « pertinence » http://www.pertinence.net/ fait du résumé automatique en ligne.Ce site permet accessoirement d’extraire le texte d’un fichier Acrobat en choisissant un résumé à 100% de la taille de départ (on peut choisir la taille du résumé).« Résumer automatiquement un texte : Comment ça marche ?C'est très simple avec PERTINENCE : Sélectionnez depuis votre ordinateur un fichier ASCII (*.txt), HTML (*.html), PDF (*.pdf), RTF (*.rtf) ou Word (*.doc) ouIndiquez un lien vers un document ASCII (*.txt), HTML (*.html), PDF (*.pdf), RTF (*.rtf), ou Word (*.doc) sur le Net ouSaisissez un texte libre à résumer Cliquez sur le bouton "Résumer" Patientez pendant que PERTINENCE résume le document pour vous. »

http://www.lehmam.freesurf.fr/autoresu.htm« L'approche adoptée dans ces systèmes procède par extraction de phrases complètes du texte source. (…)Les moyens théoriques de reconnaissance entrepris dans cette voie sont :

-la statistique linguistique: mots du texte en cooccurrence (Luhn, 1958) la combinaison des mots du titre et des sous-titres du texte en relation avec leur présence dans le texte source (Edmundson, 1968)

-l'extraction des seuls paragraphes contenant une concentration des meilleures phrases. Celles-ci sont mesurées par des moyens statistiques (Salton, 94)»

Page 29: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Extractorhttp://www.lehmam.freesurf.fr/autoresu.htm - EXTRACTOR

« Conçu par une entreprise canadienne, Extractor est un logiciel apparenté au RTA dans la mesure où il fournit à la fois, une liste de mots-clefs et une liste de segments de phrases considérés comme informatifs. Il traite l'anglais, l'allemand, le japonais et le français seulement... car vue la méthode simpliste employée, Extractor pourrait même traiter l'arabe, le chinois ou tout autre langue. Il est fondé sur des méthodes statistiques de comptage de mots et sur l'attribution de score au plus fréquents d'entre eux à la suite de quoi une liste fixe de sept mot-clefs et une extraction d'une liste de sept segments de phrases contenant ces mot-clefs sont produits. Cette méthode est totalement indépendante de la langue ce qui explique son adoption par MsWord97, vendu à travers le monde entier en plusieurs langues. »

test comparatif Pertinence/Extractor :http://www.snecma-services.com/francais/NEWS/2000.htm

SSAMC livre le premier moteur CFM56 révisé

Sichuan Snecma Aero-Engine Maintenance Co « SSAMC », filiale de Snecma Services (51%), China Southwest Airlines (35%), Beijing Kailan Aviation Technology Corporation (7%) et de Willis Lease Finance Corporation (7%), vient de livrer le premier moteur CFM56-3 révisé sur son site. Ce premier moteur livré à CSWA, dans le respect des délais et des normes techniques, traduit l'excellence de cette coopération et marque une étape importante pour SSAMC. L'événement a été célébré en présence du vice-Gouverneur de la Province de Sichuan, des Présidents des Sociétés concernées ainsi que des représentants de la CAAC, de l'Ambassade de France et de plus de onze Compagnies Aériennes chinoises différentes. Snecma Services est la première Société au monde à avoir investi en Chine dans la réparation des moteurs d'avions. En créant SSAMC, elle a lancé la plus grande usine de ce pays dédiée à la réparation et à la maintenance des moteurs d'avions et plus particulièrement des moteurs CFM56. Spécialisé dans le CFM56-3, ce site sera également dédié au CFM56-5 et -7. Il a pour objectif de devenir en Asie le leader de la maintenance et de la réparation des moteurs d'avions.

Résumé automatique avec Pertinence (taille divisée par 4)« Ce premier moteur livré à CSWA, dans le respect des délais et des normes techniques, traduit l'excellence de cette coopération et marque une étape importante pour SSAMC. Il a pour objectif de devenir en Asie le leader de la maintenance et de la réparation des moteurs d'avions. »

Résumé automatique avec Extractor (taille divisée par 4) « Ce premier moteur livré à CSWA, dans le respect des délais et des normes techniques, traduit l'excellence de cette coopération et marque une étape importante pour SSAMC. En créant SSAMC, elle a lancé la plus grande usine de ce pays dédiée à

Page 30: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

la réparation et à la maintenance des moteurs d'avions et plus particulièrement des moteurs CFM56. »

Conclusion : le texte obtenu avec le service de résumé en ligne de Pertinence est plus intéressant que celui obtenu avec Extractor (outil de Word). Il est en effet important de connaître les objectifs affichés des concurrents.

Page 31: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

III) Le traitement humain de l'information

Le traitement humain de l’information est nécessaire car :-les outils informatiques ne peuvent pas interpréter tous les documents, d’autant plus que le Web est un espace où les contraintes formelles sont faibles et où les types de documents sont multiples.-l’information décisoire est destinée à un être humain qui la comprend mieux si elle est traitée par un humain.-l’être humain pourra voir des manipulations qui échappent à la machine et qui tiennent à la psychologie humaine. Exemple : un logiciel qui voit un titre du « Monde » non conforme à son contenu n’informe pas son utilisateur.

Comment caractériser les sources?

Caractérisation immédiate

l’auteur du siteL’internaute qui consulte un site doit se poser les questions suivantes : http://csidoc.insa-lyon.fr/sapristi/fristi36.html (page consultée le 2/11/01) « L'auteur s'exprime-t-il en son nom propre, ou parle-t-il au nom d'une organisation? L'auteur utilise-t-il des théories et se réfère-t-il à des écoles de pensée appropriées pour le sujet? Si l'auteur introduit une nouvelle théorie ou une nouvelle approche du problème, en définit-il la validité et les limites? Si le sujet est controversé, l'auteur le mentionne-t-il? L'organisation ou l'auteur ont-ils intérêt à ce qu'une solution s'impose face à d'autres?Les documents présentent-ils des produits et services vendus par l'organisation? »

http://www.netskills.ac.uk/TonicNG/cgi/sesame?detective_fr (page consultée le 2/11/01)“Le fournisseur de l'information peut-il avoir été motivé pour fournir une information exacte ? »Quels sont l'autorité et la réputation de l'auteur ?Le comité éditorial est-il composé d'universitaires du monde entier  ?Les articles sont-ils examinés de façon anonyme (autrement dit par des pairs)

La tilde ~ signifie généralement que le site présente des opinions personnelleshttp://www.netskills.ac.uk/TonicNG/cgi/sesame?detective_fr (page consultée le 2/11/01) « Peut-on faire des recoupements pour vérifier que l'auteur et l'éditeur correspondent bien à ce qui est déclaré?

Les indices à rechercher:

Détails sur l'auteur et l'éditeur Détails sur l'origine des données ou des informations Coordonnées telles l'adresse électronique ou postale de l'auteur et

Page 32: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

de l'éditeur Adresse électronique confirmant l'authenticité de l'auteur”

existence d'une adresse Internet pour envoyer des réclamations à propos du contenumises à jour des informations et liensPérennité de l'informationPérennité du sitePURL Permanent Uniform Resource Locator (localisateur uniforme permanent de ressources)Une adresse PURL ne mène jamais à un lien mort

exactitude http://users.skynet.be/ameurant/francinfo/validite/bibliographie.html“Les graphiques et les schémas sont-ils clairement présentés, avec indication de la signification des axes, des séries... ?”Les statistiques sont-elles claires et leur construction bien expliquée ?

L’exhaustivitéhttp://users.skynet.be/ameurant/francinfo/validite/bibliographie.html“Qu'apporte ce site par rapport à d'autres sources d'information disponibles sur Internet et ailleurs?” http://www.netskills.ac.uk/TonicNG/cgi/sesame?detective_fr“L'information est-elle suffisamment précise ? La ressource présente-t-elle l'ensemble du sujet ? Y-a-t-il des aspects du sujet non traités ?”

L’originalitéhttp://www.netskills.ac.uk/TonicNG/cgi/sesame?detective_fr“S'agit-il d'un travail original?

Vérifier les URL des liens pour voir s'ils vous envoient vers des informations internes ou vers des sites externes, créés par quelqu'un d'autre

Les liens "A propos de ce site" donnent souvent des indices sur l'originalité de l'information

S'agit-il d'information primaire? La ressource contient-elle autre chose qu'une liste de liens vers des sites

extérieurs? S'il s'agit de liens vers des sites extérieurs, y-a-t-il une valeur ajoutée? (des

annotations par exemple )”Le site est-il lui-même une référence? (cité par des journaux ou d'autres sites)

L’ergonomie Y a-t-il

Une table des matières? Un index? Une carte du site?

Page 33: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

nombre de sources et commentaires sur celles-cihttp://users.skynet.be/ameurant/francinfo/validite/bibliographie.html“Les sources utilisées pour rédiger les documents sont-elles identifiées et citées suivant les normes internationales? La critique historique applique le principe: " Testis unus, testis nullus ", traduit par " une information donnée dans un seul document n'est pas fiable." Pour cela, il faut appliquer les démarches suivantes:

Préférer un site qui établit des liens vers d'autres sites. Sans aller jusqu'à tenir pour meilleur celui qui crée le plus de liens, il semble que celui qui fait vivre ses informations en les reliant avec d'autres aura une démarche plus fiable que celui qui fournit des informations que rien n'authentifie. Les liens sont comme les références dans les travaux universitaires.

Si ce n'est pas le cas, il faut continuer la recherche pour croiser certaines informations provenant de serveurs différents.

Ceci présente cependant un danger certain : celui de finir perdu dans le cyberespace ! Les liens entraînent parfois une perte de temps si on s’avise de les consulter tous, d’autant que le syndrome de la cliquette folle peut frapper le chercheur, qui se met à surfer en oubliant le sujet premier de sa recherche.

Vérifier quelques éléments figurant dans le document en consultant des sources papier (documents écrits) équivalentes lorsqu'elles sont disponibles.

Garder par ailleurs à l'esprit que le niveau d'approfondissement de l'information peut dépendre du type de ressource consultée : une information trouvée dans une FAQ ou dans une liste de diffusion demeure la plupart du temps l'expression d'une opinion par exemple, non une vérité scientifique avérée.

Interroger l'auteur des pages consultées pour se renseigner dans le cas où une information paraîtrait suspecte. On peut bien sûr adopter systématiquement cette démarche, mais d'autres critères peuvent éviter qu'on y fasse appel à chaque fois.

Les données véhiculées sur le Web ne sont à jour que si le serveur est effectivement mis à jour régulièrement : essayez de trouver dans les fichiers d'aide du serveur la dernière date de mise à jour du document. Une information périmée est souvent erronée (c'est particulièrement le cas pour les statistiques.)”

Remarque : dans une partie ultérieure du mémoire, nous nous attarderons sur le problème de la désinformation qui dépasse largement la question de la désuétude.

La qualité de la langueLes « chaînes » qui servent à propager des ragots sont rédigées à la va-vite dans une langue de mauvaise qualité.

Le degré de désuétude du sitehttp://www.netskills.ac.uk/TonicNG/cgi/sesame?detective_fr“Les indices à rechercher:

Les dates de création Les dates de dernière mise à jour L'existence d'informations sur la fréquence des mises à jour

Page 34: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

L'existence d'archives

Les indices à vérifier: Les liens sont valides La date de la dernière révision des pages est indiquée Le numéro de la version est indiqué L'adresse électronique du responsable de la maintenance du site est donnée”

Les effets d'expérienceOn peut par exemple faire des statistiques sur le nombre de fois ou l’information

se vérifie grâce à d’autres sources, l’expérience permet aussi de savoir si les informations publiées sur un site sont récentes.

exemple d’évaluation de site InternetAir Transport World Online www.atwonlineà la page http://www.atwonline.com/aboutus.cfm, le but n’est pas clair (servir les besoins du transport aérien dans le monde et de son industrie) mais au moins il n’est pas partisan.

Le contact pour les réclamations existe :http://www.atwonline.com/customer_feedback.cfm"If you have feedback or comments on the operation or content of our Website or our Daily News email service, please use this opportunity to let us know.Thank You."Traduction : Si vous avez des commentaires sur le fonctionnement de notre site Web ou sur notre service de nouvelles journalières par courrier électronique, utilisez s’il vous plaît cette possibilité. Merci

Mise à jour: journalièrestatistiques: il existe des fichiers très fournis mais le site n'explique pas comment ils ont été construits (par exemple la date pour la valeur de conversion de la monnaie...)Air Transport World Online est cité par d'autres sites dont :Heller Financial ( entreprise financière) http://www.hellerfin.com/cf/netlinks.htmUn consultant en aviation commerciale http://www.kerpoe.com/Link.htm L’INSTITUT NATIONAL DE RECHERCHE SUR LES TRANSPORTS ET LEUR SECURITE http://search.inrets.fr/transport/liste-all.html

ergonomie:facile d'utilisation, moteur de recherche interne

Qualité de la langue: langage courantCe niveau de langage est suffisant. En effet, ce site contient beaucoup de résumésqui ne sont pas littéraires mais qui sont près instructifs.Le site contient un annuaire de la maintenance par continent http://www.atwonline.com/Pdf/maintenance.pdf

Page 35: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Cet annuaire contient pour chaque société Le nomL’adresseLe numéro de téléphoneL’adresse Internet du site et l’adresse e-mailLes principaux produits-servicesModifications ( avions de transport de passagers vers avion cargo…)Moteurs entretenusCarlingues entretenuesEquipements entretenusAutres servicesLe type de vérification (A, B…) pour lesquels ils sont agréés et les autorités d’agrémentLe nombre d’employésLe nombre et la taille des hangars de maintenanceEventuellementLa maison mère (il est alors possible de regrouper les sociétés qui ont la même maison mère dans un même graphique, dans une même fiche…)Les spécialitésLes activités qui ont la plus forte croissance. Ceci est une information importante pour déterminer les concurrents les plus agressifs dans un domaine donné.

Les types d'informations

Les types d'informations crédibles sur les sites des concurrents

Les informations légalesLes entreprises, et en particulier les sociétés cotées en bourse, sont tenues d’avoir une comptabilité proche de la réalité. Cela dit, certains pays sortent de l’économie socialiste où les objectifs du plan étaient toujours « officiellement » tenus, et dans d’autres pays, les pouvoirs politique et économique sont très liés. Il serait donc étonnant que les soldes intermédiaires de gestion (résultat net, valeur ajoutée…) soient aussi proche de la réalité en Asie qu’en Occident. Il serait en revanche étonnant que les statuts juridiques des entreprises soient faux.

Les produits-services :Produits (types d'avions, de moteurs....)Services (maintenance à l'heure de vol, de la tête à la queue...)Si une firme affiche des produits-services(exemple maintenance à l’heure de vol sur 747) qu’elle ne peut pas rendre en réalité, elle ne pourra pas être prise au sérieux par ses clients. Il est donc peu probable qu’elle mente sur ce point.

Le non-ditEn revanche, une firme peut ne pas publier tous ces produits-services et lieux de maintenance. En effet, rien ne l’y oblige et ses clients ne pourront qu’être heureusement surpris si la firme peut faire plus que ce que le client croyait.

Page 36: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Quelle attitude adopter face à la désinformation?Exemples de contenus: rumeurs d'achat, ou ventes de firmes, de création de coentreprises…

Les méthodes de désinformation http://www.atreide.net/riberdy/desinfo/desinfo.htm

La manipulation de la perception :La manipulation d’images http://www.senat.fr/rap/o97-169/o97-16964.html - toc45L’intensité (caractère gras)Les dimensionsLe changement inhabituelLa non-conformitéLa répétitionLe mouvementLes couleursLes stimuli émotionnels

Autres méthodes :L’omissionLa destructionLe hors contexteLe douteLa confusion Les rumeursLes statistiquesLes pseudosciences et pseudo expertsLes expressions alarmantesLes euphémismes

Solutions contre la désinformationComment détecter les rumeurs ?Tout d’abord, certains sites sont spécialisés dans le démontage des rumeurs, c’est le cas de http://www.urbanlegends.about.com/ (en anglais) et http://www.hoaxbuster.com/ (en français). Mais d’autres moyens existent :http://interactif.lemonde.fr/article/0,5611,2858-5531-186407-0,FF.html« Des moyens simples permettent d'identifier une rumeur.C'est tout d'abord la présence d'une phrase comme " Envoyez ce message à toutes les personnes que vous connaissez " qui doit mettre la puce à l'oreille. Aucun message d'alerte sérieux envoyé par une source crédible ne demanderait ce genre de chose, (…) " Les auteurs de rumeur sont plus soucieux de voir leur message circuler que de fournir de l'information aux lecteurs ", confirme David Emery.Ensuite, il faut savoir qu'il est logique de trouver des noms connus dans une rumeur. Comme le vocabulaire technique lorsqu'il s'agit d'une alerte au virus, ils tendent à crédibiliser l'e-mail. Avant de le renvoyer, il n'est donc pas superflu de s'interroger sur la

Page 37: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

légitimité de la personne ou de l'entreprise qui le fait circuler. Microsoft, qui n'est pas éditeur d'antivirus, n'a que peu de raisons d'envoyer un message d'alerte. " Rien n'empêche l'internaute d'aller sur le site de l'entreprise en question ou de l'interroger ", ajoute Guillaume Brossard.Fautes et majuscules

Enfin, il n'est pas inutile d'étudier le style du message. La présence de fautes est un indicateur assez fiable. Soucieux de l'image qu'il donne de l'entreprise, aucun service de communication n'enverrait un mail sans en avoir vérifié l'orthographe. La présence en grand nombre de mots en lettres majuscules - destinées à attirer l'attention dans un courrier électronique -, de points d'exclamation mis les uns à la suite des autres et d'un ton catastrophiste pressant le lecteur d'agir au plus vite sont autant d'éléments suspects. " Plus on cherche à convaincre, plus il faut être méfiant sur la qualité de l'information ", affirme David Emery. »Remarque : si une rumeur est bien fabriquée, ces moyens sont insuffisants. Tout garder mais signaler le douteDes nouvelles qui peuvent paraître sérieuses comme celles de Reuters publiées par Yahoo ! sont parfois modifiées par des internautes :http://siliconvalley.Internet.com/news/article/0,2198,3531_888681,00.htmlAinsi, Adrian Lamo, âgé de 20 ans fut capable de modifier le texte d’articles postés sur dans les nouvelles de Yahoo ! pendant trois semaines en utilisant un simple navigateur et une adresse Internet qu’il avait obtenue.

Ne rien garderIl peut coûter plus cher de ne prendre au sérieux aucune rumeur que de prendre au sérieux toutes les rumeurs. En effet il faut tenir compte du temps. Le temps passé à vérifier une information peut faire perdre un marché.La rumeur peut orienter les recherches (quitte à perdre un peu de temps) exemple : A essaierait de racheter B.Si on surveille A et B, on des chances d’avoir plus rapidement l’information.Autre solution : ne garder que les informations vérifiables (exemple : les achats d’entreprises). Cette méthode est utile si le concurrent mène une politique de petits pas. Exemple : il veut s’installer en Asie et achète plusieurs petites entreprises de maintenance aéronautique sur ce continent… La méthode est inopérante si le concurrent envisage un seul grand achat et si on n’en tient pas compte des rumeurs.Les rumeurs doivent être considérées comme des scenarii dont les conséquences seront analysées.

Page 38: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Exemple : http://groups.google.com/groups?q=aircraft+maintenance+asia+rumour&hl=fr&rnum=1&selm=37915823.78387207%40news.concentric.netDe :Michal Douglas ([email protected])Objet :ASIA SHIPPING NEWS July 7, 1999 Groupes de discussion :misc.transport.air-industry.cargo

“Pressure mounts for PAL assets auction THE US Export and Import Bank has suggested that debt-ridden Philippine Airlines (PAL) should dispose of its non-core assets via a public auction. The Manila Integrated Service Corp, which had previously expressed interest in PAL's assets, has also called for an open bidding process. Both suggestions have been prompted by a rumour that Lufthansa Technik, a unit of German carrier Lufthansa, has negotiated to acquire PAL's maintenance and engineering operations. The US ExImBank has also reiterated its call for the Phillippines' Securities and Exchange Commission to withdraw its approval of PAL's rehabilitation plan, claiming that "creditors and stakeholders have not been provided with appropriate and adequate information on the process being employed in the sale of (the airline's) valuable non-core assets."Le document fait état d’une rumeur de rachat de la branche maintenance de Philippine Airlines par Lufthansa Technik, une entreprise de maintenance d’avions allemande.Une entreprise qui à l’époque (1999) aurait voulu racheter « PAL's maintenance and engineering operations »  n’aurait pas pu faire comme si cette rumeur n’existait pas. Elle aurait pu prendre contact rapidement avec les décideurs philippins ou chercher une autre entreprise à racheter.

Le recoupement: une illusion?Exemple typique : communiqués de presse repris par différents journauxUn phénomène se produit souvent sur la toile. Une entreprise fait un communiqué de presse. Le communiqué est repris par des agences de presses. Elles envoient des dépêches aux journaux. Les journaux publient l’article sur le communiqué sur leurs sites Web. D’autres sites Web publient des documents en citant les agences de presse, les journaux et la firme elle-même. Le recoupement n’apporte a priori rien mais il faut quand même lire les articles. En effet, ils peuvent contenir une valeur ajoutée : exemples :-l’article comporte une analyse de la stratégie de l’entreprise-le document contient des liens vers d’autres documents sur le même sujet-l’auteur analyse le contexte du communiqué (conjoncture du secteur…)Le recoupement se fait alors sur le point de vue des auteurs : exemple : l’auteur analyse-t-il la stratégie de l’entreprise comme les autres auteurs, comme la direction de mon entreprise ?

Page 39: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Les informations à creuser

Les pages similairesSi on interroge le moteur de recherche Excite http://www.excite.com/ dans sa catégorie « News », on peut voir près de chaque page trouvée le lien « related articles » qui mène à des articles qui contiennent des mots similaires à ceux de la page trouvée.

Lieux de maintenance: existe-t-il des sites Internet locaux?

Comment obtenir les adresses Internet des journaux locaux ?Si on utilise les répertoires de Yahoo ! (pour la Chine http://dir.yahoo.com/regional/countries/china/news_and_media/business/ ), on obtient soit des informations très générales (inutilisables), soit des sites en Chinois (donc illisibles pour la majorité des internautes).Le site Nikkei Net Interactive http://www.nni.nikkei.co.jp/FR/AWG/stand.html est un annuaire des journaux asiatiques en ligne. Le site http://www.pressofindia.com/Press.asp donne les sites de journaux Indiens, notamment le journal Financial Express (Inde) http://www.financialexpress.com/ qui donne des résultats avec la requête aerospace maintenance. Il rapporte par exemple une alliance entre Boeing et Mitsubishi Heavy dans la maintenance aéronautique http://www.financialexpress.com/fe/daily/20000411/fco11052.html ou l’orientation de Hindustan Aeronautics notamment dans la maintenance aéronautique http://www.financialexpress.com/fe/daily/20000105/fco05054.htmlOn peut vérifier que cette entreprise pratique la maintenance sur son site http://www.hal-india.com/product.htm

Certains agents de recherche permettent d’interroger plusieurs moteurs de recherche d’une zone géographique en même temps. C’est le cas de BullsEye qui peut interroger plusieurs moteurs indiens (123 India, Altavista India, IndiaLine, Khoj India et Yahoo India).

Remarque : Rare sont les sites asiatiques de journaux utiles pour l’internaute (à moins peut-être de maîtriser les langues locales)

Les contratsSoient deux entreprises A et B. Si A est un client important de B et B un client important de A, on pourra considérer qu’ils sont alliés de fait même s’ils ne communiquent pas en ce sens.

L’adresse Internet du site qui diffuse l'informationIl est possible si on voit une information sur un site de rechercher des informations similaires. Si on utilise la barre d’outils Google (http://toolbar.google.com/intl/fr/install),Une fois arrivé sur le site à fouiller, on entre les mots recherchés puis on clique sur « recherche site ». Ces mots apparaissent alors dans la barre d’outil et un clic permet de les retrouver dans la page.

Page 40: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

prises de participations, filiales et maisons mères, alliés et partenairesBeaucoup d’entreprises du secteur aéronautique sont des co-entreprises (joint-venture).Les co-entreprises donnent généralement des informations sur leurs maisons-mères.De même, les holdings donnent des informations sur leurs filiales. La présentation est souvent très synthétique, ce qui permet de connaître rapidement l’activité des différents entreprises. Exemple : China Airlines donne la liste de ses filiales, une description succincte et sa part de propriété sur la page http://www.china-airlines.com/cbrfs/crep45e.htm (page consultée le 7/11/2001)Il faut toutefois être prudent car il y souvent du fait des co-entreprises des filiales possédées en partie directement, en partie via un co-entreprise, en partie via une filiale de la co-entreprise… ce qui peut s’apparenter à des sociétés écrans. Un actionnaire qui paraît minoritaire peut en fait contrôler une société.Les entreprises qui concluent une alliance, un partenariat sont obligées vis à vis de leurs actionnaires d’expliquer pourquoi elles le font, ce qui éclaire sur leur stratégie surtout quand la même raison est invoquée à plusieurs reprises.

Les offres d'emploiLes entreprises qui ont du mal à embaucher sont contraintes de communiquer avec le marché du travail. Début 2001, elles utilisaient de plus en plus leur site Internet pour recruter. Le détail des offres permet d’avoir des indices sur leurs projets.

Transporteurs aériens et industrie aéronautiqueCertaines firmes ne paraissent pas à priori être des concurrents en matière de maintenance d’avions. Ce sont les transporteurs aériens et les constructeurs de tout ou partie d’avions pour qui la maintenance est un service annexe. Il faut cependant les considérer comme des concurrents à part entière. Il sera plus difficile d’analyser leur stratégie car leurs alliances sont souvent guidées par des préoccupations qui n’ont rien à voir avec la maintenance (comme le transport de passagers).

Page 41: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Conclusion :

Pour l’exemple que j’ai utilisé, les sources les plus intéressantes sont des sites Web publiant des articles de journaux spécialisés. Le support est différent mais les rédacteurs sont toujours les mêmes. L’innovation n’est donc pas radicale sur le fond.Les entreprises qui diffusent l’information sont souvent américaines :Northern Light, basée dans le Massachusetts appartient à Reuters, Hewlett-Packard…Air Transport World Media Group travaille à Washington… et on ne sait pas dans quelle mesure l’accès à ces sites est surveillé. De même, les navigateurs (Internet Explorer, Netscape…) sont généralement américains et il faut les manier avec précaution. Par exemple, les cookies (cf. glossaire) sont par défaut accumulés sur la machine de l’internaute et permettent de le suivre à la trace (http://www.cnil.fr/traces/index.htm). Cela dit, les problèmes sont pires pour les bases payantes, où il faut paramétrer les concurrents à surveiller, et qui sont généralement elles aussi aux Etats-Unis. Certaines bases payantes ont même été crées par des entreprises du secteur aéronautique. (http://www.asis.org/Features/Pioneers/dialog.htm)C’est le cas de DIALOG créé par Lockheed.Les entreprises qui veulent tirer des informations concurrentielles du Web sont donc souvent tentées de copier de nombreuses pages pour ne pas éveiller les soupçons. Cela passe par des outils comme ceux d’Arisem mais seules de grandes organisations peuvent les acquérir. De ce fait, la gratuité est une apparence. Les outils efficaces coûtent cher (parfois plusieurs centaines de milliers de francs). Des outils peu chers existent, mais ils ne permettent pas de résoudre les problèmes de bruit et de silence sur le Web et leur utilisation nécessite une présence humaine qui elle aussi a un coût. Le haut débit n’atteint pas les performances affichées par les fournisseurs d’accès ce qui accroît les temps de connexion et donc les coûts.La place d’Internet dans le dispositif d’intelligence économiqueLe Web est complémentaire par rapport à d'autres sources (humaines, revues, banques de données payantes, internes…). Internet et les outils de traitements fournissent des documents, mais ces documents ne sont utiles que s’ils ont été perçus au bon moment, et par les bonnes personnes. Pour cela, le recueil et la diffusion doivent être interactifs : les analystes et les décideurs qui reçoivent des documents doivent être motivés pour les lire, et pour poser de nouvelles questions ou réorienter les recherches dans toutes les sources disponibles. Le cœur du métier de l’intelligence économique est l’animation de réseaux humains et non pas l’utilisation d’outils.

Page 42: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Bibliographie :

Pascal AndreiThèse soutenue par le 25 janvier 1997« Approche de l’intelligence économique et de la veille stratégique à travers la production d’information élaborée. Applications à l’aide à la décision dans le domaine de l’aéronautique et de l’espace. »

Les agents intelligents Ludovic Blin 30/09/99DESS Gestion des télécommunications, de la télématique et de la télévisionhttp://memoireonline.free.fr/agents.htm

Page 43: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

http://www.juriscom.net/uni/mem/03/glossaire.html

Glossaire Arpanet (Ancêtre d'Internet)Le mot Net se traduit littéralement en français par le mot "filet". ARPAnet est le réseau apparu en 1969 et qui a précédé Internet. Ce réseau développé dans le cadre de l'Advanced Research Project Agency, une agence pour les projets de recherche du ministère de la Défense des Etats-Unis avait une vocation expérimentale. Dans un premier temps destiné à la recherche militaire américaine, il fut ensuite ouvert au milieu universitaire.

BookmarkSert à décrire une page ou une adresse à laquelle l'utilisateur souhaite retourner régulièrement. Microsoft Internet Explorer de Microsoft intègre une fonctionnalité de Recherche de Favoris qui permet d'organiser et de sauvegarder un certain nombre de sites Web fréquemment utilisés. C'est le pendant du "Favorite" de la marque Microsoft.

ChatConversation en français, Programme interconnecté permettant à de multiples utilisateurs de "dialoguer" en temps réel. Pour cela, ils tapent leurs messages sur leur ordinateur puis l'envoient sur un réseau local ou sur Internet. Certains programmes Chat évolués, tel que PowWow, intègrent la reconnaissance vocale et l'échange de fichiers.

ClientOn qualifie d'ordinateur Client celui qui accède à un service par le biais d'un réseau de communication. Par opposition on qualifie de Serveur la machine qui rend le service au client. L'architecture impliquant les deux notions est qualifiée de client/serveur.

CookiesPetit fichier résidant sur le poste client et utilisé comme marqueur pour suivre le cheminement d'un utilisateur sur un site Web. Fichier stocké sur le disque dur d'un ordinateur, utilisé pour identifier l'ordinateur ou les préférences de l'utilisateur vers un ordinateur distant. Les "cookies" sont fréquemment utilisés pour identifier les visiteurs d'un site Web.

Courrier électroniqueFonctionnalité d’un réseau électronique qui autorise l’échange de messages. Sur Internet, cette fonction fait appel au protocole SMTP et POP3. Elle est la fonction la plus populaire sur Internet, et autorise en plus l’échange de fichiers attachés dits pièces jointes.CyberespaceUnivers virtuel des informations transmises par des ordinateurs, des programmes, des supports audio et vidéo, le téléphone et la télévision, par câble ou par satellite. Le terme de Cyberespace a été créé par le romancier de science-fiction William Gibson qui le définissait ainsi : "représentation graphique de données issues des banques de tous les ordinateurs du système humain."

DNSLe Domain name server est un protocole qui assure la conversion entre une adresse IP et sa correspondance sous une autre forme que des chiffres (Ex. Microsoft.com ; Netscape.com; [email protected]). E-mailC'est l'appellation d'origine anglaise de l'adresse électronique. De façon plus générale, l'adresse électronique est utilisée pour adresser un message, qu'il soit écrit ou multimédia, entre différents postes d'un réseau informatique.

Page 44: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Désormais le mot a son pendant français puisque l'Académie française a officiellement indiqué qu'il faudrait parler de « mél »...

FavoriteSert à décrire une page ou une adresse à laquelle l'utilisateur souhaite retourner régulièrement. Microsoft Internet Explorer de Microsoft intègre une fonctionnalité de Recherche de Favoris qui permet d'organiser et de sauvegarder un certain nombre de sites Web fréquemment utilisés. C'est le pendant du Bookmark de la marque Netscape. Procédure informatique permettant à l'utilisateur d'enregistrer un site réseau de manière à pouvoir y retourner facilement. En cliquant sur un signet, l'utilisateur accède directement au site souhaité sans avoir à passer par le chemin de connexion normal. Un recueil de signets est appelé liste de signets

Forum de discussion (ou newsgroup ) Fonctionnalité d’Internet, au même titre que le Web, le courrier électronique ou le ftp. Elle consiste à permettre la création d’espaces de discussion (forum) où chacun peut participer en temps réel. Ces forums sont dits modérés lorsqu’ils font l’objet d’un contrôle sur leur contenu et les propos qui y sont rapportés; ils sont dits non-modérés lorsqu’ils ne présentent pas ses qualités.

Freeware, graticiel ou gratuicielLogiciel distribué gratuitement, via des services en ligne ou des disquettes ou CD-ROM offerts. Logiciel dont les droits d'auteur ne sont pas protégés. Ce type de logiciel se trouve fréquemment sur Internet. Il faut le distinguer du logiciel à contribution volontaire (voir plus bas).

Groupe de discussionGroupes ou forums sur le Usenet (voir plus bas) dans lesquels les utilisateurs peuvent échanger informations, idées, astuces conseils et opinions sur un thème particulier. Les groupes de discussion sont classés par rubriques. Il en existe plusieurs milliers. Généralement un groupe de discussion est modéré par une personne chargée d'éliminer tout postage non approprié ou hors sujet.

HTML (Hypertext Markup Language)Version simplifiée pour le Web de la norme SGML (Standard Generalized Markup Language), langage de document structuré, avec liens hypertexte, utilisé en gestion documentaire (ISO 8879).

HTTP (Hypertext Transfer Protocol)Protocole informatique utilisé pour effectuer la mise en page des documents échangés sur le réseau Internet. Ce langage informatique permet à des logiciels de navigation fabriqués par des constructeurs différents tels que Mosaïc, Cyberdog, Netscape ou Microsoft de communiquer entre eux. Autrement dit, c'est le protocole de communication utilisé pour l'échange de données entre les clients et les serveurs du réseau WWW d'Internet. Internet étant composé de plusieurs réseaux, tous n'utilisent pas le protocole http.

HypertexteL'utilisation de la technique de l'hypertexte permet de désigner des mots dans un texte grâce auxquels l'utilisateur pourra d'un simple "clic" de sourie accéder instantanément à la page d'un site ou à un autre site. Généralement les mots en hypertexte sont affichés dans une couleur différente de celle des mots d'un même document.

IAB (Internet Architecture Board)L'IAB est responsable de l'évolution des standards de communication utilisés par les opérateurs du réseau Internet. Cet organisme est intégré à l'ISOC et permet une coordination entre divers autres organismes régissant le réseau tels que l'IANA, l'IETF, l'IRTF.

IntégritéPrévention d'une modification non autorisée de l'information (définition Itsec). Propriété qui garantit la présence et la conservation sans altération d'une information ou d'un processus.

Internaute

Page 45: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

Utilisateur du réseau Internet.

InternetRéseau de portée mondiale interconnectant des centaines de réseaux spécifiques et auquel sont reliés quelques dizaines de millions d'utilisateurs individuels et professionnels. Dans son sens le plus large, un réseau Internet est un grand réseau informatique composé d'un certain nombre de réseaux plus petits. Internet avec un "I" majuscule fait référence au réseau physique qui constitue le Web et qui a permis d'étendre le courrier électronique à l'échelle mondiale. On utilise aujourd'hui l'expression "Net" qui est l'abréviation d'Internet.

Internet Society (ISOC)Association créée en 1992 et présidée actuellement par Vinton Cerf. Elle est constituée de membres volontaires et a pour but d'évaluer les nouvelles technologies à mettre en place et de définir l'avenir d'Internet. Elle est représentée dans de nombreux pays du Globe, en France comme aux Etats-Unis.

Internic (Internet Network Information Center)A été créé par la fondation américaine NSF afin de permettre aux utilisateurs d'accéder à un certain nombre d'informations et de statistiques sur Internet, au travers de ses serveurs

IP (Internet Protocol)Communément appelée adresse IP, l'Internet protocol (protocole Internet) permet d'identifier ordinateur connecté à Internet. Cette adresse est numériquement composée de quatre groupes de nombres, des octets, séparés de points. L'identifiant d'une machine sur le réseau pourra par exemple prendre la forme suivante : 128.121.4.5. L'utilisateur prendra le plus souvent connaissance de l'adresse sous la forme DNS, c'est-à-dire sous une autre forme que des chiffres.

ISPAcronyme de Internet Service Provider, un fournisseur d'accès Internet aux entreprises et aux particuliers, via les serveurs ISP.

ITU (International Telecommunication Union - UIT : Union internationale des télécommunications) ListservGroupe de programmes qui gèrent des listes de diffusion en répartissant, ajoutant et supprimant automatiquement des messages postés sur ces listes.

MaillageArchitecture d'un réseau permettant d'une part à tous les nœuds d'avoir accès (directement ou indirectement ) à n'importe quel autre nœud, d'autre part de disposer pour atteindre un autre nœud de plusieurs chemins d'accès.

Mime (Multipurpose Internet Mail Extensions)Protocole de sélection des formats de messages sur Internet.

Modem (Modulateur-Démodulateur)Appareil d'adaptation servant à transformer des signaux numériques pour les transmettre sur un canal de transmission analogique et inversement. Il assure également les fonctions de synchronisation de la communication. Acronyme de modulateur/démodulateur, un équipement matériel qui relie un ordinateur à d'autres ordinateurs ou à Internet, par l'intermédiaire d'une ligne téléphonique standard ou RNIS (voir plus bas). Un modem peut être interne, intégré à un ordinateur, ou externe. Un modem externe est un boîtier qui raccorde l'ordinateur à une ligne téléphonique. Les différents modems se distinguent par leur vitesse de transmission des données, exprimée en bauds (voir plus haut). Actuellement, les modems standard fonctionnent à 28.800 ou 33.600 bauds, et les modèles les plus récents atteignent une vitesse d'environ 56.000 bauds.

Moteur de rechercheProgramme ou service utilisé pour localiser des fichiers sur un intranet ou sur le Web. L'accès à un moteur de recherche s'effectue généralement à l'aide d'un navigateur. Parmi les moteurs de recherche les plus connus, citons AltaVista, Yahoo!, HotBot et Lycos. De nouveaux moteurs de recherche sont développés en permanence.

Page 46: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

NavigateurProgramme client utilisé pour rechercher des réseaux, extraire et afficher des copies de fichiers dans un format de lecture simplifié. Les navigateurs standard actuels peuvent également faire appel à des programmes associés pour exécuter des fichiers son et vidéo. Internet Explorer de Microsoft et Navigator de Netscape sont les navigateurs les plus largement répandus.

NetiquetteCombinaison de net et d'étiquette qui représente des règles de savoir-vivre et d'optimisation sur Internet.

Newsgroup : voir Forum de discussion

Nom de domaineSur Internet, nom d'un ordinateur ou d'un groupe d'ordinateurs servant à identifier son emplacement électronique (et parfois géographique) pour la transmission des données. Le nom de domaine contient généralement le nom d'une organisation et est toujours suivi d'un suffixe de deux ou trois lettres qui désignent le type de l'organisation ou le pays du domaine. Par exemple, dans le nom de domaine microsoft.com, Microsoft est le nom de l'organisation et com est l'abréviation de commercial, il s'agit donc d'une organisation commerciale. Les suffixes suivants sont également utilisés aux Etats-Unis : gov (gouvernement), edu (institution d'enseignement), org (organisation, généralement sans but lucratif), et net (général; peut être du type commercial ou non et marque une activité propre au réseau). Hors des Etats-Unis, un suffixe à deux lettres indique le pays du domaine, par exemple uk (Royaume-Uni), de (Allemagne), et jp (Japon).

NNTP (Network News Transport Protocol)Protocole qui permet la lecture de news et d'accéder aux forums.

NSF (National Science Foundation) Agence du gouvernement américain qui a créé dans les années 80 le réseau NSFnet, destiné au départ à la recherche américaine.

ProtocoleEnsemble de règles ou standards établis pour la communication des données sur un réseau, en particulier Internet. Les ordinateurs et les réseaux communiquent par le biais de protocoles qui déterminent leur comportement mutuel pour que le transfert des informations puisse s'effectuer.

ServeurRessource informatique capable de délivrer une information ou d'effectuer un traitement à la requête d'autres équipements. Ordinateur ou son logiciel, qui "sert" d'autres ordinateurs sur un réseau en gérant les fichiers et le fonctionnement du réseau. Les ordinateurs "servis" par un serveur intègrent un logiciel client (voir plus haut). Le navigateur Internet Explorer de Microsoft est un exemple de logiciel client.

Service en ligneAbonnement à un service payant pour faciliter l'accès à Internet. Ce type de service propose, par exemple, des bulletins d'information ou financiers présentés de manière structurée. Parmi les principaux services en ligne, citons America Online(AOL), CompuServe et MSN, Microsoft Network.

Shareware ou partagicielLogiciel diffusé par disquettes ou téléchargement, utilisable par tout un chacun à condition de reverser une certaine somme directement à l'auteur; contrairement à un freeware, un shareware n'est donc pas gratuit.

SGML (Standard Generalized Markup Language)Norme documentaire reconnue par l'ISO (ISO 8879:1986), pour la réalisation de documents structurés.

SignatureFonction du courrier électronique ou de Usenet qui indique l'auteur du message et/ou l'origine de celui-ci. Les signatures peuvent communiquer votre humeur du moment ou la pensée du jour. Une signature peut transmettre

Page 47: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

une quantité d'informations, en fin de message, mais par courtoisie, il est préférable de la limiter à seulement quelques lignes.

SignetProcédure informatique permettant à l'utilisateur d'enregistrer un site réseau de manière à pouvoir y retourner facilement. En cliquant sur un signet, l'utilisateur accède directement au site souhaité sans avoir à passer par le chemin de connexion normal. Un recueil de signets est appelé liste de signets. Voir aussi Favorite et Bookmark ci dessus.

SiteEnsemble de pages Web reliées, résidant sur le même serveur et interconnectées par des liens hypertexte.

SMTP (Simple Mail Transfer Protocol)Protocole de messagerie lié aux protocoles TCP/IP et au réseau Internet, très répandu dans les systèmes Unix.

SocketInterface de programmation permettant les communications entre Unix et un réseau basé sur les protocoles définis par TCP-IP. Placées sur les protocoles de réseau SNA, les sockets permettent à des applications conçues initialement pour TCP-IP d'utiliser les protocoles d'IBM.

SurferArgot pour "naviguer sur Internet". Signifie une navigation sans but précis plutôt qu'une recherche ciblée.

TCP/IP (Transmission Control Protocol over Internet Protocol)Protocole de communication d'Internet, créé initialement par le Département américain de la Défense pour gérer un réseau local de type Ethernet sous le système d'exploitation Unix.Combinaison des acronymes de Transmission Control Protocol (protocole de contrôle de transmission) et de Internet Protocol (protocole Internet), les deux protocoles qui administrent la manière dont ordinateurs et réseaux gèrent le flux d'informations sur Internet.

TéléchargementProcédure visant à demander et à transférer un fichier d'un ordinateur distant vers un ordinateur local, puis à sauvegarder ce fichier dans l'ordinateur local. Cette procédure s'effectue généralement par l'intermédiaire d'un modem ou d'un réseau. La télétransmission consiste quant à elle à transférer un fichier d'un ordinateur local vers un ordinateur distant, via un modem ou un réseau.

TelnetProgramme d'émulation de terminal permettant à un utilisateur de se connecter à un autre ordinateur, en particulier un gros ordinateur comme ceux sur lequel sont installés les catalogues des bibliothèques en ligne. Lorsqu'un utilisateur se connecte à l'un de ces catalogues de bibliothèques électroniques, par le biais de Telnet, il obtient l'accès aux fichiers sur lesquels se trouvent les enregistrements.

URLAcronyme de Uniform Resource Locator (localisateur uniforme de ressources); c’est l'adresse qui spécifie l'emplacement électronique d'une ressource (un fichier) Internet. Une adresse URL est généralement constituée de quatre parties : le protocole, le serveur (ou domaine), le chemin et le nom de fichier, quoique dans certains cas, le chemin ou le nom de fichier ne figure pas.

USENETService d'information télématique sur lequel les lecteurs peuvent échanger des informations, des idées, des conseils et des opinions.

UnetProbablement le plus grand système d'archives disponible sur Internet. Il possède de très nombreux logiciels (principalement pour Unix), des fichiers et documents provenant d'éditeurs et des copies miroirs d'autres archives sur Internet.

Page 48: L'information gratuite sur Internetlpvist.free.fr/Memoire/a%20lire/Plan%20m%E9moire%20seb.doc · Web viewII) Le traitement automatique de l’information L’information semi-structurée

WWW (World-Wide Web)Le plus célèbre service d'informations sur Internet, avec un système de recherche basé sur la technologie de l'hypertexte. Consortium industriel dirigé par le Laboratory for Computer Science du Massachusetts Institute of Technology de Cambridge. W3 est l'abréviation de World Wide Web. Ce consortium favorise le développement des standards et encourage l'interfonctionnement entre les produits du World Wide Web. Basé à l'origine à l'European Laboratory for Particle Physics (CERN) à Genève, en Suisse, où la technologie World Wide Web fut développée, le Consortium n'a pas totalement réussi son entreprise qui visait à stimuler la coopération en matière de technologies Web auprès d'un certain nombres de groupes privés, souvent peu enclins à livrer leurs secrets.