· Web viewLa description se fait de manière libre, en reliant des mots-clés au choix des ressources en ligne. Flickr.com est la première plate-forme à lancer une vague de crowdsourcing

INTRODUCTION AUX HUMANITÉS NUMÉRIQUES : MÉTHODES ET PRATIQUES

B. Requêtes en langage documentaire1. Qu’est-ce qu’un langage documentaire

Il s’agit d’un langage artificiel (par opposition au langage naturel) créé dans le but d’identifier des documents qui répondent à des questions de recherche.

2. Définir et articuler les concepts La constitution d’une équation de recherche comporte deux étapes fondamentales :

o la recension des concepts pertinents pour l’équationo l’établissement de liens entre ces concepts

Ces deux étapes requièrent une opération intellectuelle et donc une intervention humaine. L’équation de recherche qui émane de ces opérations est ensuite exécutée par un logiciel qui

traite automatiquement la recherche et renvoie les résultats obtenus en réponse. Pour articuler ces concepts on aura recours à des opérateurs logiques appelés booléens (en

référence au mathématicien George Boole). Les trois opérateurs booléens principaux sont :

o l’opérateur d’intersection ET qui permet de préciser une requête.o l’opérateur d’union OU qui permet d’élargir la portée d’une requête.o l’opérateur d’exclusion SAUF qui donne la possibilité de supprimer une partie des

résultats jugés non pertinents.3. Evaluer les résultats

La notion de pertinence est difficile à chiffrer car évolutive et sujette à interprétation. Sur cette notion repose pourtant les concepts de « bruit » et de « silence ».

In fine il s’agit de :o minimiser le « bruit » : le nombre de documents extraits d’un fond documentaire

mais non pertinents.o minimiser le « silence » : le nombre de documents pertinents et non extraits du fond

documentaire. Pour mesurer ce bruit et ce silence, on fait appels aux notions de "précision" et de "rappel".

o La précision mesure la proportion de documents pertinents par rapports à l’ensemble de documents retrouvés.

o Le rappel mesure la proportion de documents pertinents retrouvés par rapport au nombre de documents qu’il fallait retrouver.

Pour illustrer cela on peut penser au monde des bibliothèques : les ouvrages que vous empruntez mais qui ne vous apportent rien pour votre travail constituent du bruit et réduisent votre précision, tandis que les ouvrages que vous n’avez pas trouvés mais qui se seraient révélés utiles à votre travail constituent du silence et nuisent au taux de rappel.

C. Internet 1. Internet comme infrastructure de base

Distinguer « internet » et « web » : o Internet : infrastructure qui permet au Web d’existero Web : application particulière qui fait appel au réseau qu’est Internet.

Afin de mieux comprendre Internet, il faut s’arrêter sur deux éléments clés de son architecture conceptuelle : son caractère décentralisé et le fait que le réseau est agnostique du contenu qu’il transporte.

On dit qu’Internet est décentralisé dans le sens où tous ces paquets empruntent des chemins différents pour ensuite être remis ensemble pour reconstituer le message de base et arriver à la même adresse.

1

Deuxièmement, Internet est réellement un réseau de communication agnostique dans le sens où il est un réseau de réseaux et ne se pose pas de questions quant au type de contenu ou de services qui sont offerts par son intermédiaire.

3. Architecture client-serveur Un « client » envoie une demande à un « serveur » pour obtenir les données constituant le

site. Cette architecture s’applique à tout type de réseau informatique où le client formule une requête et s’adresse au serveur, qui à son tour formule une réponse.

Le client : interface avec lequel vous interagissez directement en tant qu’utilisateur. Le client peut donc être un ordinateur de type desktop, un portable ou un smartphone.

Le serveur : rôle d’attendre des requêtes de la part des clients et d’envoyer des réponses. A côté du web, d’autres applications populaires du modèle client-serveur sont l’email ou le

partage d’une imprimante en réseau.4. Importance des protocoles

Souvent on parlera de la suite TCP/IP pour désigner l’ensemble des protocoles utilisés pour le transfert des données sur Internet

Nom de TCP/IP fait référence aux deux premiers protocoles qui ont vu le jour mais la suite en englobe également d’autres.

Vint Cerf et Robert Kahn, développeurs du TCP/IP avaient l’ambition de dépasser les limites des réseaux individuels et se sont penchés sur la possibilité de communiquer le même message en utilisant à la fois plusieurs. Ils décidèrent de limiter les fonctionnalités du réseau uniquement à la transmission de données et d’attribuer les tâches plus intelligentes aux nœuds du réseau, à avoir les ordinateurs qui s’y connectent.

La séparation des préoccupations est un autre principe architectural important. Il s’agit de séparer les fonctionnalités dans des couches différentes pour permettre aux développeurs de se focaliser sur une tâche précise sans devoir s’inquiéter de l’ensemble de l’application.

Conceptuellement on distingue 4 couches différentes :4.1. Couche de liaison de données :

responsable de la première étape qui consiste à connecter votre ordinateur, smartphone ou tablette au réseau local.

Ce réseau local correspond souvent au réseau local sans fil (WIFI) 4.2. Couche réseau :

Vos paquets de données sont gérés par un premier routeur, qui a la responsabilité de les envoyer à un ordinateur spécifique parmi les milliards d’autres.

Chaque fois que le paquet passe d’un routeur à l’autre, le nouveau routeur dispose d’informations plus spécifiques pour diriger le paquet dans la bonne direction.

4.3. Couche transport : permet de vérifier si les paquets arrivent dans leur intégralité et dans le bon ordre. Au fur et à mesure que les paquets de données arrivent à destination, l’ordinateur de

destination envoie une confirmation de la bonne réception à l’émetteur. L’ordinateur d’envoi doit stocker temporairement les paquets envoyés, avant de pouvoir les

éliminer après la confirmation de réception et envoyer le reste du message.4.4. Couche d’application :

Différents types de protocoles définissent comment des données peuvent être communiquées entre un serveur et un client pour permettre le fonctionnement d’une application. Par exemple le Web qui repose sur le Hypertext Transfer Protocol (HTTP). Actuellement le Web est l’application faisant appel à Internet la plus populaire.

2

5. Hypertexte – nouveau paradigme d’écriture et de lecture Pour faire face à cette « infobésité » deux personnes ont presque simultanément eu l’idée

d’améliorer l’accès à l’information en proposant des liens entre les documents : Vanevar Bush et Paul Otlet dans les années '40.

Mais il a fallu attendre les années 60 avec Nelson et Engelbart pour que ces idées soient concrétisées dans un contexte informatique.

En 1963, Nelson mentionne pour la première fois le terme « hypertexte » dans une publication et essaie en vain durant plusieurs années de l’implanter dans son application mythique Xanadu.

1968, Engelbart - présente en un seul système la bureautique informatique comme on la connait aujourd’hui : la souris, la notion de bureau et de fenêtres, un éditeur de textes mais également la fonctionnalité de faire appel à des hyperliens entre documents et fichiers.

D. Le Web fin des années 1980 - le World Wide Web voit le jour grâce à Berners-Lee, son père

fondateur. Avec Cailliai, Berners-Lee développe un prototype en 1992. Aujourd’hui les standards du Web sont supervisés par le World Wide Web Consortium (W3C)

fondé par Berners-Lee, qui émet régulièrement des recommandations sur l'usage du Web. Voyons à présent plus en détail les composants du Web : le protocole HTTP, les URLs, le

langage HTML et enfin les navigateurs web.1. HTTP : transfert de contenus

Le Web, comme de nombreux processus informatiques, repose sur l’architecture client-serveur en vertu de laquelle plusieurs « clients » interagissent avec un « serveur » d’informations.

Le Web utilise son propre protocole de communication client-serveur : le HTTP (protocole de transfert hypertexte). Ce HTTP permet de transporter des contenus sur le mode du FTP mais en véhiculant directement de l’hypertexte plutôt que des fichiers.

L’hypertexte stocké sur un serveur HTTP est ainsi distribué à différents clients HTTP, les plus connus étant les navigateurs web qui permettent d’interpréter ces contenus et de les fournir à un utilisateur.

2. URLs : Où aller sur le Web ? Dans un réseau informatique, chaque appareil connecté reçoit une adresse Internet Protocol

(IP) qui est représentée par 4 nombres entre 0 et 255 séparés par des points (par exemple 216.58.209.227). Ces chiffres ne sont pas faciles à retenir, c’est pourquoi Berners-Lee a standardisé les URL (Uniform Resource Locators), ceux-ci permettent d’associer un nom facilement compréhensible pour un être humain à une adresse IP.

Les URLs permettent également d’offrir un identifiant stable, car une adresse IP peut changer de temps en temps, comme quand le contenu d’un site est migré vers un autre serveur.

Une URL est composée de trois parties, exemple :o le préfixe (ou protocole) (http://)o le nom de domaine de deuxième niveau (methodesnumeriques)o le nom de domaine de premier niveau (.org) : peut être un pays comme

ou un domaine d’activité générique comme .com, 3. HTML : Un langage pour le Web

A l’aide de séparateurs tels que < > ou / /, des balises sont identifiées comme une partie distincte du texte même. Les caractères utilisés pour indiquer les balises sont purement le fruit d’une convention, on aurait tout aussi bien pu utiliser * ou $.

Ces balises présentaient avant tout des fonctionnalités structurelles, pour définir le rôle qu’une chaîne de mots joue au sein du texte, par exemple < title >.

Mais les producteurs de navigateurs ont progressivement introduit leurs propres balises dans un souci de démarcation de la concurrence, et ce sans respecter les standards en vigueur.

3

De là est né le premier métalangage de balisage, le Standard Generalized Markup Language (SGML), qui a été adopté comme standard en 1986.

Berners-Lee avait souvent besoin de partager des documents en tant qu’employé du CERN. Leurs ordinateurs formaient un parc informatique très hétérogène, ce qui ne facilitait pas le partage de documents. Vers la fin des années 1980, Berners-Lee a utilisé le SGML pour créer le langage de balisage HTML afin de représenter les éléments structurels de base d’une page web, comme l’en-tête, le titre, le corps du doc.

Il faut que ce langage de balisage soit interprété par un navigateur qui est le logiciel responsable de l’affichage du contenu sur un écran d’ordinateur.

Il n’a fallu que quelques années après les développements de Berners-Lee pour que HTML devienne un succès mondial.

4. Navigateurs web : interpréter le HTML La gratuité des navigateurs est assez récente et s’est manifestée en parallèle avec le

développement du Web. L’idée derrière cette gratuité était de créer rapidement une base d’utilisateurs et d’obtenir la

plus grande partie du marché pour ce service, même si cela implique des pertes financières considérables. Une fois la base d’utilisateurs assez importante, ils ont monétisé cette base de clients en vendant des espaces publicitaires sur la page d’accueil du navigateur, c’est donc la publicité qui comble les pertes monétaires dues à la gratuité du navigateur.

C’est une illustration de la monétisation de l’espace publicitaire en ligne. A l’époque du premier succès du Web, il était quasiment impossible de l’utiliser sans être

confronté à des fenêtres qui clignotent dans tous les sens, à des fenêtres qui bougent de gauche à droite. Quel est le lien avec le développement et la standardisation de HTML ?

C’est simple, les producteurs d’information étant conscients de la nécessité d’attirer l’attention de l’utilisateur, ils ont commencé à introduire des balises spécifiques, qui ne fonctionnaient qu’avec leur navigateur. Par exemple, Netscape a énormément utilisé la balise <blink> qui faisait clignoter une fenêtre, Internet Explorer utilisait énormément < marque > qui faisait bouger le texte sur l’écran. Ces balises furent à la base d’un des plus gros problèmes du Web : l’incompatibilité entre navigateurs. Pendant cette crise de l’incompatibilité des navigateurs, il n’était pas rare qu’une équipe mette 2 jours à créer un site Web mais ait ensuite besoin de 4 jours à bidouiller avec le code HTML pour que leur site s’affiche plus ou moins correctement au travers des différents navigateurs.

Internet Explorer a pendant de longues années maintenu sa place de leader des navigateurs après la défaite de Netscape. En 2004 l’ASBL Mozilla a été créée et en 5 ans elle a réussi à récupérer la moitié du marché grâce à son navigateur Firefox. Mais à la même période, Google a lancé son propre navigateur, Chrome, qui est depuis devenu le navigateur le plus populaire.

E. Moteurs de recherche1. Crawling et ranking

Comme nous l’avons vu, un moteur de recherche ne fonctionne pas comme un annuaire mais se base sur un index.

Lorsqu’un internaute effectue une recherche, il soumet à Google une liste de mots-clés qu’il trouve pertinents pour sa recherche. Ensuite la magie s’opère dans les coulisse : le moteur de recherche va parcourir son index à a recherche de toutes les pages contenant les mots-clés fournis par l’utilisateur. Après cela ces pages seront classés selon leur pertinence et présentées à l’internaute en quelques millisecondes.

Google et les autres moteurs de recherche font appel à des Crawlers pour avoir une bonne idée du contenu de chaque page Web. Ces Crawlers sont des robots qui parcourent la toile sans arrêt en cliquant sur chaque lien, et qui enregistrent le contenu de chaque page. Le Web fonctionnant grâce à un réseau de pages associées entre elles par des liens hypertextes, lorsque ces robots parcourent chaque page ils peuvent non seulement avoir une idée de leur contenu mais également des relations entre ces pages. Grâce à ces liens il est ensuite

4

possible d’attribuer à chaque page un score de confiance ou d’intérêt et d’effectuer un classement selon la pertinence de ces pages.

Mais comment juger de cette pertinence et dresser ce classement ? A vrai dire personne ne le sait exactement. En revanche certaines bonnes pratiques connues permettent d’élever le score de confiance d’une page et d’en améliorer la visibilité, comme :

o le titre de la pageo la partie visible d’un lieno la quantité et la qualité des liens qui pointent vers le siteo la présence de mots-cléso le temps de chargement du site

II. Modéliser les données A. Découvrir les différentes visions du monde

La recherche full-text, traite l’ensemble des documents à indexer sans différenciation alors que la recherche structurée permet de trier les documents sur base de certaines caractéristiques, au cours de l’histoire on a développé des modèles de données différents pour pouvoir structurer ces caractéristiques. Ils permettent de cerner un ensemble limité de caractéristiques d’une réalité d’un monde empirique donc de construire et communiquer une vision du monde explicite et délimitée.

Il existe 4 approches différentes :o Les données tabulaireso Les bases de données relationnelleso Le XMLo Le RDF

1. Comment les différentier ?

B. Les données tabulaires

5

La première étape de toute activité de modélisation est une démarche d’identification des caractéristiques principales d’un objet. Un système d’information ne pourra jamais représenter tous les détails d’un objet, on est alors obligé de choisir les éléments à formaliser: la démarche de modélisation n’est donc pas une démarche neutre et objective.

Dans un contexte informatique, ces listes sont appelées des données tabulaires (TSV), puisqu’on sépare les valeurs à l’aide de tabulations.

Il existe un autre format : Comma Separated Values (CSV), où les valeurs sont séparées par des virgules. Les formats TSV et CSV sont appelés des formats de sérialisation.

La sérialisation est l’implémentation d’un modèle de données conceptuel dans un format qui peut être manipulé par des ordinateurs.

Il y a de nombreuses limitations avec cette méthode, deux plus importantes :o Chaque fois qu’on encode quelque chose de nouveau, il faut réinsérer le même type

de données, ce qui peut mener à des inconsistances, les différentes approches pour décrire des dates (par exemple), rendent une recherche structurée compliquée. Un homme lira les données et les relira mais dans un système d’information, les deux représentations seront par contre interprétées comme deux réalités différentes. ex : Juillet 1985 et année 90.

o C’est un modèle qui nécessite de parcourir la totalité du fichier ligne par ligne, lorsqu’il y a un grand volume de données, cela rend la recherche d’information au sein de données tabulaires peu performante.

Par contre, les données tabulaires s’accommodent facilement des changements (suffit de rajouter une colonne), ce qui n’est pas le toujours le cas.

C’est aussi le format le plus utilisé au monde pour échanger des données vu sa simplicité et le fait qu’il soit indépendant d’une application spécifique.

C. Bases de données relationnelles Approche conceptuelle, née des difficultés crées par les données tabulaires. Création de

familles d’objets indépendantes les unes des autres, qui sont interconnectées mais qui ont des caractéristiques différentes les unes des autres, elles permettent de créer des sous-classes. Ex : Les auteurs, les ouvrages et les éditeurs, 3 groupes indépendants mais reliés.

Cette abstraction du monde se fait sur base de trois éléments grâce au formalisme d’Entité-Relations (E-R) :

o Entités : (représentés par des rectangles) groupe d’objets qui peuvent évoluer indépendamment l’un de l’autre et qui joue un rôle important.

o Attributs : (représentés par des petites bulles) les caractéristiques d’un groupe d’objets

o Relations : (représentés par des lignes) liens entre les entités. Il faut rajouter une composante supplémentaire: les cardinalités, ce concept permet d’être

précis par rapport à la relation entre les différentes entités, et exprime le nombre minimal et maximal d’individus qui participent à la relation entre deux entités.

Il y a trois possibilités : 0, 1 ou n (= valeur illimité). Les cardinalités permettent de veiller sur la cohérence et l’unicité des enregistrements.

o (0.1) : aucune ou une instance. ex : un individu à 1 ou 0 domicileo (0.n) : aucune ou plusieurs instances. ex : un individu a de 0 à un nombre illimité

d’amiso (1.1) : une instance obligatoire. ex : un enfant n’a qu’une mère biologiqueo (1.n) : une instance obligatoire et plusieurs possibles. ex: une œuvre a au moins un

créateur

6

Exemple d’un schéma E-R :

Un des avantage énorme d’une base de données relationnelle est de pourvoir encoder une seule fois une réalité et chaque mise à jour sera distribué automatiquement dans toutes les tables concernées via l’identifiant unique de l’information. C’est aussi l’outil de prédilection pour effectuer des recherches précises dans de grands volumes d’informations.

Par contre, les bases de données réagissent mal face au changement, le simple ajout d’une table demande de réétudier l’ensemble de la base de données car ce type de modification peut aller à l’encontre du processus de normalisation.

Il existe aussi un problème d’incompatibilité pour utiliser la base de données d’une organisation tierce, il faut comprendre l’interaction et les relations qui existent entre les différentes tables et cela représente un travail complexe.

D. XML On entre dans les modèles où chaque entité peut évoluer indépendamment des autres. Il est

important de comprendre la différence entre un langage de balisage (comme HTML) et un métalangage de balisage (comme XML).

Le modèle est une structure hiérarchique, un ensemble d’arbres : tout document XML est caractérisé par une base qui a des « enfants » qui eux-mêmes ont des ramifications. La base détermine les caractéristiques des ramifications par une sorte de principe d’hérédité, de caractéristiques transmises.

A ce moment, le début d’une balise était annoncé avec le signe $ (n’importe quel signe peut être déterminé comme annonçant une balise)

Mais lorsqu’on a de grands documents, on ne va pas mettre ce genre de balises partout, surtout si l’on change d’avis et que l’on doit refaire tout le document. On parle donc de balisage lorsque les balises ne doivent être placées qu’à un seul endroit (en général au tout début) et s’appliquent à tout le texte, cela permet :

o une configuration centrale de la mise en page (cohérence)o une composition simplifiée : séparation de la rédaction et de la mise en pageo la possibilité d’exploiter la structure d’un document

Deux conditions doivent être rencontrées :o balises doivent être clairement séparées du contenuo les balises suivent une logique cohérente et prévisible toujours ouvertes puis

fermées Développement du SGML -Standard Generalized Markup Langage- (donc de toutes ces

balises et ce langage codé) dont html n’est en fait que la version allégée (mais il a récolté tout le succès) car SGML coûte cher et est difficile à utiliser.

XML et CSS se développent aussi à partir de SGML

7

Il y a un problème d’interopérabilité technique : on peut ouvrir et modifier un fichier XML avec n’importe quel logiciel et de mauvaise interopérabilité sémantique : c’est une machine qui interprète une chaine de caractères, elle n’est donc pas sensible aux homonymes et autres.

Pour utiliser le document XML de quelqu’un d’autre, on doit comprendre et s’adapter aux balises qu’il a mises en place.

E. Web des données Limites des trois modèles de données : L'interprétation d'un schéma de base de données ou d'un système d'info basé sur XML exige

que les personnes extérieures cherchent à comprendre la sémantique locale des données qu'elles souhaitent réutiliser.

Les données tabulaires ne possèdent aucun schéma. Comment un ordinateur peut donc lire cela? Quatrième modèle de données : Accéder à des données variées et pouvoir les réutiliser.

1. Modèle : RDF (= Resource Description Framework) Créé par Berners-Lee, évite de faire appel à un schéma et essaye d'utiliser un modèle de

données simplifié tout en incluant la sémantique via des expressions en 3 parties : sujet – prédicat – objet.

Permet une flexibilité maximale car chaque élément du monde peut trouver une relation avec un autre élément.

En exprimant les données en RDF il est possible de connecter ensemble sous forme de graphique des données traitant de réalités différentes.

Cette vision illustre comment chacun peut mettre à disposition des données qui peuvent ensuite interagir avec des données d'autres horizons. On peut donc effectuer des sauts d'une donnée à une autre. Les triplets peuvent donc s'étendre à l'infini.

Chaque pièce d'info doit être exprimée en utilisant le vocabulaire d'un schéma spécifique. Chaque fragment d'un triplet RDF possède un identifiant unique permettant tant à un humain qu'à une machine de récupérer sa définition.

8

2. Décrire le monde : L'approche des ontologies Origine : Recherche en intelligence artificielle. A partir de 1960 on cherche à développer du raisonnent automatisé, des systèmes expertes

et des agents intelligents. Lien → pensée logique pour formaliser l'ensemble des paramètres d'un système d'info. Pour le web sémantique la logique formelle se présente sous forme d'ontologies (= permet

de formaliser le sens d'un domaine d'application représenté dans un système d'info) En gros : RDF est un modèle simple basé sur des triplets où sujet – prédicat – objet reçoivent

chacun une définition à l'aide d'ontologies qui sont elles-mêmes exprimées en RDF. Deux ontologies de bases : RDF Schéma et Web Ontology Language. Formalisent des concepts simples : has-type ou is-subclass-of qui permettent de spécifier que

qqch fait partie d'une autre chose.3. Le pragmatisme des Linked Data

Cette méthode fut complexe et onéreuse à développer sans délivrer de résultats probants. Berners-Lee propose donc d’adhérer à un ensemble de bonnes pratiques pour guider la

publication des données liées (Linked Data = utilise des URL quand on publie des données sur le Web)

4. Sérialisation Façon d'encoder les interactions entre sujets, prédicats et objets pour que les données

puissent être manipulées par un ordi. Syntaxe Turtle :

o Les triplets sont sérialisées en séparant chacun des trois composants par des espaces et en clôturant par un point.

o Les URL sont entourés par des < > et un mécanisme de préfixes a été introduit à l'aide de @préfix afin de pallier la longueur du XML.

→ Cette approche permet de rédiger plus rapidement des triplets et d'augmenter leur lisibilité.5. Recherche

Le RDF a son propre langage de requête : SPARQL. Les requêtes permettent de sélectionner des graphes qui figurent dans le nuage de triplets.

Les requêtes illustrent à la fois la complexité et la puissance du modèle des Linked Date (peut trouver des résultats impossible à trouver dans Google)

6. Evolution Le RDF supporte bien les changements, il suffit d'ajouter des triplets et donc aucun

changement ne doit être effectué dans la structure des données ou des triplets existants. Cependant, il y a une grande instabilité des URL ce qui est un problème au Linked Data (Error

404)7. Partage

On voit donc que ce nouveau type de langage permet de dépasser la sémantique d'un schéma local. Les autres schémas, eux, emprisonnent les données. Cependant, retenons que le RDF fait aussi appel à des schémas.

F. Continuum entre la recherche non structurée et structurée Les moteurs de recherches font graduellement appel à des données plus structurées afin

d'obtenir des résultats plus intelligents (<Knowledge Graph). Ils permettent de trouver quelque chose de plus global ou d'effectuer une recherche plus structurée et donc fait appel à des champs précis.

1. Google Sholar Intègre à la fois la recherche full-texte classique des moteurs de recherche ciblant des

documents scientifiques et une approche plus structurées avec des champs de recherche précis. Son atout est sa facilité d'utilisation.

L'outil propose deux interfaces de recherche :

9

o effectuer une recherche simple sur un ou plusieurs termes reliés implicitement par AND

o limiter les résultats obtenus en proposant des champs qui remplissent les fonctions des opérateurs booléens NOT et OR Limites :

Qualité des résultats n'atteint pas celle des bases de données structuréeso Aucune liste des éditeurs commerciauxo Pas d'info sur les serveurs d'archives qu'il indexe ni sur le type de doc traités ou la

période couverteo Carence de doco Pas de précision sur la fréquence des mises à jouro Liens obsolètes

→ Destiné principalement à la recherche d'info précises2. ScopusBase de données de contenu transdisciplinaire payante. Son contenu est mis à jour quotidiennement. Les contenus sont indexés en anglais suivent plusieurs critères.Cette base de données nous montre l'avantage d'une indexation par mots clefs mais nous montre aussi l'inconvénient d'une base de données anglo-saxonne avec le nombre limité de références en français.

III. Numériser les sources La numérisation des sources permet leur gestion, préservation et partage. Pour mieux appréhender notre sujet de recherche, on commence a priori par la lecture de

sources secondaires. Ensuite, on recherche et interprète nous-mêmes des sources primaires. Ce dernier point est fondamental, nous permettant d’avoir un regard plus personnel sur le sujet.

Ces sources sont disponibles dans des collections institutionnelles, lesquelles ont commencé des projets de numérisation dès les années 1990 afin de les rendre consultables à distance.

Phénomène du crowdsourcing : institutions font appel au grand public pour décrire leurs collections. Pratique à double tranchant :

o Présentée comme ouverture du secteur culturel et démocratisation de l’accès au patrimoine

o Écran de fumée pour cacher les coupures budgétaire de ce secteur qui privilégie les événements tape-à-l’œil plutôt que d’engager des professionnels de la documentation.

A. Le patrimoine mondial accessible en un clic ? 1e institution à se lancer dans la numérisation de leurs collections : Bibliothèque du Congrès

aux USA, par le projet pilote « American Memory »1 en 1990. Aujourd’hui : plus de 9 millions de documents numérisés.

En Europe, la France fut l’une des premières dans l’informatisation de son patrimoine : la BNF commence en 1990 la numérisation d’une collection d’images fixes. En 1998, elle développe le projet Gallica, rendant disponible des documents libres de droit. Ensuite, par le développement de programmes de numérisation à visée thématique, elle développe alors des collections extérieures. Aujourd’hui : plus de 2 millions de documents numérisés.

À la base, but de la numérisation : mieux conserver, disponibilité pour tous du savoir et des connaissances, transmission plus rapide.

Mais irruption de problématiques : o institutions pressées par les politiques prônant un traitement de masse, contre une

approche qualitative et une sélection précise de documents o numérisation sans anticipation de la formation du personnel et préparation des

documents.

1 Objectif : illustrer l’histoire et la culture des USA par la numérisation de sources de tout genre.

10

o Conséquence : impossibilité de valoriser les documents par manque de métadonnées ou de système de gestion adapté.

1. Mythe de l’accès numérique au patrimoine culturel Une large partie du patrimoine de l’humanité reste insaisissable par le biais des nouvelles

technologies, pour plusieurs raisons :o Non numériséo Accès limité par manque de métadonnées ou par droit d’auteur et protection de la

vie privéeo Influence des choix des documents par visée des institutions, par besoins de

financement privé ou par besoin de commercialiser les contenus Mythe de l’accès universel à l’information numérique triomphe et crée potentiellement la

désinformation. Des recherches se basent sur cette idée d’accès universel à l’ensemble des documents disponibles depuis l’invention de l’imprimerie, les institutions telles que Google books entrainant ce mythe, et sont dès lors « fausses ».

2. Gestion du patrimoine. Tensions entre passé et présent. Les institutions manquent de moyens structurels, le climat socio-économique prédomine

donc, le programme à court terme du monde politique et des administrations ont un impact décisif: actions envisagées à court terme sans réelle politique de pérennisation.

Une vision à court terme dans le cadre d’un programme politique peut (souvent) s’avérer être un échec, comme le fut le projet Europeana2.

Il faut définir correctement les objectifs d’un projet numérique, et les confronter aux moyens disponibles et à la réalité de terrain.

Plusieurs chercheurs ont démontré qu’une partie importante de nos pratiques documentaires répondent à des objectifs politiques (donc non neutres) qui n’ont pas nécessairement un but d’accès aux archives : le présent instrumentalise le passé.

Principe de base de l’archivisme (depuis fin du 19e siècle) : garder un ensemble de documents archivistiques dans leur contexte original. Ce n’est pas l’individuel mais l’ensemble des documents qui permet l’étude du contexte historique de leur production. Dès lors, avant mise en place de cette pratique avait lieu un tri détruisant le contexte original de beaucoup de documents.

Assurer la pérennité d’une collection numérique coûte très cher (cf. conversion de papiers en microfilms, qui n’ont plus été lisibles seulement 20 ans plus tard, et de plus amenant souvent à la destruction des papiers originaux). Il faut faire attention à l’intégrité du fichier numérique et la continuité de ce qui l’entoure : hardware, software et métadonnées.

3. Vision complète des étapes de la numérisation %technique : numérisation = conversion de l’information analogique d’un document en

mode binaire de façon à obtenir un document électronique. Il s’agit en fait d’un processus complexe, devant tenir compte de :

o La définition des objectifso La composition d’un corpuso L’étude de la faisabilité du projeto Choix éventuel d’un sous-traitanto Préparation des documentso Conversion des objets patrimoniaux en format numériqueo Création des métadonnéeso Contrôle de la qualitéo Diffusion auprès du public

2 Volonté de l’UE de concurrencer Google Books, mais c’est un cuisant échec à plusieurs points de vue.

11

Les prochains points constituent les étapes de bases permettant la numérisation, mais également la critique en tant qu’utilisateur : Préparation, Numérisation, Métadonnées et Logiciels de gestion de collection.

B. Préparation Questionnements sur : le public ciblé, les usages (culturels et scientifiques) envisagés, les

thématiques choisies, les types de collections visés ainsi que les partenariats pouvant être développés. Tout cela est à définir en fonction des ressources (humaines et financières) disponibles, à évaluer tout au long du projet.

Dans le cas d’une institution : doit pouvoir s’inscrire dans la stratégie globale de l’établissement et répondre à ses missions principales.

Débat autour de l’utilité du patrimoine numérique (à court et long terme).1. Que veulent les utilisateurs ?

Différents utilisateurs = différentes attentes, pas toujours compatibles ! Double mission des institutions culturelles : conserver et rendre accessible leurs collections.

Fin 20e siècle : poids de la conservation diminue face à la nécessité de répondre aux besoins des utilisateurs, ce qui entraine un questionnement sur notre conception d’un lieu de mémoire et sur ce qui constitue notre patrimoine :

19e siècle : conception traditionnelle du patrimoine culturel 20e siècle (États-nations) : idées davantage pluralistes et inclusives Web = rôle important dans l’ouverture et la démocratisation du patrimoine culturel. Ainsi, on

retrouve le user-generated content3 dans le Web social (ou Web2.0). Plusieurs institutions offrent un service de numérisation à la carte des documents. Ainsi, le

processus du scan on demand assure une correspondance entre les demandes d’utilisateurs et la politique de numérisation. Mais surtout utilisé par généalogistes :

o actes de naissances/mariages/etc. o une institution ne peut pas se baser uniquement là-dessus pour constituer ses

collections. Vision du monde politico-administratif des institutions culturelles = producteurs de contenu.

Ainsi, content provider = institutions culturelles qui mettent, dans le contexte des financements européens, leurs contenus à disposition des équipes informatiques (= service providers) qui développent des systèmes d’information innovants.

o institutions culturelles mises au même niveau que des entreprises comme Google ou Amazon. On voit l’utilisation de l’ISO4 pour définir la qualité d’un produit/service

o marchandisation du patrimoine culturel (= processus de transformation de qqch d’unique en un bien standardisé pouvant être échangé sur le marché économique).

2. Financement Coût :

o = main-d’œuvre, équipement et infrastructure.o = qq dizaines à qq centaines de milliers d’euros

En Europe : traditionnellement financé par des fonds publics : besoin d’une volonté politique en plus des objectifs définis par les institutions. Le financement peut concerner soit des projets ponctuels, soit l’augmentation de la dotation des établissements (=> développement à long terme d’un département chargé de la numérisation).

En-dehors de l’Europe : recours plus fréquents à des fonds privés (sponsoring par des entreprises privées ou institus philanthropiques ; par des mécènes privées ; capitaux apportés par des actionnaires ; consultation payante par abonnement ou pay-per-view ; recettes publicitaires) qui imposent de courts délais, et orientent même parfois les choix des institutions

o concurrence pour trouver des fonds

3 Données mises en ligne par des utilisateurs.4 International Standard Organisation, = adéquation entre produit/service et ses usages

12

o besoin de qualités entrepreneuriales.o Une des pistes (abandonnée par la suite) des États : le Partenariat Public-Privé :

Recherche indispensable de partenariats disposant de capitaux et de savoir-faire. Le PPP a inquiété les défenseurs des contrats publics traditionnels, devant séparer les sphères publiques et privées et rendre des comptes aux électeurs, mais a séduit les libéraux.

Ces partenariats accordent parfois des droits exclusifs de diffusion des documents numérisés aux partenaires privés pour une certaine durée : danger pour l’accès au patrimoine public.

3. Numériser en interne ou en externe ? Institutions avec moyens et compétences nécessaires pour un processus de numérisation

interne ? Appel à un sous-traitant pour :

o Volume important de document dans un laps de temps réduito Diminution des investissements matérielso Partage des risqueso Recentrage sur les activités principales de l’établissemento Manque d’expertise en interne

Mais problèmes, dont le principal est le langage différent des institutions et des fournisseurs de services informatiques, leur interprétation différente de l’appel d’offre (attente de l’institution vs. l’offre du prestataire).

À la base : o entreprises proposent des prix compétitifs (parfois bien en-dessous du coût réel) o quand le marché est acquis, facturation de prestations supplémentaires o explosion du budget et mise en péril de l’ensemble du projet o parfois, poursuites judiciaires !

Outsourcing5 de + en + prisée par les institutions, mais avantages en termes de coûts et d’organisation du scannage en interne (pas de transport, conditions de conservation des originaux respectées) mais il faut avoir suffisamment de personnel qualifié et que le volume à traiter n’est pas trop élevé.

Besoin pour la numérisation d’un cahier des charges : description détaillée des collections à numériser ; choix définitifs en termes de paramétrage et d’exigences de qualité ; méthode de travail souhaitée ; exigences imposées sur le plan administratif. Si sous-traitance : cahier des charges = contrat.

C. Processus de numérisation 1. Bases techniques

Éléments constitutifs d’une chaîne de numérisation o Le dispositif de numérisation : le scanner reçoit un signal analogique composé de

rayons lumineux (ce sont eux qui sont numérisés et non la page) envoyés par la surface de la page. Plusieurs types de scanners : à plat, automatisés, à tambour, etc.

o La configuration du système d’éclairage : surface des pages à illuminer de manière uniforme pour éviter les reflets. Plusieurs méthodes sont possibles. De plus, il vaut mieux un environnement sombre et une lumière artificielle (plus faciles à gérer), mais exposition trop longue à la lumière peut être dommageable pour certains documents.

o Réglage de la résolution : la lumière réfléchie passe par un système optique, dont l’objectif est à focale fixe ou variable (plus focale est courte, plus résolution est élevée).

o Réglage du diaphragme (laissant passer la lumière) : plus diaphragme est ouvert, plus quantité de lumière est importante, plus temps d’exposition est court.

5 Numérisation externe

13

o Cadrage : scannage à des fins de conservation ou de valorisation n’implique pas les mêmes choix en termes de découpage. La version numérique doit être la plus fidèle possible à l’original : marge pour visualiser le document dans sa totalité. Si le contenu est le plus important : simple découpage sans marge suffit.

choix ont un impact sur la perception finale du document, sur le poids des fichiers à stocker et sur la préparation du travail de numérisation.

Paramètres déterminant sa qualité :1.1. Résolution

Un document numérisé est représenté par une série de pixels discontinus qu’on appelle échantillonnage. Résolution de l’échantillonnage en dpi6 (la valeur de résolution choisie intervient au carré sur l’espace de stockage exigé). Le choix de la résolution dépend de la taille du document original et de l’usage final du document numérique :

o Conservation à long terme : fichier numérique non compressé, très fidèle à l’original.o Diffusion : résolutions différentes en fonction de l’usage, transmission fluide sur les

réseaux, affichage rapide à l’écran, taux d’impression courant (dpi<300)o Visualisation sur écran d’ordinateur : fichiers en basse résolution.o Pas besoin de dpi>350 pour conditions normales de lecture, intéressant seulement

pour lecture par zoom numérique à l’écran. Ici, caractéristiques d’une image matricielle (nombre de pixels basé sur la résolution de

capture d’un scanner/appareil photo) >< images vectorielles (basée sur des expressions mathématiques qui définissent la forme et les couleurs ; fichiers textuels définissant les paramètres graphiques). Le SVG7 du W3C permet de créer des graphiques vectoriels basés sur XML.

1.2. Couleurs 4 options de représentation des couleurs d’un document de façon numérique :

o Représentation des couleurs réelles (codage en couleur vraie)o Représentation des couleurs par une palette avec un nombre défini de teintes

(codage en couleur indexée)o Représentation de l’intensité lumineuse, pas des teintes (codage en niveau de gris)o Représentation du noir et du blanc (codage bitonal)

Profondeur de bits=nombre de bits par pixels pour représenter les couleurs. 1 bit=2 tons, 2bits=4 tons, etc. Ainsi, dans une image à deux bits (donc profondeur de bits=2), il existe 4 combinaisons possibles : 00, 01, 10, 11 (00=noir, 11=blanc, donc 01=gris foncé et 10=gris clair).

Combinaison de 3 lumières monochromatiques (=synthèse de toutes les couleurs discernables par l’œil humain) : RGB8 ou RVB9, à des degrés divers. Pour qu’un codage puisse représenter des couleurs précises, il faut ajouter des informations complémentaires : le profil ICC10 définissant un espace de couleurs (nombres de couleurs absolues réalisées à partir des composantes primaires RVB pour une image). Pour la numérisation, on se limite à un codage en 24 (3 groupes : 8 bits pour le Rouge, 8 pour le Vert et 8 pour le Bleu) ou 48 bits (=limite des capteurs de scanners et appareil-photo). Une image de 24 bits offre 16,7 millions de valeurs de couleurs.

1.3. Format Format d’un fichier numérique = type de codage utilisé pour le représenter. Il en existe deux

grandes catégories :

6 Dots per inch7 Scalable Vector Graphics8 Red-Green-Blue9 Rouge-Vert-Bleu10 International Color Consortium

14

o Formats propriétaires ou natifs, produits par une application particulière, ne pouvant être lus que par cette dernière ou par un nombre limité d’autres applications

o Formats standards, conçus pour être lus et échangés par plusieurs applications différentes.

On parle de standards de jure, fruits d’un processus décisionnel formel, à cause de leur poids au niveau international, et de standards de facto pour certains formats détenant le monopole sur le marché (ex: PDF). Les conséquences économiques d’une lutte entre différents formats concurrentiels sont importantes.

Les formats d’images numériques les plus utilisés dans le cadre de la numérisation des collections patrimoniales sont :

TIFF11, l’un des plus anciens, mais encore utilisé par la majorité des établissements patrimoniaux à des fins de conservation.

o JPEG12, permet de réduire l’espace de stockage des images numériques avec une qualité de rendu égale ou supérieure.

o PNG13, format ouvert, offrant une compression des images sans perte.o PDF14, format de description et d’affichage de documents, conservant leur mise en

page quel que soit le logiciel/système d’exploitation/support de lecture utilisé. Permet également l’intégration d’un système de protection et de métadonnées d’indexation basées sur un processus de reconnaissance automatique des caractères.

2. Outils de gestion Nécessaires au vu de l’impact logistique pour une institution. La modélisation des processus peut être utile, surtout s’il y a beaucoup d’acteurs, si les lieux

de travail sont éloignés et/ou si le volume de documents à traiter est important.2.1. La modélisation du workflow

Workflow : modélisation d’une suite de tâches et d’actions à accomplir pour atteindre un objectif, optimisant le travail des différents opérateurs et maximisant leur communication.

Il s’agit de la planification, l’inventaire des différentes étapes d’un projet de numérisation, sachant que le planning d’origine est appelé à évoluer en fonction des problématiques rencontrées. Chaque étape du processus de numérisation inclut un ensemble de tâches indépendantes les unes aux autres qui traitent l’information simultanément ou consécutivement.

Dès lors, le Workflow doit être bien documenté.2.2. Le diagramme de Gantt

C’est l’un des outils les plus efficaces pour modéliser la planification des tâches, couramment utilisé en gestion de projet et plus ou moins détaillé. Il peut concerner le planning général ou des étapes particulières du projet. Il se présente sous la forme d’un tableau : en abscisse se trouvent les unités de temps et en ordonnée les différentes tâches à effectuer, modélisées sous forme de barrettes (dont la longueur proportionnelle à la durée).

11Tagged Image File Format12 Joint Photographic Expert Group13 Portable Network Graphics14 Portable Document Format

15

3. Pourtant, des problèmes surviennent… Des problèmes peuvent survenir en cours de production, principalement dus à

l’hétérogénéité des collections, entrainant une difficulté à anticiper les cas particulier dans les consignes donnés ou dans le cahier des charges. Cela peut perturber fortement le planning et le coût d’un projet.

Quelques exemples (pages manquantes, reliures trop étroites, suppléments d’édition/journaux ou encore erreurs de dates/jours dans les exemplaires) sont donnés, montrant que les problèmes sont souvent liés à un petit nombre de cas exceptionnels qui ralentissent l’ensemble du workflow à l’échelle d’un projet de grande ampleur.

D. Métadonnées On a actuellement sur ordinateur les images numérisées, avec des noms de fichiers générés

automatiquement par le scanner à plat.1. Que sont les métadonnées ?

Métadonnées : données qui décrivent une autre donnée. Comment faire la distinction entre une donnée et une métadonnée ? On ne peut pas, cela dépend entièrement du contexte puisqu’on peut attribuer des métadonnées à une métadonnée, donnant dès lors à cette dernière le rôle de donnée.

Allant de simples noms de fichiers jusqu'aux ontologies complexes du Web sémantique, les métadonnées sont le vrai moteur derrière chaque type de recherche structurée. La numérisation de documents doit donc être accompagnée de données descriptives permettant une indexation de qualité et dès lors une recherche rapide et efficace dans les fonds consultés.

Il faut donc gérer la création et le traitement des métadonnées, informations permettant d’identifier un objet de façon unique, de le distinguer parmi la masse, de le retrouver facilement, d’attester de son authenticité, d’assurer sa pérennité et d’apporter des éléments de contextualisation afin de pouvoir faire une analyse critique et d’encourager l’interopérabilité.

Cette étape prend du temps et nécessite des moyens financiers importants, pouvant dépasser 80% du budget global. Or, les moyens sont souvent mis à disposition à court terme pour l’étape de scannage, mais pas pour un travail en profondeur sur le contenu.

2. Contexte et évolution 19e siècle : indexation et catalogue considéré comme science/art Actuellement : tâche peu gratifiante. On voit donc que les nouvelles technologies n’ont pas toujours eu un impact positif sur la

qualité des métadonnées dans le domaine culturel => numérisation en masse parfois au détriment de la valeur ajoutée en termes de contenu.

Les métadonnées sont pourtant indispensables pour identifier ces œuvres et les utiliser de façon pertinente. Sans celles-ci, un fond numérique reste inaccessible pour les utilisateurs, perdant leur pertinence. Les images numérisées doivent être décrites et replacées dans leur contexte d’origine.

Souvent, les noms de fichiers sont constitués d’un code aléatoire (identification unique) et un code sémantique (date fréquemment utilisée).

La sémantique n’est pas universelle, notamment la désignation d’une date selon le modèle américain ou européen et ce à quoi fait référence exactement la date en question.

3. Standards de métadonnées et voie vers l’interopérabilité Standards de métadonnées : tout le monde est d’accord sur le fait qu’il faut les utiliser, mais

personne ne veut utiliser le standard d’un autre, notamment parce que le regard porté sur un document peut être très différent en fonction de l’institution.

Bibliothèque : description d’ouvrages intellectuels se manifestant dans une édition donnée.

16

N.B. : le format MARC15 est notamment utilisé pour échanger des métadonnées entre bibliothèques (afin de rationaliser les efforts de catalogage). Celles-ci collaborent depuis des décennies, s’échangeant des notices bibliographiques pour ne pas devoir décrire le même livre 2x.

Musée : approche documentaire très différente : attention portée sur les caractéristiques qui identifient un objet en tant qu’élément qui mérite une attention particulière, comme les caractéristiques physiques d’un tableau ou d’une structure. Les musées s’intéressant à des objets/collections uniques, ils n’ont pas la même expertise au niveau de la standardisation et de l’échange des métadonnées. Des standards ont bien sûr été développés, mais il y en a trop.

Exemple : norme américaine CDWA : propose un ensemble de lignes directrices pour la description d’œuvres d’art ; description centrale d’un objet liée à plusieurs listes d’autorités

(personnes, lieux, etc.). Centre d’archives : une collection archivistique=volume important de documents de natures

hétérogènes, mais étant tous produits ou collectés par la même personne/organisation. %archivistes : fonds=unité documentaire essentielle ; constitué de plusieurs dossiers,

pouvant chacun contenir différents niveaux de sous-dossiers ; l’archiviste dresse alors un inventaire décrivant les caractéristiques du fonds dans sa globalité, puis au niveau des dossiers et sous-dossiers : produit rarement des métadonnées spécifiques à un document, tient plutôt compte de l’accessibilité et la préservation de son intégrité.

Les spécificités rendent difficile une recherche structurée dans les différentes collections. Des institutions similaires peuvent utiliser des pratiques de métadonnées très différentes. Il est possible d’identifier un ensemble limité de caractéristiques que certains documents

partagent.4. Dénominateur commun : le Dublin Core

A Dublin, 1995, des experts identifient 15 éléments qui permettent de décrire n’importe quel document (de relier au travers plusieurs systèmes d’information des données structurées).

Les 15 éléments : titre, créateur, sujet, description, éditeur, etc Grâce à Dublin Core des champs spécifiques de bases de données différentes peuvent être

interconnectés.5. Notices d’autorité et vocabulaires contrôlés

Les notices d’autorité permettent de baliser l’usage du langage naturel, d’éviter des variantes orthographiques et de distinguer des homonymes.

Les vocabulaires contrôlés permettent de décrire le contenu d’un document ou d’objet patrimonial. Concerne surtout le contenu destiné à un champ tel que «sujet».

RAMEAU est un important vocabulaire contrôlé. Un sujet tel que l’architecture de Horta devra être repérable par le biais de «art nouveau»,

mais il y a plein de synonymes pour désigner l’art nouveau en Europe, et concernant Victor Horta; alors RAMEAU indique que ce sont des synonymes, et que tout ce qui se trouve sous le «sujet» «art nouveau» concerne également tous les synonymes en question.

Les vedettes-matières sont un type de vocabulaire contrôlé spécifique. A la différence des vedettes-matières, il existe pour les thésaurus un standard formel qui

prescrit leur mode de construction.6. Méthode de construction d’un thésaurus

La création d’un thésaurus est constituée des étapes suivantes :o collecte et normalisation du vocabulaire : consiste à dépouiller un fonds

documentaire pour en extraire tous les termes pertinentso établissement des relations hiérarchiques et sémantique : Les relations

hiérarchiques servent à articuler les descripteurs (termes préférés) entre eux, en

15 Machine-Readable Cataloging

17

indiquant soit un terme plus générique (BT : broader term), soit un terme plus spécifique (NT : narrower term).

Les relations d’équivalence permettent de lier un descripteur (terme préféré) à un non-descripteur (terme non-préféré) afin d’indiquer l’existence de synonymes en précisant que le premier est utilisé pour (UF : used for) le second

o présentation sous forme structurée : est la présentation du thésaurus constitué, par exemple sous la forme d’un dictionnaire.

7. Problèmes liés aux vocabulaires contrôlés Ils ont des limites :

o coût : leur création et gestion réclament des ressources humaines importanteso complexité : beaucoup d’utilisateurs finaux ne savent pas les utiliser (les listes de

mots-clés contrôlés considérées trop complexes)o lenteur des mises à jour : ne prennent pas automatiquement en compte les

changements du réel (deux mois pour avoir la vedette-matière des9 attentats du 7 janvier charlie hebdo)

o subjectivité : représentent toujours un une vision spécifique du monde (DDC - Dewey decimal classification, à partir de fin du XIXe siècle, mode de classification qui découpe l’ensemble des savoirs en classes, divisions et sections : mais donne, par exemple, plus d’importance au christianisme qu’aux autres religions).

La valeur ajoutée des vocabulaires contrôlés concernent la gestion de la polysémie et de la synonymie. Les difficultés surviennent quand il faut établir un consensus sur le choix des termes et de leurs relations.

Le responsable d’un projet de gestion de thésaurus doit posséder certaines qualités :

o être expert dans le domaine d’applicationo posséder une méthode de travail rigoureuse à même de faire passer du langage

naturel au langage contrôléo doit faire preuve de pragmatisme et accepter une qualité suffisante sans chercher la

perfection8. Création automatisée de métadonnées

Des initiatives d’automatisation ont été créées pour réduire les coûts en diminuant le temps et les ressources nécessaires.

Ces démarches permettent un accès alternatifs au document mais la qualité du service dépend du contexte et du type de documents.

Deux techniques de base pour indexer des documents numériques de façon automatique :o OCR : optical character recognition qui permet de reconnaître les chaînes de

caractères d’une image numérisée et de travailler en recherche full-text. La qualité de l’OCR dépend de la résolution des images numérisées, la mise en page, les

polices, etc. Une océrisation de milliers d’images réclame des ressources informatiques considérables en

matière de forces de calcul et de stockages de données, ainsi qu’à des compétences linguistiques particulières.

CBIR (content-based image retrieval) s’active à interpréter les images d’une collection iconographique de la même manière que OCR interprète les textes.

L’usage de CBIR, dans le domaine du patrimoine, reste limité car il s’arrête au sens dénotatif d’une image tandis que les documents de bibliothèques, centres d’archives et musées ont besoin du sens connotatif des images.

9. Le Crowdsourcing Description de ressources en ligne pratiquée par la communauté des internautes. La

description se fait de manière libre, en reliant des mots-clés au choix des ressources en ligne. Flickr.com est la première plate-forme à lancer une vague de crowdsourcing.

18

Malgré des commentaires inutiles, certains contiennent un vrai supplément d’information, accompagnés de références bibliographiques qui permettent de vérifier les annotations.

Cette manière libre d’indexer l’information modifie le cycle documentaire traditionnel. Jusqu’alors, la classification de l’information précédait l’accès aux données.

Les commentaires d’utilisateurs continuent d’être d’une grande utilité pour des collections d’images qui représentent des contenus obscurs (vieux intérieurs de tramway, par exemple).

Des projets parviennent à convaincre le public de corriger des erreurs dans des textes océrisés ou d’effectuer des transcriptions.

Exemple : le projet «What’s on the menu ?» est une collection de 45 000 menus datant de 1840 à aujourd’hui. Grâce aux commentaires et aux transcriptions, des historiens de la culture populaire et de la gastronomie ont accès à des sources primaires formidables.

De nombreuses tentatives de crowdsourcing ont échoué par manque de visibilité. Pour attirer l’attention, et faire effectuer des tâches répétitives qui ne peuvent pas encore être automatisées, des outils tels que Mechanical Turk d’Amazon a introduit la notion de micro-tâches réalisées en échange de micro-paiement.

E. Outils de gestion de collection Les composants d’un système documentaires automatisés sont fortement évolutifs mais

comportent toutefois deux éléments principaux o un SGBD (système de gestion de base de données) qui gère les documents et les

métadonnéeso un moteur d’indexation et de recherche

1. Relations houleuses avec les outils Il y a différents gestionnaires de métadonnées. Les bibliothécaires, conservateurs et archivistes se plaignent souvent de leur outil de gestion

de métadonnées. Malgré leurs plaintes, à cause des conséquences économiques et sociales, ils ont beaucoup

de mal à se séparer de l’outil en question. Tandis que les chercheurs en humanités numériques sont souvent fiers de leurs bases de

données. Qu’est-ce qui explique ces deux attitudes opposées ? Cette différence s’explique par la manière dont le modèle de données implémenté dans le

logiciel est en adéquation avec la réalité à décrire.2. Comment être prisonnier de son logiciel

La mauvaise communication entre différents départements d’une même institution peut compliquer la question.

Par exemple, il existe un logiciel libre très intéressant mais votre musée utilise TMS (the museum system, logiciel pour gérer, documenter et publier en ligne des collections muséales). TMS : stand-alone software : se paie par le nombre d’utilisateur du logiciel. Le logiciel est installé autant de fois qu’il n’y a d’utilisateur.

web-based software : logiciel installé en externe ; chaque utilisateur s’y connecte via le navigateur web.

L’évolution du stand-alone vers le web-based (puis vers le cloud) a des implications sur le modèle financier.

3. Évaluer la qualité d’une base de données documentaire La qualité d’une base de données désigne son adéquation relative aux objectifs qui lui sont

assignés. On parle de fitness for use (fraîcheur, rapidité de transmission, précision des données). Dans ce cadre, il est fondamentale de distinguer :

o données déterministes : n’évoluent pas dans le tempso données empiriques : sujettes à l’expérience humaines, évoluent dans le temps

Les évolutions qui influencent la création de métadonnées opèrent au sein d’échelles de temps différentes. Dans le contexte du patrimoine culturel, on distingue :

19

o temps long : reflète politiques culturelles de sélection et de numérisation (la notion de patrimoine culturelle peut varier). Ex : les musées indexent en français uniquement puis passage au bilingue après la seconde guerre mondiale : français-NDS.

o temps intermédiaires : celui des technologies documentaires. Ex : passage des fiches en carton à la base de données dans les années 1980.

o temps court : celui est interactions entre les métadonnées et les objets culturels qu’elles représentent; correspond au réel observable dont l’évolution est continue.

Dans un projet de numérisation, il est impératif de prévoir une étape de contrôle comprenant l’évaluation de la qualité des images, des métadonnées et de l’intégrité des fichiers. Le contrôle peut s’effectuer de manière automatique ou manuelle.

Open Refine peut être utilisé pour contrôler et nettoyer les données. Avec cet outil, il est possible d’identifier les écarts formels entre les définitions structurellement attendues dans le schéma de métadonnées et les valeurs saisies dans la base de données. Il est ensuite possible d’interpréter ces résultats à la lumière d’étude des événements correspondants aux temps intermédiaire et long.

4. Omeka, un exemple d’application pour décrire les contenus Logiciel de gestion de collection le plus utilisé pour la création de bibliothèques numériques

en ligne. Version gratuite en ligne. Facile d’accès pour une première expérience dans la création de base de données.

L’un des points forts d’Omeka est d’offrir la possibilité d’associer plusieurs ensembles de métadonnées afin d’enrichir au maximum les informations fournies sur les différents contenus.

Il existe plusieurs possibilités d’introduire de nouveaux contenus. On peut d’abord compléter les 15 éléments de base de Dublin Core ainsi que leurs extensions. On peut aussi ajouter des métadonnées complémentaires. Par exemple, pour image fixe, on peut préciser son format et ses dimensions. Le but est d’améliorer la qualité de l’indexation et d’augmenter les chances pour l’utilisateur de retrouver le contenu adéquat.

Parmi les extensions additionnelles, on trouve la possibilité d’importer directement des données au format CSV (avec CSV import) ou depuis une bibliothèque Zotero (avec Zotero import). Cela permet de gérer des références bibliographiques avec une application tierce sans pour autant perdre le travail d’indexation déjà réalisé.

On peut aussi ajouter la fonction de recherche en full-texte à condition que le document en question soit océrisé. Ou encore, ajouter des tags. En créant des relations entre les différents contenu, on a enrichi un maximum les données descriptives.

IV. Analyser le contenu Le langage naturel est extrêmement ambigu, ce qui le rend difficilement compréhensible

pour des machines. Un mot a rarement une signification unique et une machine ne reçoit en entrée qu’une chaîne de caractères. Langue, catégorie lexicale, contexte, représentent tous des paramètres complexent pour la machine qui doit leur donner du sens.

Une caractéristique essentielle de la machine est sa capacité à traiter de gros volumes de données là où l’être humain doit se contenter d’échantillons plus modestes à cause de ses capacités de calcul limitées.

A. Comprendre un contenu textuel Étude du traitement automatique des langues et des Big Data.

1. Traitement automatique des langues (TAL) Le TAL est une discipline hybride mêlant linguistique, informatique et statistique afin

d’analyser des données textuelles de manière (semi-)automatique pour en extraire un contenu et inversement.

o Par exemple : la traduction automatique, la correction d’orthographe, le résumé automatique de texte, la reconnaissance et la synthèse de la parole.

20

Deux approches sont en compétitions : l’approche linguistique et l’approche statistique. Les fondements théoriques du TAL remontent aux années 1940. Les premiers automates se

basent sur la machine de Turing o Approche statistique (vision informatique de la langue suggérée par Shannon en

1948) : si l’on décompose une chaîne de caractères en unités simples (des lettres), il suffit alors de les compter pour pouvoir déduire avec quelle probabilité telle ou telle lettre suivra la précédente.

o Approche linguistique (description sous forme de raisonnement des règles de la grammaire et de la conjugaison développé par Chomsky (1956) et formalisé par Backus (1960) : il s’agit de grammaires non contextuelles (un élément est défini indépendamment du contexte) qui sont parfaites pour décrire une langue, un ensemble de règles.

Les années 1960 et 1970 ont été le théâtre d’une double évolution : l’école symbolique et l’école stochastique.

L’école symbolique découle :o de Chomsky en ce qui concerne la théorie du langage formel,o ainsi que du travail d’informaticiens et linguistes sur des algorithmes d’analyse

syntaxique : des méthodes de détection des mots et de leur nature.o Ils tentaient de donner aux ordinateurs certaines compétences de compréhension de

la langue, pas spécifiquement sur le sens des mots mais sur leur rôle. L’école stochastique aborde la langue de manière plus mathématique et déterministe car

elle utilise uniquement une approche statistique et des modèles probabilistes. Ils permettent de déterminer la tendance qu’a un mot d’en suivre un autre. Aucune analyse syntaxique n’est effectuée, l’ordinateur n’a donc aucune connaissance linguistique.

Un système linguistique ne génère que du texte grammaticalement correct. Un système statistique ne génère que ce qui est le plus probable en fonction du corpus sur lequel il a été entraîné (par ex : Google Translate). Le système statistique prend plus facilement en charge l’imprévu : si un mot n’apparaît pas dans le dictionnaire, le système linguistique bloquera, alors que le système statistique donnera une valeur par défaut à cette inconnue et continuera son traitement.

Les systèmes linguistiques sont utilisés dans des domaines limités (par ex : le système Météo de Thouin 1982, développé par Chandioux, 1976) tandis que les systèmes statistiques sont utilisés sur des corpus de plus grande ampleur, hétéroclites, provenant généralement du Web ou sur des corpus numérisés de mauvaise qualité afin de pouvoir prendre en compte le bruit éventuel.

Dans le domaine des SHS, Franco Moretti (2005) a introduit la notion de distant reading c’est-à-dire aborder des données en tant que large ensemble hétérogène et de les traiter en gardant une certaine distance. Celle-ci s’oppose au close reading qui consiste à lire un texte attentivement et pour lui-même sans s’attacher aux éléments extratextuels. Cette approche est possible grâce aux Big Data et grâce à des outils spécifiques (AntConc, Unitex)

21

B. Lire un texte à distance Déduire les constructions syntaxiques et les expressions temporelles.

1. AntConc Il permet, indépendamment de la langue utilisée, de générer la liste des mots d’un corpus de

texte triés par ordre de fréquence, ainsi que de détecter avec quels autres mots ils sont utilisés afin de les replacer en contexte. Il a comme fonctionnalité la recherche d’occurrences et leur affichage ainsi que la recherche d’expressions régulières.

2. Unitex Il permet une analyse lexicale plus fine qu’AntConc dépendante de la langue, qui permet de

représenter toutes les formes d’un même lemma (variation de genre, nombre, mode, temps). Cette fonctionnalité est utile pour la construction d’un automate capable de détecter non plus une chaîne de caractères littérale, mais une phrase faisant sens.

C. Constituer son corpus de recherche Avec la mouvance open data, de nouvelles sources d’information voient le jour pour les

chercheurs en SHS. L’avènement des données structurées et informatisées permet une automatisation du travail en prenant en compte plus de données et laisse plus de temps au chercheur pour traiter l’information trouvée.

1. Scraping Le scraping permet d’aspirer automatiquement le contenu d’un ou plusieurs sites Web afin

de se constituer un corpus de recherche. Légalement en zone grise, cette pratique permet de se prémunir contre les changements inopinés dans la structure ou le contenu d’un site au cours d’un projet de longue durée (ex : Web Scraper de Chrome).

2. Nettoyer ses données avec OpenRefine La qualité parfaite (du texte extrait – ou de ce qu’on a extrait, peu importe ce que c’est)

n’existe pas, elle est toujours relative aux usages et aux besoins spécifiques d’un ensemble d’utilisateurs.

OpenRefine aide à remédier aux problèmes de qualité de manière semi-automatisée, mais les arbitrages à effectuer seront toujours à charge de l’utilisateur.

D. Enrichir ses données Le patrimoine culturel est de plus en plus numérisé. Pour traiter ces grands volumes de

données textuelles, il existe plusieurs manières de traiter ces textes informatiques : o analyse lexicale (linguiste, chercheur en littérature) o topic modeling (historien).

1. Extraction d’information C’est une sous-discipline du TAL, qui permet de détecter, catégoriser et parfois de

désambiguïser certaines informations au sein d’un texte (entité, relation, évènement, etc.). Plus spécialement, la reconnaissance d’entités nommées (REN) se donne pour but

d’identifier et de classifier automatiquement les noms de personnes, organisations, lieux et autres noms propres à partir de documents non structurés (les applications de cette technique sont nombreuses, de la traduction automatique à l’enrichissement sémantique en passant par la synthèse vocale).

2. Topic modeling C’est une technique qui se base sur un nombre d’hypothèses plus ou moins intuitives pour

modéliser, de manière purement statistique et probabiliste, quels ensembles de mot construisent un sujet et dans quelle mesure un document traite de ce sujet.

Plusieurs topic models existent même si le LAD (latent Ditrichlet allocation) est bien souvent le seul considéré (proposé par Blei, Ng et Jordan en 2003). Le topic modeling considère les chaînes de caractères comme des unités atomiques et ne prend donc pas en compte les sens cachés derrière des ensembles de mots, de même qu’il ne prend pas en compte le caractère évolutif de la langue.

22

E. Faire parler ses données : technique de visualisation (visualisation des données ou dataviz) Lors d’un travail de recherche, le risque est souvent de se retrouver avec trop d’informations

pertinentes. Pour faire face à une quantité importante d’informations, une manière de procéder est d’avoir recours à des techniques de visualisation. Une vue macro d’un sujet d’étude permet une approche exploratoire. Le chercheur pourra alors, en utilisant des cartes, histogrammes ou lignes du temps, déterminer quel échantillon est le plus intéressant pour son sujet recherche, et pourra dès lors faire une analyse du texte (ou des données textuelles) au niveau micro.

V. Valoriser les résultatsA. Outils de rédaction scientifique

Les outils de rédaction qu’on a l’habitude d’utiliser sont de type WYSIWYG (what you see is what you get), le texte affiché à l’écran est déjà formaté comme il le sera lors de l’impression ou de la conversion en PDF (ex : Microsoft Word, OpenOffice,...). Or, lorsqu’il faut rédiger de longs documents ou insérer des formules demandant une certaine rigueur scientifique, ce modèle montre ses limites, notamment dans la mise en page.

Ce paradigme d’écriture nous contraint à réaliser en parallèle deux activités cognitives fort différentes : on réfléchit d’une part à la structure et au contenu du texte et d’autre part à la mise en page. Quelques logiciels intéressants permettent de séparer ces deux processus en faisant appel à des langages de balisage.

1. LaTeX Ce logiciel est de type WYSIWYM (what you see is what you mean) et représente une

différence de philosophie radicale dans la manière d’aborder le traitement de texte. Son utilisation implique certaines contraintes : la nécessité d’apprendre un certain nombre

de balises et compiler systématiquement son document pour obtenir le résultat en PDF. 2. Markdown

Plus simple et moins puissant que LaTeX, Markdown a pour but de faciliter la mise en ligne de contenu sur le Web sans devoir taper de longues séquences de code HTML.

L’idée est d’utiliser un ensemble minimaliste de symboles pour exprimer un maximum de fonctions usuelles, tout en clarifiant la lecture du texte et en permettant une conversion automatique en HTML par la suite. Ainsi, les titres seront précédés d’une *, pour mettre le texte en *italique*, **gras**, créer des [liens],… c’est ce logiciel qu’utilise Wikipédia par exemple.

3. Rédiger en collaboration Git permet à plusieurs personnes de travailler ne même temps et en local (sans connexion

internet) sur le même fichier. Il conserve une copie centralisée, le document « maître » et l’adapte au fur et à mesure qu’il reçoit les modifications des différentes personnes. Le principe est simple, chacun rédige sa partie, l’envoie à l’aide de la commande git push au serveur qui compile les différentes versions dans le document maître pour avoir la dernière mise à jour du document il suffit d’activer la commande git pull. Il faut bien entendu travailler avec des fichiers de type texte (LaTeX, TSV ou CSV) et non de type binaire (Microsoft Word, Excel,…). Travailler avec les fichiers de type texte assure la pérennité du document et peut être ouvert et modifié par n’importe quel logiciel d’édition.

La plateforme GitHub, devenu le réseau social par défaut qui associe l’ensemble des développeurs du monde open source, permet d’héberger des fichiers sur lesquels plusieurs personnes travaillent en mode collaboratif, elle l’offre l’avantage d’une interface graphique et inclue des fonctionnalités qui facilitent le travail collaboratif, en gardant par exemple une trace des changements effectués.

23

4. Gestion des références bibliographiques L’insertion de références bibliographiques joue un rôle essentiel dans un travail scientifique.

Une référence comprend au minimum le nom de l’auteur, le titre, l’éditeur et la date de publication, parfois des identifiants uniques (DOI, Digital Object Identifier, ou ISBN, International Standard Book Number).

Différents styles et systèmes de référencement sont utilisés en fonction des domaines concernés (scientifique, législatif, …) ou des sources mentionnées (livres, articles, site web,…).

Deux grandes méthodes : système Vancouver et référencement d’Harvard, et plusieurs styles de citations : Chicago Style, Columbia Style, Modern Language Association Style (MLA).

Le logiciel Zotero est un outil de gestion de références bibliographiques (tel que Endnote, BibTex, Mendeley). Il permet non seulement de récupérer les références bibliographiques mais aussi de les sauvegarder, indexer, organiser, synchroniser, partager au sein d’un groupe, citer et de les éditer. L’un des principaux avantages de Zotero est la possibilité de gérer l’ensemble des contenus et des références enregistrés.

La puissance et l’intérêt de ce logiciel apparaissent lors de la rédaction d’un texte scientifique dans lequel vous devez introduire un nombre important de références bibliographiques. En effet, il suffit d’installer un plugin lié à votre application de traitement de texte pour pouvoir exporter automatiquement vos références depuis Zotero et les introduire à l’emplacement souhaité dans votre document. Il y a aussi possibilité de créer automatiquement une bibliographie synthétique en fin de de document. (cfr p.156/7)

Zotero permet aussi de travailler à plusieurs ordinateurs en limitant le risque de perte de données, grâce à une sauvegarde automatique synchronisée. Les bibliothèques peuvent être privées ou publiques avec une politique d’adhésion plus ou moins ouverte.

Il faut savoir que LaTeX s’accompagne d’un outil de gestion bibliographique intégré : BibTex (intégration de citations facilitée grâce à la balise cite et ses dérivés)

B. Création d’un carnet de recherche en ligne Deux approches différentes sont envisageables afin de publier vos travaux en ligne : coder

manuellement un site web ou faire appel à un Content Management System (CMS)o Codage manuel : la rédaction du code HTML demande une connaissance des balises

et chaque mise à jour ou création d’une nouvelle page demande de se replonger dans ce code mais est plus facile à assurer la pérennité.

o Système de gestion de contenu : permet de créer en peu de temps des sites complexes qui peuvent intégrer des fonctionnalités dynamiques (blogs, forums, galeries, commentaires,…) mais offre moins de flexibilité au niveau de la structuration et de la mise en page.

1. Encoder en HTML Voici le contenu du dossier :

o index.html : la page d’accueilo formation.html : une page décrivant vos informations et compétenceso interest.html : une page décrivant vos centres d’intérêto style.css : une feuille de style

Dans le code index.html, bien faire attention au contenu de la balise <title> car il est repris comme titre dans les résultats des moteurs de recherche et la balise est également prise en considération lors du classement des résultats. Il faut aussi faire attention à la balise qui contient la feuille de style style.css, celle-ci présente d’une manière hiérarchique la façon dont les différentes composantes d’une page web doivent être interprétées par un navigateur. On commence donc par l’élément le plus englobant, le body, pour ensuite descendre vers les éléments structurels plus spécifiques (h1, h2, p,…).

24

2. Fonctionnement des CMS Suite à la popularisation du langage de script PHP, acronyme récursif de PHP Hypertext

Preprocessor, les pages web sont générées de façon dynamique par le serveur (évolution d’un Web statique à un Web dynamique). Il faut distinguer deux langages de script :

o Le langage de script côté serveur : script exécuté par le serveur qui envoie le HTML qu’il a généré au navigateur.

o Le langage de script côté client : script exécuté par le navigateur qui ne nécessite pas d’intervention de la part du serveur.

PHP est l’exemple le plus populaire du server-side-scripting, il fonctionne souvent de pair avec le SGBD MySQL qui permet d’enregistrer et de modifier les données d’un site. La mise en place des scripts sur un serveur ne peut être effectuée que par un gestionnaire pour des raisons de sécurité.

Le client-side-scripting permet de faire appel à des scripts qui sont uniquement exécutés par le navigateur : JavaScript permet ainsi à tout concepteur d’un site d’insérer des éléments dynamiques dans des pages web sans devoir passer par une configuration particulière du serveur. Par contre, puisque le script est exécuté par le navigateur, il peut s’exécuter différemment en fonction de celui-ci

L’ensemble de ces évolutions a permis l’évolution, au début des années 2000, des Content Management Systems (CMS), des logiciels de type Wordpress offrant à chacun la possibilité de créer des sites dynamiques. L’apparition massive des blogs a conduit à l’émergence du Web social ou Web

2. Un CMS particulièrement adapté à description et la mise en valeur de documents est Omeka.2.1. Interaction entre back-end et front-end :

Qu’ont en commun la consultation d’un journal en ligne, et l’ajout d’un like sur Facebook ? Toutes ces manipulations ont recours à des bases de données.

En tant qu’utilisateur final, vous ne voyez que l’interface graphique d’un site web. Cette interface représente le front-end qui s’adresse à l’utilisateur final. Si nous prenons un exemple de site créé avec Omeka, on peut distinguer en fait trois couches différentes :

o Le site web, accessible au grand public sur http://marb.kennesaw.edu/indentitieso L’instance Omeka, destinée aux administrateurs du projet et protégée par un

identifiant et un mot de passe sur http://marb.kennesaw.edu/identities/omeka_admin/

o Le système de gestion de bases de données (SGBD) phpMyAdmin, destiné aux informaticiens responsables du suivi du projet et également protégé par un identifiant et un mot de passe sur http://marb.kennesaw.edu/identities/php_myadmin/

L’instance Omeka et phpMyAdmin peuvent être considérées comme les back-ends du projet.3. Mettre ses contenus en ligne grâce à Omeka

Omeka est un logiciel de gestion de collection numérique gratuit et open source. Il permet de publier en ligne les références et les fichiers numériques de collections publiques ou privées.

De conception modulaire, l’outil offre de nombreux thèmes et extensions qui permettent d’adapter chaque site en fonction des objectifs poursuivis et des fonctionnalités souhaitées.

Différentes étapes sont nécessaires à la création de votre collection numérique : installation de l’architecture logicielle, paramétrage général de l’application, choix d’un thème, ajout d’extensions, création de simples pages, création de collection, description d’objets, association de fichiers, création d’expositions virtuelles et visualisation du contenu sur l’interface publique.

Ayant été conçu pour respecter les recommandations du World Wide Web Consortium (W3C), Omeka garantit la lisibilité de votre site quel que soit le support ou navigateur utilisé.

L’application offre de nombreux outils tels que Exhibit Builder qui permet la création d’expositions virtuelles, Neatline qui autorise la géolocalisation des documents ou encore

25

http://marb.kennesaw.edu/indentities

http://marb.kennesaw.edu/identities/php_myadmin/

http://marb.kennesaw.edu/identities/omeka_admin

Coins qui intègre les métadonnées bibliographiques directement dans le code HTML des pages web pour être importées ensuite par des applications telles que Zotero.

C. Hébergement : terre à terre ou dans le cloud ? Que vous publiiez du HTML statique ou que vous utilisiez un CMS comme Omeka, vous devez

faire appel à un hébergement web pour faire en sorte que chaque internaute puisse avoir accès à vos contenus à n’importe quel moment et à partir de n’importe quel lieu.

Des outils tels que Dropbox, iCloud ou Google Drive sont tellement intégrés dans notre quotidien qu’on oublie qu’une grande partie de nos documents, photos ne se trouvent plus sur les disques dures de nos appareils mais sur des serveurs à l’autre bout du monde.

Le domaine de l’hébergement web a été bouleversé suite à l’arrivée du cloud computing. Il est important de comprendre leur fonctionnement afin de pouvoir mettre en perspective

les tensions économiques et politiques qui ont émergées suite à l’affaire Snowden. Celle-ci a mis en évidence l’ampleur de l’espionnage et du non-respect de la protection des

données privées de la part du gouvernement américain.1. Contexte historique

Dans son livre The Big Switch, Nicholas Carr propose un parallèle entre la production centralisée de l’électricité au début du XXe siècle et l’arrivée du cloud computing. En effet, à l’époque chaque industrie avant son propre générateur d’électricité, coûtant énormément, puis petit à petit l’industrie a abandonné sa propre production en faveur d’un modèle distribué. Pour Carr, l’arrivée du cloud computing annonce la marchandisation de l’informatique, comme ce fût le cas de l’électricité.

En effet, dans les années 1960, les secteurs nécessitant de gérer de grands volumes de données (banques, compagnies d’assurance,…) ont commencé à utiliser des mainframes ou ordinateurs centraux, gérés dans des endroits spécifiques avec du personnel dédié. L’invention du microprocesseur, permettant de réduire radicalement la place occupée par les circuits, a conduit à l’émergence des micro-ordinateurs et des ordinateurs personnels, dans les années 1970. Les centres dans lesquels se situaient les mainframes se sont transformés en data centers. Toutes les opérations nécessitant une force de calcul et un accès à des volumes de données importants ont commencé à être effectués en mode client-server, l’ordinateur personnel étant considéré comme une interface et toutes les opérations toutes les opérations étant effectuées par le serveur.

Dans les années 1980-1990, chaque application devait être hébergée sur un serveur spécifique dédié et a eu pour conséquence la création de parcs de serveurs hétérogènes. Mais les serveurs dans lesquels investissent les entreprises pour pouvoir répondre à des besoins ponctuellement élevés (à Noël, St Valentin,…) étaient complètement sous-utilisés la plupart du temps. Globalement, seuls 25% de la puissance des processeurs et environ 50% de la capacité de stockage d’un data center étaient utilisés.

Cela représente une perte d’argent considérable, et Amazon, à la base vendeur de livres en ligne, y a vu une opportunité. L’entreprise, se voyant obligée d’investir massivement dans des serveurs qui étaient sous-utilisés, a décidé de créer une infrastructure de serveurs lui permettant de louer à des tiers des forces computationnelles.

Les capacités des transferts de données ont drastiquement augmentées suite à la bulle spéculative d’Internet à la fin des années 1990, qui a entrainé des investissements massifs pour créer un réseau intercontinental sur la base de câblages sous-marins avec de la fibre optique. Le débit d’Internet était jusque-là fort limité.

2. Principes et impact du cloud computing En parallèle du réseau en fibre optique, les acteurs de de l’informatique ont commencés à

investir dans de véritables fermes de serveurs ou server farms, contenant des dizaines de milliers de serveurs. L’achat de masse du matériel, la standardisation et la situation de ces fermes (le long de rivières pour refroidir les serveurs grâce à l’eau et dans des pays froids) permettent de réduire drastiquement les coûts.

26

L’interaction entre le hardware et le software des serveurs a été revue en profondeur grâce à la virtualisation. Cette approche permet de dissocier le système d’exploitation de ses ressources physiques : le processeur, la mémoire, la carte réseau et le disque dur. Le système d’exploitation interagit avec une couche de logiciel supplémentaire (le virtual machine monitor) qui accède au hardware et qui lui présente un ensemble de ressources virtuelles. Ainsi, plusieurs systèmes d’exploitation peuvent utiliser les mêmes ressources du hardware, ce qui permet d’optimiser considérablement leur utilisation.

La virtualisation permet également d’automatiser l’accès à de nouvelles ressources informatiques et donc d’améliorer la réactivité face à l’évolution de la popularité d’une application web puisque le cloud computing permet d’ajouter ou d’enlever des serveurs virtuels en quelques secondes.

Avec le cloud computing, vous migrez vers un système de facturation similaire à celui du domaine énergétique : vous payez en fonction de votre consommation. Cela permet de réduire drastiquement les dépenses d’investissement initial puisque vous ne devez pas faire de prévisions complexes ni investir dans une infrastructure qui sera sans doute largement sous-utilisée. C’est intéressant non seulement pour les start-up mais aussi pour les projets à court terme, nécessitant pendant une brève période une puissance de calcul importante.

Comme le secteur énergétique, le cloud computing, en raison des investissements massifs nécessaires pour devenir actif, ce domaine a tendance à être dominé par un nombre restreint de compagnies, entrainant des situations de monopole.

D. Assurer la visibilité des contenus En fonction de nos hobbies, études, vie professionnelle, le Web collecte des informations qui

seront par la suite indexées par des moteurs de recherche. La pratique de l'ego-surfing donne parfois des résultats assez frustrants.

Les moteurs de recherche tels que Google protègent leurs algorithmes de classification. Ils changent en permanence les paramètres utilisés et incorporent de nouveaux critères.

Etant donné l'opacité et la nature évolutive des algorithmes de classement, il est impossible de prédire les démarches à entreprendre pour assurer un bon classement parmi les résultats de recherche.

Certains paramètres ont cependant un impact non négligeable sur le classement des résultats :

o Titre de la page <titre> : Faire en sorte qu'il représente fidèlement son contenu. Le contenu de cette balise est également affiché dans la liste des résultats.

o Texte d'un lien : Partie visible d'un lien ou anchor text. Par exemple, sur la base du code HTML <a href= « http://www.ulb.ac.be »> Meilleure université belge </a>, votre navigateur affiche « Meilleure université belge » sur votre écran et propose un lien vers le site de l'ULB. Si un grand nombre de personnes incluent ce code HTML sur leur site, le site de l'ulb grimpera dans la liste des résultats renvoyés sur la base de la requête.

o PageRank ce critère de classement représente la recette magique qui a créé la réputation de Google comme meilleur moteur de recherche. Il est important qu'un grand nombre d'autres sites pointent vers votre site, mais il est surtout crucial de convaincre des sites avec une audience importante et qui reçoivent eux-même un nombre important de liens entrants, de faire un lien vers votre site.

o Qualité du contenu : Aspect difficile à cerner. Eléments objectifs qui permettent aux moteurs de recherche d'évaluer l'utilité du contenu. Par exemple, l'originalité : si la page contient uniquement des contenus qui ont été copiés d'autres sites, le moteur de recherche considèrera que le site n'est pas pertinent. L'inclusion de différents types de contenu est perçue comme un gage de qualité.

27

o Présence de mots-clés : Il faut assurer la présence de mots-clés sur l'ensemble des pages d'un site Web. Ils doivent être aussi similaires que possible aux mots utilisés dans les requêtes des utilisateurs.

o Temps de chargement : Personne n'aime attendre. Google encourage les webmasters à créer des sites chargeant rapidement. Il existe de nombreux autres paramètres.

1. Spamming Le modèle économique du Web est basé sur la publicité en ligne. AdWords est la plate-forme

la plus répandue pour la vente de l'espace publicitaire en ligne. Pourquoi certains essayent par tous les moyens d'attirer du monde sur leur page web ? Et ce

même quand la requête de l'utilisateur n'est absolument pas en lien avec le contenu offert, lui-même souvent inexistant.

Le spamming est le terme générique utilisé pour décrire ces pratiques frauduleuses de natures très diverses, mais qui visent toutes à convaincre le plus grand nombre d'internautes de se rendre sur une page web donnée, en espérant qu'une partie de ces personnes cliqueront sur les annonces publicitaires présentes sur la page en question, avec à la clé des gains financiers pour le spammeur.

Cela perturbe l'activité du Web. Spam : courrier électronique incitant à se rendre sur des sites publicitaires représentent plus

de 90% des e-mails envoyés quotidiennement. Ce n'est plus seulement le fait d'individus isolés mais cela représente une véritable

industrie : des fermes de contenu rédigent uniquement des articles en relation avec les requêtes publicitaires les plus populaires en ligne (ex : comment perde 10 kilos en une semaine). Articles racoleurs aux contenus assez pauvres. Des gens sont payés pour cliquer et générer du revenu publicitaire. Google et les autres moteurs de recherche modifient leurs algorithmes de classement pour minimiser l'impact de ce genre de pratique.

Le terme spamming enveloppe une multitude de phénomènes et infeste maintenant des applications telles que Skype, YouTube.

Une méthode utilisée par Google pour obtenir des résultats plus pertinents : donner plus d'importance aux contenus générés par les internautes eux-mêmes, dont notamment les critiques et commentaires sur des services et des produits. (Ex : Google Maps permet d'évaluer hôtels et restaurants). En pratique plusieurs problèmes se posent avec ce type de contenu.

Astrosurfing : dérives liées aux commentaires et évaluations en ligne. Fait référence aux commentaires d'utilisateurs qui émergent soi-disant du grand public ou d'un mouvement citoyen mais qui ont été écrits avec un but caché : propagande, concurrence.

2. Achat d'annonces publicitaires Google AdWords est un outil qui a bouleversé le secteur publicitaire. Il a radicalement

automatisé la rencontre de l'offre et de la demande. PageRank est un processus presque aussi complexe et ingénieux. Il permet d'afficher des

liens publicitaires en lien avec nos requêtes. Il existe évidemment une concurrence entre les entreprises pour acheter des liens

publicitaires. Ce n'est pas l'entreprise qui offre le plus d'argent qui obtient le meilleur placement de ses publicités.

Google analyse la réaction du public face à une annonce et met en avant non seulement les annonces sur lesquelles un grand nombre de personnes cliquent, mais également celles pour lesquelles les utilisateurs passent ensuite un certain temps sur la page de l'annonceur.

Deux paramètres cruciaux dans l'économie de la publicité : le pourcentage d'internautes qui cliquent sur le lien publicitaire (Click-Through Rate, CTR), et le coût de chacun de ces clics, ou Cost Per Click (CPC).

28

Pour faire de l'argent en ligne, il faut soit écrire des contenus qui plaisent à un très grand public, soit écrire des articles pointus qui traitent d'un sujet en relation avec un secteur qui offre un haut CPC (ex. Assurances vie). Ce modèle a des effets pervers pour la presse en ligne: les rédactions et journalistes sont poussés à écrire des contenus en lien avec certains sujets de façon à pouvoir utiliser la publicité pour assurer un revenu de base au journal.

3. Calcul de l'impact des contenus en ligne Les mesures d'audience d'un site Web (web analytics) nous permettent de voir comment

l'utilisateur interagit avec le système implémenté et de voir dans quelle mesure l'usage révèle une adéquation entre les besoins des utilisateurs et l'application.

Pour la gestion optimale d’un système d’information en ligne, on doit pouvoir répondre aux questions suivantes :

L’utilisateur trouve ce qu’il cherche ? La navigation sur les pages mène à un résultat ? D’où viennent les utilisateurs ?

Données facilement quantifiable : la langue, le type de navigateur, les types de téléchargement, quand et d’où on se connecte.

Les techniques de mesure d'audience ont évolué depuis le début du Web De la mesure la plus basique à la plus complexe, voici les infos qu'il est possible de récolter

sur la fréquentation d'une page Web :o Hits et fichiers : nombre de demande reçue par un serveur web et nombre de

fichiers renvoyés.o Page views : nombre de pages visionnées par les utilisateurs.o Visites : nombre de personnes qui ont consulté le siteo Résultats : actions entreprises pas un internaute suite à la visite du site

À l'aide de quelques chiffres (d'exemple), voici la différence entre ces différentes métriques et leur interaction :

o 27000 requêtes et 6000 fichierso 2000 pageso 300 visiteso 12 nouvelles personnes inscrites à la lettre d'information

Sur le terrain, deux méthodes principales pour obtenir ces chiffres : Au début du Web, on faisait uniquement appel à l'analyse des fichiers logs, gérés par un logiciel installé sur le serveur web, tel que Webalyser.

On en utilise encore aujourd'hui, en raison des différents avantages de cette approche : ce logiciel, installé sur le serveur peut facilement identifier les crawlers des moteurs de recherche. Il est aussi possible de suivre en détail combien de fichiers sont téléchargés, à quel moment et à partir de quel adresse IP.

3.1. Log-based Avantage :

o Identification par défaut des crawlerso Suivi des téléchargementso Accès facile à l’historique des données

Désavantage :o Incohérences introduites par le caching (tant que l'internaute ne vide pas se

mémoire cache, ses visites récurrentes ne sont pas comptabilisées.)o Difficile d’analyser des événements liés au JavaScript, Ajax, Flasho Nécessité de gérer le système soi-même.

Le nombre d'inconvénients des fichiers logs est lié au fait qu'ils sont générés par un logiciel qui tourne sur le serveur.

Depuis 2005, les Web analytics ont introduit un changement de paradigme, les données étant désormais collectées du côté du « client » grâce à des tags, ou balises, présents sur chaque page du site.

29

Puisque les données sont ici collectées au sein du navigateur, des événements comme l'usage de la souris et le temps de visionnement peuvent également être pris en compte.

Ces tags envoient ensuite ces données à des applications externes comme Google Analytics, qui s'impose depuis plusieurs années comme outil d'analyse par défaut.

Un avantage : simplifier la vie du webmaster en lui permettant de visualiser directement les données récoltées sous forme de tableaux et graphiques, mais elle le lie aussi à une application, ce qui implique un danger : si il change d'outil, il peut perdre son historique.

3.2. Tag-based Avantages :

o Session tracking est plus préciseo Analyse des événements liés au JavaScript, Ajax, Flasho Gestion de l’application par un tiers (souvent gratuitement)

Désavantages:o Danger par rapport à la perte des donnéeso Tags ne peuvent pas analyser la bande passanteo Identification plus complexe des crawlers

Dans un contexte de marketing professionnel, les logs et les tags seront utilisés de manière complémentaire. Cette démarche n'est pas seulement réservée à l'e-commerce, les bibli, musées, archives découvrent aussi graduellement l'intérêt des Web Analytics pour obtenir plus d'informations par rapport à l'usage de leurs ressources et services.

Ces données quantitatives sont à interpréter avec beaucoup de prudence parce que o fraude facileo impossible de quantifier de manière précise les visiteurs uniques

4. Problématique des cookies Ils émettent un identifiant unique dans un répertoire du navigateur. Les cookies permettent

d'établir une connexion entre un navigateur Web (Le client) et une page Web qui se trouve sur un serveur.

Ce sont simplement des petits fichiers textuels qui contiennent un identifiant unique. À quoi servent-ils ? Ils servent de code d'accès automatique nous permettant de naviguer d'une page à l'autre.

Grâce à eux, on ne doit encoder qu'une seule fois nos identifiant et mot de passe sur des sites d'e-commerce par exemple. Dans ce cas-là il s'agit d'un cookie d'origine ou first-party cookie.

Un avantage indirect pour le site Web consulté est que son gestionnaire est capable d'analyser les pages visitées, le temps passé sur chaque page, etc.

Dans le livre, un exemple de scénario concret illustre le monde des cookies. (p.180) Les cookies persistants, eux, sont stockés localement sur notre disque dur, mais dans un

répertoire associé à notre navigateur web. Il existe aussi des cookies tiers. Contrairement aux cookies d'origine, le cookie tiers est

renvoyé à partir d'un nom de domaine différent. Heureusement, chaque nom de domaine ne peut lire que les cookies qu'il a créés lui-même, ce qui limite drastiquement les possibilités d'exploitation des cookies tiers à des fins de marketing.

Pourtant : Le domaine de la presse en ligne, particulièrement affecté par cette pratique. Pour le site Le Monde par exemple, une bannière publicitaire (smartadserver) permet d'émettre des cookies tiers à partir de son serveur. Cette bannière peut être là même sur d'autres sites et ainsi constituer le début d'un profil de consommation.

30

TIC : Abréviations - HTTP : HyperText Transfer Protocol

Décrit la transmission de documents sur Internet dans lequel un navigateur web prend le rôle de client et une application le rôle de serveur

- HTML : HyperText Markup LanguageLangage de balisage qui permet de représenter des pages web. Ensemble de balises pré-définies qui devrait décrire surtout les éléments structurels d’un document. Mais ! Evolution du balisage => maquillage

- URL : Uniform Resource Locator Identification des ressources sur un serveur Exemple: http://www.ulb.ac.be/facs/philo/index.html L’URL est composé : • du protocole de communication (http) • du nom de domaine (www.ulb.ac.be) • du chemin d’accès (/facs/philo/) • du nom du fichier (index.html)

- Nom de domaine : Le nom de domaine est un masque sur une adresse IP, p.e. http://www.wikipedia.org est plus simple à mémoriser que http://91.198.174.2. Des bureaux d’enregistrement gèrent la vente des noms de domaines

- TLDN : Top Level Domein Name- TSV : Tab-Separated Values- CSV : Comma-Separated Values- SGDB : Système de Gestion de Base de Données. Exemples : Microsoft Access, File Maker

Pro, MySQL, Oracle, SQL Server.- SQL : Standard Query Language- SGML : Standard Generalized Markup Language- XML : eXtendible Markup Language- RDF : Resource Description Framework- SVG : pour faire des images vectorielles- DPI : dots per inch. Exprime la résolution qui définit un pixel- Formats de fichier : RAW : fichiers bruts créés par une caméra ou un scanner • PNG : format

ouvert destiné à remplacer GIF, utilisé pour la publication d’images sur le web • JPEG : format de compression pour les photographies numériques • TIFF : permet la compression sans perte de données, utilisé pour l’archivage.

- « de jure » : résultat d’une procédure de standardisation formelle par un comité, peuvent être ouverts (HTML , W3C) ou clos (ISO 9001:2008)

- « de facto » : des produits, services et pratiques utilisés par la majorité des utilisateurs (PDF, Adobe)

- CBIR : Content-Based Image Retrieval- Standards spécifiques à un domaine d’application : MARC (bibliothèques), VRA/ CDWA

(musées), EAD (archives)- DDC : Dewey Decimal Classification- RAMEAU : Répertoire d’autorité- matière encyclopédique et alphabétique unifié- OCLC : prestataire privé pour la vente de notices bibliographiques- OCR : Optical Character Recognition- OpenRefine : Logiciel pour l’extraction d’entités nommées- Loi de Moore : la puissance d’un processeur et la capacité de stockage double tous les deux

ans- Log-based : Collection de données directement sur le serveur (“server-side data collection”).

P.e. Webalyzer- Tag-based : “Client-side data collection”. Pe: Google analytics- SaaS: software as a service- Transient cookies: permettent d’identifier une session en sauvegardant les opérations

effectuées par l’utilisateur, et disparaissent quand un navigateur quitte le site

31

http://www.ulb.ac.be/facs/philo/index.html

- Persistent cookies : sont créés lors de la première visite et restent stockés sur l’ordinateur du navigateur pour une certaine période

- First party cookies : sont seulement renvoyés au serveur (ou à un serveur du même domaine) qui l’a émis

- Third party cookies : une page web peut contenir des images ou d’autres composants, qui peuvent également émettre des cookies et qui peuvent être lu par d’autres domaines que le domaine consulté par le navigateur

- Web scraping : technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte

- CMS : content management system- SEO : Search Engine Optimization. Optimisation pour les moteurs de recherches.- CSS : Cascading Style Sheet- Client FTP : fournit l'accès à un serveur et vous permet d’y transférer vos fichiers. Ex : Filezilla- CSL : Citation Style Language- OCLC : Online Computer Library Center- NCSA : National Center for Supercomputing Applications- DCMI : Dublin Core Metadata Inititative

Qcm1. Le terme real affordance de facebook désigne ...2. Le pageRank se base sur - qualité et quantité des liens- qualité des liens- quantité des liens- ...3. Un schéma entité-relation avec 4 propositions (du style, une société peut s'inscrire sans faire de prêt,...)Le schéma entié-relation en question a été donné sur l'UV. Il s'agissait du même schéma et de la même réponse que celui du TP, ils avaient juste changé une valeur cardinale, et l'intitulé.4. Une intitulé de recherche Booléenne à faire dans un base de données en français. (L'intitulé était "je souhaite déterminer l'age maximal d'un Hobbit en me basant sur les œuvres de Tolkien excepté Le seigneur de anneaux".La réponse était ("espérence de vie" OR "âge maximal" OR "vieillesse") AND "Tolkien" AND "Hobbit" NOT "Seigneur des Anneaux"(Si vous étudiez ça dans un an, le sens à de l'importance)5. une question à propos de HTML6. La question portait sur le type de format qu'était un format PDF, dans les réponses, il y avait le choix entre "de jure", "de facto", et deux autres, dont je ne me souvient plus.7. Une question à propos de l'indexation automatique8. La synonymie - introduit du bruit- introduit du silence- permet de rendre les résultats plus complets- ...9. Qu'est ce qu'un first party cookie10. La question se portait sur l'utilité de WHOIS et ce qu'il permettait de découvrir.La réponse était le propriétaire d'un site web.11. Une questions à propos des données empiriques12. A travers la phrase "Paradigm is a privileg, syntagm is daownplayed", l'auteur veut dire que ...13. Une question sur Paul Otlet14. Qu'est ce que la browser war

32

15. Une question sur les images vectoriellesexemple de questions a écrit:1. Dans son article "Digital Maoism", Jaron Lanier :a) critique la possibilité d'auto-correction de Wikipédia b) critique le "spamming" dans le contexte du journalisme en ligne c) essaie de convaincre les lecteurs de l'intérêt des logiciels libres pour tout type d'application informatique d) déplore la perte des voix individuelles dans les méta-aggrégateurs d'information en ligne => réponses a et d2. Lors d'une requête, la synonymie:a) introduit du bruit parmi les résultats de recherche b) introduit du silence parmi les résultats de recherche c) augmente vos chances de trouver le document que vous cherchez d) peut perturber la complétude de vos résultats => réponse d / a et c ?3. Un "CRAWLER":a) est un outil utilisé par les moteurs de recherche pour faciliter le processus de l'indexation du web b) permet de vérifier qui est derrière la mise en ligne d'une page web c) découvre des contenus en ligne graçe aux hyperliens entre les pages web d) peut effectuer les mêmes opérations qu'un client FTP => réponses a et c / réponse d ?4. Si on a du bruit parmi les résultats de recherche, on doita) modifier la requête en ajoutant un nouveau terme de recherche, en faisant appel à l’opérateur AND b) modifier la requête en ajoutant un nouveau terme de recherche, en faisant appel à l’opérateur NOT c) modifier la requête en ajoutant un nouveau terme de recherche, en faisant appel à l’opérateur OR5. Pourquoi avons-nous mentionné la page web de l’ULB de 1997 comme un mauvais exemple de la gestion d’un site web :a) le contenu textuel a été repris dans une image b) le site était peu sécurisé c) le contenu et la navigation du site étaient difficilement modifiables => réponses a et c6. Un client FTP (p.e. Filezilla) permet de :a) activer un site web b) archiver des fichiers html c) séparer les fichiers html et css d) transférer des données sur un serveur => réponse d7. Un thésaurus est :a) un dictionnaire d’ontologies b) un langage documentaire c) un répertoire encyclopédique d) un type de base de données => réponse b8. Le Dublin Core permet :a) l’identification d’auteurs scientifiques b) la création d’un accès unique au travers de différentes collections c) la description détaillée de toutes les caractéristiques d’une estampe => réponse c)Les réponses ne sont pas sûres apparemment et cette année, il n'y aura plus qu'une seule réponse juste possible. Mais bon ça nous donne une idée

33

Documents

· Web viewLa description se fait de manière libre, en reliant des mots-clés au choix des ressources en ligne. Flickr.com est la première plate-forme à lancer une vague de crowdsourcing