19

L'analyse documentaire. Résumer, indexer, techniques

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: L'analyse documentaire. Résumer, indexer, techniques
Page 2: L'analyse documentaire. Résumer, indexer, techniques

PRÉFACE

Nous vivons dans un monde où l'on est amené à étudier de plus en plus longtemps : en fait, toute la vie, il est aujourd'hui nécessaire de remettre ses connaissance en question. Le savoir arrive par le biais de toutes sortes de documents, du livre le plus traditionnel aux toutes nouvelles autoroutes de l'information ; les documentalistes sont donc de plus en plus amenés à faire le tri. Car à quoi servirait cet amoncellement de documents et d'informations, si le simple lecteur ne peut pas y accéder, tout simplement à cause de leur excès même ? Le seul signalement du document (auteur, titre, éditeur, date, etc.) ne suffit pas, car le plus souvent, le lecteur ignore au départ ce qu'il cherche, et il n'en connaît que le sujet.

Or, ce tri ne peut pas se faire sans une analyse préalable du contenu des documents : c'est en sachant ce qu'il y a dedans que nous savons si l'information peut ou non nous intéresser, que nous soyons en situation d 'étude ou de simple recherche ponctuelle d'information. C'est ce que l'on appelle l'analyse documentaire, qui est le maillon essentiel de la chaîne documentaire.

Cette analyse documentaire n'a rien de vraiment nouveau : elle était déjà indispensable autrefois, à l'époque où les catalogues des bibliothèques et des centres de documentation étaient manuels, car elle servait à l'établissement des vedettes-matières, au choix des indices de classification et à l'établissement de la cote des documents ; mais elle est devenue aujourd'hui la tâche primordiale du travail des documentalistes dans les systèmes informatisés, dans lesquels elle sert de base à la recherche documentaire informatisée (R.D.I.). Désormais, les produits issus de l'analyse sont des éléments-clés de cette recherche : résumés, indicatif et/ou informatif, indexation à partir d'un langage documentaire.

Or, c'est là un enjeu majeur : une mauvaise analyse du contenu du document peut entraîner une indexation insuffisante, voire fautive, un résumé incomplet et partiel, ou même erroné. De ce fait, le document peut être introuvable en R.D.I. C 'est particulièrement grave pour l'analyse des articles de périodique, car ceux-ci sont "cachés" à l ' intérieur des périodiques : comment dès lors les retrouver. Mais c'est peut-être tout aussi grave vis-à-vis des documents non imprimés, par exemple les cassettes vidéo. On sait qu'on ne peut pas les feuilleter comme des livres et que la jaquette est généralement assortie d'un résumé très insuffisant. L'usager du centre de documentation a donc besoin d'une analyse précise du contenu pour pouvoir savoir à l 'avance si le document répond avec pertinence à sa recherche.

Par ailleurs, les usages en documentation sont en train de se modifier : avec la recherche plein texte, avec les hypermédias, de nouveaux modes de lecture et de recherche apparaissent. Raison de plus pour que les documentalistes soient en phase avec ces nouveaux processus. Comment faire une recherche plein texte sur un résumé faible, peu informatif, utilisant surtout des mots "vides", ou au contraire trop littéraire, et qui, dans les deux cas, n'apprend que peu de choses sur le contenu réel du document ?

De ce fait, il apparaît urgent que les documentalistes soient formés aux méthodes garantissant la qualité de l'analyse documentaire et des produits qui en découlent. Les anciens y gagneront en crédibilité en face des jeunes générations. Les étudiants du CAPES de documentation savent par les épreuves qu'ils doivent passer (dossier documentaire à l'écrit, et les deux épreuves de l'oral, techniques documentaires et l'épreuve sur dossier) que d'une bonne analyse des documents découle la réussite au concours.

Page 3: L'analyse documentaire. Résumer, indexer, techniques

Aussi le livre de François FEYLER vient à point : il expose sobrement que l'analyse documentaire n'est que l 'avers dont la recherche documentaire est l 'envers. Il donne des définitions claires sur les conditions d 'une bonne analyse, avec les questions qu 'on doit se p o s e r (de quoi ?, où ? q u a n d ?, c o m m e n t ?, p o u r qui ?), des sugges t ions préc ises sur l'utilisation des outils d' indexation (comparaison entre le thésaurus Motbis et la liste d'autorités matières RAMEAU), des indications précieuses sur la conception et la rédaction d 'un résumé documentaire, avec les deux types de résumé, indicatif ou informatif. Enfin, il nous livre en a n n e x e des e x e m p l e s qui, à la limite, p e u v e n t pe rmet t re l ' au toformat ion . Car on doit apprendre à faire des résumés documentaires (très éloignés des résumés littéraires), de même qu 'on apprend à utiliser un thésaurus.

On ne peut plus échapper aujourd'hui à l'informatisation, et bientôt la plupart de nos CDI en seront pourvus. C'est une chance pour les élèves, collègiens et lycéens, d'accéder à une bonne compréhension des mécanismes de la documentation. Aussi bien en 6ème qu'en seconde - et à d 'autres niveaux, si on les sollicite - les professeurs documentalistes sont d'ailleurs amenés à faire de l'initiation à la recherche documentaire. Comment peuvent-ils le faire si pour eux, la notion d'analyse documentaire reste encore vague et incertaine ? S'ils ne sont pas capables de rédiger un résumé indicatif et éventuellement d 'en faire rédiger à des élèves ? S'ils maîtrisent trop mal le thésaurus utilisé ?

Mais l'informatisation, c'est aussi une chance pour eux, puisqu'ils peuvent ainsi bénéficier de produits d'analyse (ex. : Mémofiches) ou même participer à la fabrication de ces produits, et être ainsi cheville ouvrière dans la coopérat ion inter-CDI. L'informatique a bien montré qu 'on ne peut plus travailler seul, chacun dans son centre de documentation.

Se former à ces nouveaux outils ou concepts semble dorénavant un passage obligé pour u n b o n fonc t ionnemen t du service CDI. Souhai tons que ce travail de François FEYLER, premier maillon peut-être d 'une chaîne de documents de base, véritables outils de travail et de formation initiale pour les étudiants du CAPES de documentation, et de formation continue pour les professeurs documentalistes, devienne une "Bible" dans les CDI.

J e a n - P i e r r e BRETHES Conservateur en chef de bibliothèque

Page 4: L'analyse documentaire. Résumer, indexer, techniques

SOMMAIRE

Pages

PRÉFACE

P L A C E E T I M P O R T A N C E D E L'ANALYSE D E C O N T E N U D A N S LE

T R A I T E M E N T D O C U M E N T A I R E 7

1. R E F L E X I O N S SUR L'ANALYSE D O C U M E N T A I R E 7

1 .1 . A n a l y s e r l ' a n a l y s e 7

1.1.1. P lace et i m p o r t a n c e d e l ' ana lyse d e c o n t e n u d a n s le t r a i t e m e n t d o c u m e n t a i r e 7

1.1.2. Les ob je t s d e l ' ana lyse d o c u m e n t a i r e 8

1.1.3. Les p r o d u i t s i ssus d e l ' ana lyse d o c u m e n t a i r e 8

1.1.4. Les e n j e u x d e l ' ana lyse d o c u m e n t a i r e 9

1.1.5. Spécifici tés, c o m p l é m e n t a r i t é , r e l a t ions e n t r e r é s u m é

a n a l y t i q u e et i n d e x a t i o n 9

1 .2 . A n a l y s e r l e s o u t i l s 12

1.2.1. Les l a n g a g e s d o c u m e n t a i r e s 12

1.2.2. Re la t ions e n t r e l a n g a g e s d o c u m e n t a i r e s : p r o b l è m e s d e

r é i n d e x a t i o n 19

2 . P R A T I Q U E S D E L'ANALYSE D O C U M E N T A I R E 21

2 .1 . L ' a n a l y s e p r é a l a b l e a u r é s u m é e t à l ' i n d e x a t i o n 21

2.1.1. S u g g e s t i o n s p o u r l ' ana ly se p r é a l a b l e a u r é s u m é ind ica t i f e t à l ' i n d e x a t i o n 21

2.1.2. Spécif ici té d e l ' a n a l y s e p r é a l a b l e a u r é s u m é in fo rma t i f 25

2 .2 . S u g g e s t i o n s p o u r l a f o r m u l a t i o n d e r é s u m é s a n a l y t i q u e s 26

2.2.1. N e p a s se t r o m p e r d e r é s u m é : év i t e r le r é s u m é " a n e c d o t i q u e " ......... 26

2.2.2. C o n c e v o i r le r é s u m é a n a l y t i q u e ( ind i ca t i f o u informat i f )

c o m m e u n c o m p l é m e n t a u x é l é m e n t s significatifs ex i s t an t

d a n s la d e s c r i p t i o n b i b l i o g r a p h i q u e (ti tre, a u t e u r s , co l l a t i on ) ............ 26

2.2.3. Au m o m e n t d e la f o r m u l a t i o n d u r é s u m é , il es t n é c e s s a i r e

d e s ' a p p u y e r a u m a x i m u m s u r le t e x t e a n a l y s é et il n e f au t

p a s c r a i n d r e d e l 'u t i l iser tel q u e l 27

2.2.4. Conse i l s p o u r la f o r m u l a t i o n d e r é s u m é s indica t i f s 27

2.2.5. Conse i l s p o u r la f o r m u l a t i o n d e r é s u m é s in format i f s 28

ANNEXE 1 - L e s t h é s a u r u s e t l ' i n d e x a t i o n d a n s M E M O L O G , E T B C D I 29

ANNEXE 2 - R e c h e r c h e p l e i n t e x t e , d i c t i o n n a i r e e t t h é s a u r u s 51

ANNEXE 3 - R a m e a u : p r é s e n t a t i o n g é n é r a l e 61

ANNEXE 4 - S o m m a i r e s d ' o u v r a g e s , r é s u m é s d ' a u t e u r s , i n t e r t i t r e s ,

i l l u s t r a t i o n s e t p r o p o s i t i o n s d e r é s u m é s .................................................. 71

Page 5: L'analyse documentaire. Résumer, indexer, techniques

ANNEXE 5 - A n a l y s e d o c u m e n t a i r e , r é s u m é s , i n d e x a t i o n : e x e m p l e d ' u n d o s s i e r s u r la p r é h i s t o i r e 112

ANNEXES - R é s u m é s indica t i fs (50 m o t s ) e t r é s u m é s i n f o r m a t ifs (200 m o t s ) d a n s la p e r s p e c t i v e de la p r é p a r a t i o n à l ' é p r e u v e éc r i t e d u CAPES d e D o c u m e n t a t i o n

6.1. Les médias dans le système éducatif 152 6.2. L'école au secours des banlieues 155

6.3. Le collège face à l 'échec scolaire ........................................................................... 158

6.4. École et entreprises 161

ÉLÉMENTS DE BIBLIOGRAPHIE ANALYTIQUE ..................................................................................... 165

Page 6: L'analyse documentaire. Résumer, indexer, techniques

PLACE ET IMPORTANCE DE L'ANALYSE DE CONTENU DANS LE TRAITEMENT DOCUMENTAIRE

Le t ra i t ement d o c u m e n t a i r e ( ca ta logage) p e u t se subd iv i se r e n t rois g r a n d s types

d ' o p é r a t i o n s ( d e s c r i p t i o n b i b l i o g r a p h i q u e , c o t a t i o n , a n a l y s e ) à la fois d i s t i n c t e s et complémentaires :

- la description bibl iographique, qui ne sera pas abordée dans cette étude, vise à la description physique du document (= support physique) traité ;

- la cotat ion, qui ne fait pas non plus l 'objet de cette é tude , vise à l ' indicat ion du c lassement phys ique du d o c u m e n t (= s u p p o r t phys ique ) traité dans le centre de documentat ion: si ce document n'existe qu ' en un seul exemplaire o n ne peu t bien évidemment le classer qu 'en un seul endroit, s'il existe en plusieurs exemplaires, on peut éventuel lement le classer à des endroits différents mais on aura dans ce cas à indiquer plusieurs cotes (ou emplacements) différents.

Ces deux opérations permettent :

- pour la première, de reconnaître sans risque d'erreur le document correspondant à la référence trouvée ;

- pour la seconde, de se reporter à l 'emplacement où le document a été rangé.

Dans les sys tèmes d o c u m e n t a i r e s t rad i t ionnels (f ichiers = ca t a logues -pap ie r ) el les correspondaient à la rédaction de la notice catalographique dite "de base", multipliable en autant d 'exemplaires que de fichiers à alimenter et d 'entrées (= vedettes) jugées nécessaires dans chacun de ces fichiers.

1. - REFLEXIONS SUR L'ANALYSE ET LA RECHERCHE DOCUMENTAIRES

1.1 - ANALYSER L'ANALYSE

L'analyse documentaire quant à elle ne porte pas sur la description physique du suppor t documentaire ni sur l ' indication de son rangement , mais sur les informations que celui-ci contient. Elle conduit dans un certain nombre de cas à faire la différence entre la notion de

s u p p o r t p h y s i q u e et la no t ion d 'un i té documen ta i r e : u n m ê m e s u p p o r t p h y s i q u e p e u t comporter plusieurs unités documentaires (exemples: un numéro de périodique, un rapport de congrès , u n e an tho log ie . . . ) , de m ê m e q u ' u n e m ê m e un i t é d o c u m e n t a i r e p e u t ê t re d i sponib le à l ' iden t ique sur des s u p p o r t s phys iques différents ( exemples : u n article de p é r i o d i q u e repr i s d a n s u n recuei l d 'ar t ic les , un e n r e g i s t r e m e n t s o n o r e d i s p o n i b l e sur audiocassette et disque compact, une image animée disponible en film et vidéo...).

1.1.1 P lace e t i m p o r t a n c e d e l ' a n a l y s e d e c o n t e n u d a n s le t r a i t e m e n t d o c u m e n t a i r e

D a n s le t r a i t e m e n t d o c u m e n t a i r e t r ad i t ionne l , l ' ana lyse d o c u m e n t a i r e n e se rva i t essent ie l lement qu 'à établir des vedet tes matières: vede t tes sys témat iques (= indices de classification) ou alphabétiques matières (issues de listes de vedettes matières). Son utilisation, q u o i q u e i m p o r t a n t e ( cons t i t u t ion des f ich ie rs -mat iè res ) , étai t c e p e n d a n t r e l a t i vemen t secondaire et en tout cas ambiguë : nombre de nos col lègues font encore aujourd 'hui la distinction entre catalogage et indexation (alors que l ' indexation matières fait partie intégrante

Page 7: L'analyse documentaire. Résumer, indexer, techniques

de la notice catalographique) de même qu'un certain nombre avaient beaucoup de mal à distinguer la différence entre un indice de classification et une cote issue d'une classification. Enfin, dans un nombre très rare de cas la description bibliographique (notice signalétique) était accompagnée d'un résumé (notice analytique).

Au cours de ces dernières années l'analyse documentaire et les produits qui en sont issus (résumés en particulier) a vu son importance croître de plus en plus ; l'informatisation des centres de documentation (CDI en particulier) et le partage du travail de traitement documentaire qu'elle induit a eu une part importante dans ce processus. Il est également significatif que la production de résumés, indicatifs et informatifs, fasse partie intégrante des épreuves du CAPES de documentation.

1.1.2 - Les objets de l 'analyse documentaire : sujet, thème, forme, niveau d'utilisation, domaine d'utilisation

Le but de l'analyse documentaire est de définir précisément un certain nombre d'éléments qui n'apparaissent pas forcément de façon explicite dans les informations issues de la description bibliographique :

- le(s) sujets(s) traité(s) par le document c'est-à-dire les notions (ou concepts) sur lesquels le document apporte une information significative: le titre d'un document est parfois ambigu et la plupart du temps incomplet par rapport au sujet effectivement traité ;

- de cette notion de sujet, il faut différencier la notion de thème présent dans une œuvre littéraire ou artistique : autant il est relativement facile de déterminer le sujet traité par un document de type informatif, autant il est délicat, sinon arbitraire, de cerner les thèmes présents dans une oeuvre de fiction : les travaux actuellement menés autour de la base de données FRANTEXT montrent bien l'extrême difficulté d'une détermination objective de ce genre d'information. De ce fait, la suite de cette étude ne traitera que de l'analyse de documents de type informatif ;

- la f o r m e du document analysé : essai, étude comparative, bibliographie, atlas, entretien... ;

- les. utilisateurs potentiels du document : notion de type d'utilisateur (enseignant, élève...) et de niveau d'utilisation (niveau d'enseignement ou classe dans un CDI) ;

- le(s) domaine(s ) d'utilisation du document concerné. Cette notion de domaine d'utilisation ne doit pas être confondue avec la notion de sujet : elle est beaucoup plus large, doit s'interpréter dans toutes les utilisations disciplinaires possibles d'un document et ne pas vouloir l'enfermer dans une de ces utilisations.

1.1.3 - Les produits issus de l 'analyse documentaire : résumés, indexation

L'analyse documentaire représente la phase préalable et commune aux opérations de condensation (=établissement de résumés) et d'indexation (= représentation des notions significatives présentes dans le document au moyen d'un langage documentaire).

Page 8: L'analyse documentaire. Résumer, indexer, techniques

a Les résumés

Il existe deux grands types de résumés :

- les résumés critiques (= commentaires ou compte rendus). Ces résumés qui prennent position par rapport au document analysé ne sont pas du domaine du documentaliste mais d'un spécialiste de la question étudiée ou d'une autorité compétente dans le domaine considéré. Ils doivent toujours faire mention de l'auteur du commentaire (personne physique ou collectivités) ;

- les résumés analytiques (= résumés sans interprétation ni critique) sont par contre tout à fait du domaine de compétence du documentaliste. Ils se subdivisent eux- mêmes en deux catégories résumés indicatifs et résumés informatifs qui se différencient à la fois par leur longueur, leurs caractéristiques et leurs fonctions :

• le résumé indicatif est un bref résumé analytique (environ 5 lignes suivant les recommandations pour le CAPES, de 50 à 100 mots selon Georges Van Slype) qui se borne à signaler "le ou les thèmes" présents dans le document analysé. Il doit permettre, en complément du titre du document, à un utilisateur d'un système documentaire de vérifier que la référence trouvée correspond bien à l'objet de sa recherche. Pour le gestionnaire d'un système documentaire, le résumé indicatif doit également permettre d'indexer un document dans un autre langage documentaire que celui primitivement adopté sans qu'il soit nécessaire de refaire son analyse ;

• le résumé informatif est plus long (15 à 20 lignes selon les recommandations relatives au CAPES de documentation, 100 à 500 mots selon Georges Van Slype). Il renseigne "sur les informations quantitatives ou qualitatives apportées par l'auteur" ; sa fonction est beaucoup plus ambitieuse que celle du résumé indicat if puisqu ' i l vise à éviter au besoin à l 'u t i l isateur du système documentaire la consultation du document primaire.

Par delà des caractéristiques communes d'objectivité et de neutralité par rapport au document analysé, résumé indicatif et résumé informatif présentent donc des différences importantes. Il convient d'en être conscient et d'éviter de faire des résumés hybrides.

e L'indexation

Au cours de ces trente dernières années les systèmes d'indexation matières utilisés dans les CDI ont considérablement évolué : les classifications décimales (CDU, Dewey), outils dominants de l'indexation dans les années 1960-1970, ont été progressivement abandonnées pour cette fonction et sont essentiellement utilisées aujourd'hui comme outils de cotation c'est-à-dire comme base de classement thématique des documents dans le centre de documentation :

- leur nature codée les rendait d'accès difficile pour les utilisateurs (les élèves de collège en particulier) ;

- la lenteur de leurs évolutions, particulièrement celle de la CDU qui aura attendu vingt ans pour voir apparaître un début d'évolution, rendait difficile la prise en compte de nouveaux concepts ;

- leur structuration même visant à enfermer les différentes notions dans une structure de type disciplinaire (le même concept pouvait se trouver éclaté entre plusieurs classes suivant le point de vue dont il était l'objet) les rendait mal adaptées à une recherche de type pluridisciplinaire.

Page 9: L'analyse documentaire. Résumer, indexer, techniques

Elles ont été remplacées par des systèmes de vedettes matières plus souples et plus évolutifs. Enfin, l'informatisation de la recherche documentaire, qui s'est développée dans les CDI à la fin des années 1980, a entraîné l'utilisation de thésaurus comme outils de l'indexation.

Nous reviendrons plus en détail sur les caractéristiques propres à chacun de ces outils, du moins sur ceux les plus utilisés dans les CDI et dans les grandes bases de données bibliographiques françaises utilisables dans les CDI. Il faut cependant noter dès à présent que la qualité de l'indexation est au moins autant liée à l'analyse documentaire préalable et aux pratiques d'indexation qu'aux qualités intrinsèques du langage documentaire utilisé.

1.1.4 - Les enjeux de l 'analyse documentaire : travail en réseau, échanges de données

L'expérience de situations de formation montre amplement que si l'on fait résumer et indexer le même document par plusieurs personnes en leur indiquant simplement la longueur à respecter pour le résumé et en leur fournissant le même outil d'indexation, les résultats sont souvent extrêmement hétérogènes. Cette hétérogénéité dépend, pour une part importante, d'analyses divergentes du document traité : visions différentes du contenu réel du document analysé, omission de certaines informations jugées du domaine de l'implicite.

Cette situation était, dans la plupart des cas, sans grandes conséquences il y a quelques années quand le documentaliste travaillait "en vase clos" dans son CDI. Elle devenait gênante en cas de changement de documentaliste, particulièrement quand, au début de chaque année scolaire, un nouveau documentaliste, la plupart du temps débutant, était nommé dans l'établissement.

L'informatisation de la recherche documentaire, aujourd'hui largement en cours dans les CDI entraîne à la fois une charge de travail extrêmement importante en termes de création initiale des données documentaires mais également des possibilités d'échanges et une rapidité d'insertion de données extérieures sans commune mesure avec la situation antérieure. Ces deux éléments antinomiques impliquent qu'une informatisation efficace ne peut pas être réalisée indépendamment dans chaque centre: le temps de création d'une référence documentaire est de l'ordre de trente minutes à une heure suivant les systèmes, alors que son temps d'insertion ne représente que quelques secondes. Vouloir créer, ex nihilo, ses propres références documentaires alors qu'elles existent déjà par ailleurs représente un travail totalement improductif. La mutualisation de la création et de l'utilisation de données documentaires est donc une nécessité absolue. Encore faut-il que les données issues de l'analyse (résumé, indexation) soient homogènes et cohérentes, c'est-à-dire établies suivant une méthode bien définie en fonction d'objectifs clairement déterminés : un résumé analytique n'est pas un exercice de style rédigé suivant l'humeur du moment mais doit viser à informer le plus objectivement et le plus simplement possible l'utilisateur sur le contenu réel du document analysé. De même, une indexation ne doit pas viser à "ratisser large" mais être représentative de l'information pertinente présente dans le document concerné.

1.1.5 - Spécificités, complémentarité, relations ent re résumé analytique et indexat ion

Issus tous les deux de la même opération d'analyse de contenu, résumé et indexation vont, bien évidemment, comporter des éléments redondants. Il ne faut pas craindre cette redondance mais au contraire l'accepter dans la limite des spécificités de chacun de ces éléments et de leur fonction propre.

Page 10: L'analyse documentaire. Résumer, indexer, techniques

Comme nous l'avons vu précédemment, la fonction première d'un résumé analytique et, particulièrement d'un résumé indicatif, est d'expliciter totalement le contenu d'un document en explicitant son titre si celui-ci est ambigu ou en le complétant s'il ne comporte pas tous les éléments déterminés lors de l'analyse afin que l'utilisateur puisse décider sans risque d'erreur si la référence qu'il vient de trouver correspond bien à l'objet de sa recherche.

Dans le cas d'un résumé informatif, il faut, en outre, indiquer les principales informations quantitatives ou qualitatives apportées par l'auteur afin que l'utilisateur puisse éventuellement éviter le recours au document primaire.

Les seules limites, dans ces deux cas, sont donc de ne pas répéter, dans la mesure du possible, des éléments significatifs existant dans le titre ce qui alourdirait inutilement le résumé et de ne pas indiquer dans ce même résumé des éléments qui sont du domaine de la description bibliographique telles que les caractéristiques techniques du document (zone de la collation) ou l'indication de la présence d'une bibliographie ou d'un index (zone des notes).

La fonction de l'indexation, quant à elle, est de représenter sans ambiguïté les notions significatives (concepts) présentes dans un document afin de retrouver facilement les références concernant un sujet donné en évitant au maximum les problèmes de "silence documentaire" (références concernant un même sujet disséminées sous plusieurs formes) et de "bruit documentaire" (références non pertinentes). L'indexation se fait généralement en utilisant des langages documentaires (listes de vedettes matières, thésaurus) dont la fonction première est de résoudre les problèmes posés par le langage naturel dont est issu le vocabulaire présent dans le titre et le résumé : le langage naturel est en effet à la fois trop riche et souvent trop ambigu ce qui se traduit dans le premier cas par des problèmes de synonymie (plusieurs termes représentent une même notion ce qui induit un risque de "silence documentaire") et, dans le second, par des problèmes de polysémie (un même terme représente des notions différentes ce qui induit un risque de "bruit documentaire").

Les caractéristiques et les fonctions respectives du résumé et de l'indexation sont donc à la fois différentes et complémentaires: le résumé utilise le langage naturel alors que l'indexation se fait généralement à partir de langages contrôlés (langages artificiels). De même, la fonction de l'indexation est de retrouver de l'information sur un sujet déterminé alors que la fonction du résumé est de vérifier la pertinence de l ' information retrouvée. Pour le documentaliste responsable de l'établissement de données documentaires, il est préférable de résumer (c'est-à-dire d'expliciter totalement le contenu réel d'un document) avant d'indexer (c'est-à-dire de traduire les notions jugées significatives exprimées en langage naturel dans un langage contrôlé). De la même façon, il doit pouvoir attendre d'un résumé analytique déjà établi la possibilité de pouvoir réindexer sans risque d'erreur d'un langage documentaire à un autre ou de contrôler cette réindexation si celle-ci est faite de façon automatique.

Pour l'utilisateur du système documentaire, l 'ordre d'utilisation du résumé et de l'indexation sera inversé: il utilisera d'abord l'indexation pour retrouver les références correspondant au sujet recherché (pour une bonne réussite en ce domaine il sera nécessaire, nous le verrons plus loin, qu'il connaisse les caractéristiques du langage documentaire utilisé, des pratiques d'indexation inhérentes à la base de données concernée et de l'outil de recherche mis à sa disposition) et ce n'est que dans un deuxième temps qu'il pourra se reporter aux résumés afin de vérifier la pertinence de l'information retrouvée grâce à l'indexation.

Page 11: L'analyse documentaire. Résumer, indexer, techniques

L'origine commune des opérations de résumé et d'indexation de même que la difficulté pour l'utilisateur de base d'utiliser de façon performante des langages documentaires différents et des outils de recherche documentaire de plus en plus élaborés mais également de plus en plus complexes fait naître la tentation de lier beaucoup plus étroitement que jusqu'à maintenant le vocabulaire présent dans le titre d'un document, son résumé et son indexation pour en arriver à une recherche documentaire plus simple et plus proche du langage naturel. Une telle solution est bien entendu souhaitable et l'on peut penser que l'augmentation constante des capacités de stockage et de traitement de l 'information des matériels informatiques permettra bientôt de la mettre en œuvre sur des matériels économiquement accessibles à des centres de documentation petits ou moyens. Cependant, elle implique de résoudre un certain nombre de problèmes et d'éviter quelques écueils :

- le premier problème est celui de la valeur réelle des termes présents dans le titre et dans le résumé en termes de représentation des concepts contenus dans le document : nous avons déjà vu qu'un titre pouvait être totalement ambigu. Dans cette optique un titre du type "le Hong Kong de la Riviera" concernant une étude de l'économie monégasque sera certainement porteur de bruit documentaire pour qui veut étudier la colonie britannique ;

- de même il n'est pas évident que chacun des termes présents dans un résumé ait une valeur égale par rapport aux notions présentes dans le document analysé. On peut même raisonnablement penser que plus un résumé sera de type informatif, plus un nombre croissant de termes le composant sera marginal par rapport aux notions vraiment significatives présentes dans le document ;

- un autre problème réside dans la différence entre le vocabulaire employé dans un langage documentaire (dans lequel un descripteur ou un élément d'une vedette- matière ne peut représenter qu'une seule et même notion) et celui du langage naturel (dans un dictionnaire un même terme peut avoir plusieurs définitions ou, au contraire, plusieurs termes avoir la même définition) : un système proposant une interrogation en langage naturel doit de toute évidence s'appuyer non seulement sur un langage contrôlé de type thésaurus pour régler les problèmes de synonymie et de relation entre les termes, mais aussi sur un dictionnaire qui lui soit associé pour détecter les risques éventuels de polysémie) ;

- enfin, il ne faudrait pas que cette utilisation des termes du résumé pour la recherche documentaire ne pervertisse le résumé lui-même. Dans cette optique en effet, il serait nécessaire de s'assurer que les différents termes employés dans un résumé sont bien représentatifs des notions significatives abordées dans le document analysé et ne présentent pas de risque d'ambiguïté. Encore ne faudrait-il pas dans ce cas transformer le résumé en une succession de mots clés plus ou moins contrôlés et nuire ainsi à sa lisibilité et donc à sa fonction première d'explication du titre.

1.2 - ANALYSER LES OUTILS

1.2.1 - Les langages documen ta i r e s

1.2.1.1 - Evolution des langages documentaires utilisés dans les bibliothèques et dans les CDI

Comme nous l'avons remarqué précédemment, la dernière décennie a vu l'abandon des classifications décimales (CDU et Dewey) comme outils d'indexation pour ne plus les utiliser que comme base de cotation. Dans le même temps, des langages documentaires plus proches du langage naturel (listes de vedettes-matières, thésaurus) ont été de plus en plus massivement utilisés tant dans les grandes bibliothèques que dans les CDI.

Page 12: L'analyse documentaire. Résumer, indexer, techniques

Après la décision prise en 1974 par la Bibliothèque Publique d'Information du Centre Georges Pompidou d'utiliser le Répertoire de vedettes matières de l'université Laval pour l'indexation de ses documents et la décision de la Bibliothèque Nationale de se rallier à ce choix en 1980, la version française de ce langage, successivement appelé LAMECH (Liste d'Autorité Matière Encyclopédique Collective et Hiérarchisée) puis RAMEAU (Répertoire d'Autorité Matière Encyclopédique et Alphabétique Unifié) est aujourd'hui utilisé également par les bibliothèques universitaires et un certain nombre de bibliothèques municipales. Ce langage est également utilisée sur les CD-ROM de données documentaires édités par la Bibliothèque Nationale (Bibliographie Générale Française) et la BPI (Lise).

Une autre liste de vedettes matières, le "choix de vedettes matières à l'intention des bibliothèques" élaboré par Martine Blanc-Montmayeur et Françoise Danset (publié en 1984 par le Cercle de la Librairie) a été adopté par un certain nombre d'autres bibliothèques et par le Cercle de la Librairie lui-même pour l'indexation de ses références de livres disponibles (base de données ELECTRE disponible à la fois par voie télématique et sur le CD-ROM du même nom). En 1995 le Cercle de la Librairie a décidé d'abandonner ce langage documentaire et d'utiliser RAMEAU.

Dans les années 1980, les langages documentaires élaborés en relation avec une équipe de documentalistes de collèges et de lycées, par le CRDP de Poitiers (Répertoire alphabétique de mots-clés, Mémobase, Mémotec, Mémobase + ) ont été utilisés par plusieurs milliers de centres de documentation (essentiellement des CDI).

Enfin, le thésaurus MOTBIS élaboré dans le cadre du CNDP à la fin des années 1980 à partir de langages préexistants (Mémobase +, Memotec, Thelyce, Rameau, Eudised) et dont la première version a été publiée en 1989 vise à devenir le langage documentaire commun aux CDI informatisés.

Les différents langages que nous venons de citer correspondent donc à l'environnement de la plupart des documentalistes de CDI ou de CDDP-CRDP, soit qu'ils les utilisent pour leur base de données locale, soit qu'ils les rencontrent dans des bibliothèques, centres de documentation proches ou sur des CD-ROM.

Nous reviendrons plus loin sur les caractéristiques particulières de ces différents langages et sur leurs conditions d'utilisation tant à l'indexation qu'à la recherche. Deux questions se posent en effet au préalable : pourquoi utiliser un langage documentaire et pourquoi cette multiplication de langages documentaires ?

1.2.1.2 - Pourquoi utiliser u n langage documenta i re

Cette question n'est pas uniquement formelle puisque la définition de l'indexation telle qu'elle est énoncée dans le "vocabulaire de la documentation" de l'AFNOR définit cette opération comme un "processus destiné à représenter par les éléments d'un langage documentai re ou naturel des données résultant de l'analyse du contenu d'un document..." Cette définition indique donc la possibilité de représenter le contenu intellectuel du document analysé par des mots-clés, c'est-à-dire des termes jugés "non vides" existant dans le titre, le résumé éventuel ou même le texte du document analysé. Ces mots-clés sont soit extraits par l'indexeur en raison de la valeur inforrnative qu'ils semblent présenter, soit même, dans certains systèmes "d'indexation automatique" directement détectés par le programme. Leur collecte (manuelle ou automatisée) donne lieu à l'établissement d'une liste de mots-clés dont la seule logique est le classement alphabétique. Le principal avantage de ces listes de mots- clés est leur souplesse d'évolution puisque, comme le langage naturel, elles peuvent immédiatement prendre en compte de nouvelles notions ou de nouvelles dénominations.

Page 13: L'analyse documentaire. Résumer, indexer, techniques

Cependant, ces listes de mots-clés présentent des inconvénients redoutables liés à l'utilisation même du langage naturel, c'est-à-dire "d'un langage qui évolue et dont les règles résultent de l'usage sans être nécessairement prescrites d'une manière formelle". Ces problèmes sont les suivants :

- le premier type de problèmes lié à l'utilisation d'une liste de mots-clés réside dans les problèmes de synonymie et de polysémie liés au langage naturel. L'apparition d'un nouveau mot-clé peut fort bien ne représenter qu'une nouvelle dénomination d'une notion déjà exprimée par un autre terme (problème de synonymie). De même, l'utilisation d'un mot-clé déjà existant peut cacher des acceptions différentes de ce terme (problème de polysémie). Ainsi une liste de mots-clés doit elle, pour devenir un langage d'indexation performant régler les problèmes de synonymie en établissant des liens d'équivalence entre les différents mots- clés représentant une même notion et en précisant les conditions d'utilisation des termes ambigus. Ces problèmes une fois réglés, la liste de mots-clés sera devenue une liste de descripteurs. Elle pourra alors être considérée comme un langage d'indexation relativement fiable mais non comme un langage documentaire véritablement performant. Un langage documentaire est en effet un "langage artificiel constitué de représentation de notions et de relations entre ces notions...": le passage d'une liste de mots-clés à une liste de descripteurs permet de régler les problèmes liés à la représentation de notions par la résolution des problèmes de synonymie et de polysémie mais laisse de côté l'existence de liens entre les descripteurs représentant chacune des notions détectées. Pour prendre un exemple parmi d'autres, il existe des liens de différentes natures entre les termes suivants : abeille, insecte, miel, ruche. Dans une liste de descripteurs au sens strict du terme, ces liens ne seront pas indiqués et chacun de ces termes sera classé à sa place alphabétique sans référence aux autres termes : lors de la recherche l'utilisateur agira donc "en aveugle" et aura toute les chances de ne trouver qu'une partie de l'information pertinente. De ce fait, seul un langage documentaire véritablement élaboré c'est-à-dire ayant non seulement réglé les problèmes de synonymie et de polysémie mais ayant de plus établi un maximum de liens à l'intérieur du vocabulaire existant peut offrir des résultats performants à la recherche.

1.2.1.3 - Pourquoi des langages documentaires

La question, pourquoi des langages documentaires et non pas un langage documentaire unique, peut sembler, en première analyse, paradoxale. En effet, nous nous trouvons dans une situation dans laquelle les échanges de données se multiplient en même temps que les langages documentaires se diversifient ; il y a vingt ans les CDI et les bibliothèques françaises utilisaient essentiellement les deux grandes classifications décimales (d'ailleurs fort proches l'une de l'autre). Ce paradoxe n'est en fait qu'apparent : si un langage documentaire unique, serait effectivement le bienvenu pour échanger des données, encore faudrait-il qu'il soit adapté aux besoins propres des différents centres de documentation concernés ; le problème de l'adaptation d'un langage documentaire à un système documentaire particulier se pose en effet sur trois points :

- a d é q u a t i o n e n t r e le t y p e de l a n g a g e d o c u m e n t a i r e a d o p t é et les caractéristiques techniques du système documentaire concerné : nous sommes actuellement dans une situation dans laquelle certains centres sont informatisés, d'autres ne le sont pas encore et où, dans certains cas, nous trouvons même une cœxistence des deux systèmes de recherche. Or, nous le verrons plus loin, la recherche documentaire traditionnelle sur des catalogues (fichiers) alphabétiques matières et la recherche documentaire informatisée sont fondées sur des approches fondamentalement différentes. En simplifiant, nous pouvons dire que le premier type de recherche est fondamentalement lié à une précoordination des notions lors de l'indexation (établissement de vedettes-matières) alors que le second repose au

Page 14: L'analyse documentaire. Résumer, indexer, techniques

contraire sur la juxtaposition des notions (descripteurs) lors de l'indexation, le croisement entre notions se faisant lors de la recherche elle-même (postcoordination). Dans le premier cas le type de langage documentaire le mieux adapté est la liste de vedettes matières, dans le second l'utilisation d'un thésaurus est bien préférable ;

- adéquation entre le vocabulaire disponible dans le langage documenta i re et les c a r a c t é r i s t i q u e s r é e l l e s d u f o n d s d o c u m e n t a i r e à i n d e x e r : un fonds documenta i re restreint et spécial isé, un fonds documenta i r e restreint et encyclopédique, un fonds documentaire important et encyclopédique... impliquent des langages documentaires sensiblement différents, non pas au niveau de leur structuration, mais au niveau du vocabulaire disponible. Il est inutile d'encombrer l'utilisateur par un vocabulaire important qui compliquera sa recherche et sera source de frustation s'il n'est pas effectivement utilisé, de la même façon qu'il est à la fois frustrant pour le documentaliste et pour l'utilisateur de ne pas trouver le vocabulaire nécessaire et d'indexer ou de retrouver des centaines ou même parfois des milliers de références sous un même terme d'indexation ;

- adéquation entre le vocabulaire disponible et les besoins réels des utilisateurs : ce troisième point est évidemment fondamental dans la mesure où tout langage documentaire digne de ce nom est le médiateur entre l'indexation du documentaliste et la question de l'utilisateur. De ce fait, le langage documentaire doit prendre en compte le mieux possible les besoins de ce dernier et cela sur deux points :

- en premier lieu, il convient que le vocabulaire proposé soit compatible avec le niveau de langage de l'utilisateur (il y a des différences importantes entre un élève de 6e et un élève de terminale) ;

- en second lieu, il est nécessaire de s'assurer que la réponse exhaustive à une question posée ne demande pas une recherche trop complexe. Ce deuxième élément implique donc que la structuration interne du vocabulaire tienne compte dans la mesure du possible (c'est-à-dire en respectant les règles de structuration propres au type de langage utilisé) des questions susceptibles d'être posées par les utilisateurs.

1.2.1.4 - Listes de vedettes-matières et thésaurus utilisés dans les bibliothèques et les CDI

- Le "choix de vedettes-matières à l'intention des bibliothèques". Édité en 1984 et modifié en 1987 pour tenir compte de la norme Z-44-070 relative à l'indexation analytique par matières, ce langage documentaire qui compte 12 500 entrées est un bon exemple de liste de vedettes matières "classique". Utilisé dans un certain nombre de bibliothèques (bibliothèques municipales en particulier) et par le Cercle de la Librairie pour la base de données ELECTRE, il n'a pas été spécialement conçu pour une utilisation dans les établissements scolaires.

- RAMEAU (Répertoire d'Autorités Matières Encyclopédique Alphabétique et Unifié) a été, quant à lui, élaboré selon la norme Z 47-200 relative à la "liste nationale d'autorités de matières". C'est le langage documentaire de la Bibliothèque Nationale, de la BPI, des Bibliothèques Universitaires et d'un certain nombre de Bibliothèques Municipales. Il est utilisé par le CNDP pour la partie "Encyclopédie" de sa base de données documentaires. C'est un langage documentaire très riche (plus de 100 000 "entrées") mais d'un niveau élevé, difficile d'accès pour les utilisateurs moyens des CDI, inadapté en tous cas à une utilisation par des élèves de collège (sur RAMEAU, cf annexe 3).

Page 15: L'analyse documentaire. Résumer, indexer, techniques

- MEMOBASE dont la première édition date de janvier 1986 et dont la version actuelle MEMOBASE + a été publiée en mai 1989 a été, lui aussi, élaboré en conformité avec la norme Z 47-200. Il a été délibérément conçu comme un outil d'indexation hybride, structuré en thésaurus, mais utilisable à la fois pour l'indexation par descripteurs et par vedettes- matières. Il comporte 7 026 termes dont 1 366 non descripteurs. Avec son complément technique MEMOTEC et sa fusion avec le thésaurus THEA (Thésaurus de l'enseignement agricole), il a donné naissance aux thésaurus MEMOLANGUE et MEMOBANQUE disponibles uniquement sur support mangnétique. Contrairement aux langages précédents, MEMOBASE, MEMOLANGUE et MEMOBANQUE ont été spécialement conçus pour une utilisation dans les CDI. Dans les faits, MEMOBASE a été uniquement utilisé comme source de vedettes-matières, MEMOBASE + a connu les deux utilisations (vedettes matières, descripteurs). La sortie de MOTBIS (fin 1989) et surtout celle de MOTBIS 2 (fin 1992) font que le CRDP de Poitou- Charentes a décidé en 1989 d'en "geler" l'évolution. Depuis 1993 il n'est plus utilisé que comme source de vedettes matières. Il reste en ce domaine le langage documentaire le mieux adapté aux besoins des CDI non informatisés, (cf annexe).

- MOTBIS dont la première version (version 01) a été publiée fin 1989 par le CNDP est, quant à lui, un thésaurus polyhiérarchique élaboré selon la norme Z 47-100 relative aux "règles d'établissement des thésaurus monolingues". Il comportait alors 10 781 entrées dont 9 270 descripteurs et 1511 non descripteurs répartis en 156 microthésaurus (10 864 entrées dans la version diffusée par le CRDP de Poitou-Charentes avec MEMOLOG). Etabli à partir de langages documentaires préexistants (THELYCE, MEMOBASE, MEMOTEC, EUDISED, vedettes- matières RAMEAU), c'est un macrothésaurus de type encyclopédique élaboré dans l'optique d 'une utilisation par des centres de documentat ion de l 'Education nationale (CDI, CDDP/CRDP). La version 2 de MOTBIS publiée fin 1992 (et qui doit être utilisée à partir du ler janvier 1993) présente des évolutions importantes par rapport à MOTBIS : VERSION 01.

MOTBIS 2 proprement dit est un macrothésaurus qui correspond globalement à MOTBIS: version 01. La différence fondamentale entre ce dernier et MOTBIS 2 réside dans la décision de la Direction Documentaire du CNDP de gérer hors MOTBIS tous les descripteurs de type "identificateurs" au sens de la norme Z 47-100 (noms de personnages, de sites et de monuments). Il comporte 10 668 termes dont 8114 descripteurs et 2 554 non descripteurs répartis en 84 microthésaurus.

Pour tenir compte des besoins spécifiques aux établissements d'enseignement technique et agricole une liste complémentaire de 2 134 termes (2 051 descripteurs et 83 non descripteurs) leur est proposée par le CNDP. Les 2 051 descripteurs composant cette liste sont tous des termes spécifiques de descripteurs présents dans MOTBIS 2. L'adjonction de ce vocabulaire doit permettre aux utilisateurs de MEMOLANGUE et MEMOBANQUE de passer sans problème à MOTBIS 2.

- Enfin, parallèlement à MOTBIS 2 (mais en compatibilité avec celui-ci) le CRDP de Poitou-Charentes p ropose aux utilisateurs du logiciel MEMOLOG un complément d'''identificateurs'' (noms de personnages et de sites) appelé ID-MEMO : ce complément qui comporte 2405 termes (dont 1550 descripteurs et 855 non-descripteurs) permet aux anciens utilisateurs de MEMOLOG (utilisant jusqu'alors MOTBIS 1, MEMOBASE +, MEMOLANGUE, MEMOBANQUE) de passer à MOTBIS 2 de façon automatique, sans perte d'indexation pour leurs données déjà établies, tout en gardant une continuité dans leurs pratiques de recherche documentaire. Totalement compatible avec MOTBIS 2 proprement dit, il permet en outre d'assurer la compatibilité des identificateurs dans le cas d'échanges de données entre les centres l'utilisant (sur les caractéristiques de ce complément, cf annexe 1).

Page 16: L'analyse documentaire. Résumer, indexer, techniques

Comparaison entre ces langages : vocabulaire, structuration, condit ions d'utilisation

Sur le plan du vocabulaire, si l'on accepte l'équivalence globale entre descripteur et élément d'une vedette matière (tête de vedette, subdivisions) et compte tenu du nombre d'entrées disponibles dans chacun d'entre eux, il est possible de dire que ces divers langages se ressemblent énormément ; ils procèdent tous en effet (contrairement aux classifications décimales) de langages artificiels directement issus du langage naturel. Les principales différences entre le vocabulaire présent dans ces langages portent sur l'emploi du singulier et du pluriel et la forme retenue pour les expressions utilisables à l'indexation :

- l'emploi du singulier ou du pluriel est la conséquence des normes différentes auxquelles ils se réfèrent: les normes Z44-07 (Indexation analytique par matière) et Z47-100 (Règles d'établissement des thésaurus monolingues) préconisent l'emploi préférentiel du singulier), alors que la norme Z47-200 (Liste d'autorité de matière: structure et règles d'emploi) préconise au contraire l'emploi préférentiel du pluriel (tout en admettant l'usage du même terme à la fois au pluriel et au singulier "pour exprimer une spécialisation de sens: un concept abstrait est rendu par le singulier, le pluriel servant alors à désigner des notions concrètes)": de ces recommandations divergentes résulte le fait que le vocabulaire du "choix de vedettes matières à l'intention des bibliothèques" et de Motbis est essentiellement au singulier alors que celui de RAMEAU ou de MEMOBASE est essentiellement au pluriel ;

- la forme retenue pour les expressions utilisables à l'indexation est, quant à elle, largement liée à l'utilisation première prévue pour l'emploi du langage documentaire considéré, soit à une recherche documentaire traditionnelle sur fichiers alphabétiques matières (et cherchent donc à regrouper au maximum à un même endroit du fichier les mots ou expressions traitant globalement d'un même sujet) soit à une recherche documentaire informatisée (dans laquelle l'ordre de classement des termes utilisables à l'indexation a beaucoup moins d'importance et où il est, au contraire intéressant d'être le plus proche possible des formes utilisées dans le langage naturel). Ainsi, à titre d'exemple, le descripteur "appareil circulatoire" de Motbis correspond aux têtes de vedettes CARDIOVASCULAIRE (APPAREIL) de la liste Blanc-Montmayeur/Danset et "cardiovasculaire, appareil" dans RAMEAU (dans ce dernier cas les formes "appareil circulatoire" et "appareil cardiovasculaire" apparaissent d'ailleurs en formes exclues). Dans le cas de RAMEAU il faut en outre remarquer une évolution récente de cette pratique. Ainsi, toujours à titre d'exemple, la forme "travail, inspection du" utilisée jusqu'en 1991 a été, depuis, remplacée par la forme "inspection du travail" ;

toujours sur le plan du vocabulaire, les différents langages concernés ont pour premier souci de résoudre les problèmes de polysémie inhérents au langage naturel en apportant des précisions aux termes risquant de poser des problèmes de cet ordre : ces précisions sont généralement exprimées entre parenthèses (choix de vedettes matières.. . , RAMEAU, MEMOBASE). Dans le cas de MOTBIS, elles sont introduites par la ponctuation "espace : espace". Notons à ce sujet que dans les langages documentaires établis selon la norme Z 47- 200 l'emploi du singulier et du pluriel permet dans un certain nombre de cas d'éviter d'indiquer cette précision. Ainsi du RAMEAU, comme dans MEMOBASE "théâtre" est pris au sens d'art théâtral alors que "théâtres" est pris dans le sens d'édifice.

Sur le p lan de la s t ruc tura t ion du vocabulaire, les différents langages considérés visent tout d'abord à résoudre les problèmes de synonymie en établissant des renvois d i rec ts (= renvois d'exclusion) entre les t e r m e s exc lus (= non descripteurs dans un thésaurus) et les termes utilisables à l'indexation (= descripteurs dans un thésaurus). Dans les langages documentaires établis selon les normes Z44-070 et Z47-200 ce type de renvoi est introduit par la notation VOIR (ou V), alors que ce même type de renvoi est introduit par la

Page 17: L'analyse documentaire. Résumer, indexer, techniques

notation Employer (EM) dans les thésaurus construits selon la norme Z47-100). Notons à ce

propos que cette relation d'exclusion est assortie d 'une relation de réciprocité systématique dans les langages établis selon les normes Z47-100 et Z47-200. Dans les deux cas, cette relation réciproque est introduite par la notation Employé Pour (EP).

Outre ces renvois directs, les différents langages étudiés, p roposent des systèmes de r e n v o i s d ' o r i e n t a t i o n de s t i né s à a ider l ' i ndexeu r dans sa d é m a r c h e d ' i ndexa t ion et

l 'utilisateur dans sa démarche de recherche. De ce point de vue, il existe une différence fondamentale entre les langages d'indexation établis selon la norme Z44070 qui se contentent de la simple notation "Voir Aussi" (VA) d 'une part, et les langages établis selon les normes Z47-100 et Z47-200 d'autre part. Dans ces deux derniers cas (langages établis selon les normes Z47-100 et Z47-200), il y a différenciation entre relations hiérarchiques (génériques/spécifiques ou partitives) et les relations d'association. En outre, la notation utilisée est la même : TG ( terme génér ique) , TS (Terme Spécifique) p o u r les relations hiérarchiques et TA (Terme Associé) pour les relations d'association.

Enfin dans ces deux cas également , ces relations sont systématiquement réciproques (TG/TS, TA/TA).

Notons cependan t que si RAMEAU fait, comme les thésaurus, la différenciation entre relat ions h ié ra rch iques et relat ions d 'associat ions, la na ture m ê m e de ses construct ions (vedettes-matières) montre ses limites en ce domaine : dans RAMEAU ce sont en grande partie les seules têtes de vedettes qui font l'objet de relations hérarchiques entre elles. Dans le cas de vede t t e s mat ières complexes ( exemple : tê te de vede t t e + subdiv i s ion g é o g r a p h i q u e + subdivision chronologique + subdivision de forme) chacun des éléments concernés appartient implicitement à une hiérarchie qui lui est propre et la hiérarchisation entre deux vedettes matières complexes est donc tout à fait exceptionnelle.

En fait ce qui différencie fondamentalement des systèmes de vedettes-matières, même très élaborés comme RAMEAU, de thésaurus constitués en tant que tels réside essentiellement dans les outils d 'accès au vocabulai re p résen t et dans les condi t ions d'uti l isation de ce vocabulaire : la logique d'accès à une liste de vedettes matières est essentiellement liée au classement alphabétique des vedettes matières la composant dans l'ordre des têtes de vedettes utilisées. La logique d 'accès au vocabulaire présent dans un thésaurus est, quant à elle, multiforme: les descripteurs d 'un thésaurus ne sont pas simplement classés selon leur ordre alphabét ique mais également regroupés selon une logique d'affinité de sens fondée sur la n o t i o n de mic ro thé sau rus (= c h a m p sémant ique ) . De ce fait, la p lupar t des thésaurus p roposen t (outre une liste a lphabé t ique structurée, cor respondant à l 'accès alphabét ique structurée, d 'une liste de vedettes matières) un accès thématique à ce même vocabulaire: cet accès qui cons i s te g é n é r a l e m e n t en u n e r e p r é s e n t a t i o n g r a p h i q u e ( schéma f léché ou terminogramme) du vocabulaire de chaque microthésaurus regroupe les descripteurs non par logique alphabétique mais selon le sens des concepts qu'ils représentent.

Un autre type d'outil, propre lui aussi au thésaurus, permet un accès aisé au vocabulaire présent : c'est la liste a l p h a b é t i q u e p e r m u t é e dans laquelle les expressions sont classées à la place alphabétique de chacun des mots significatifs les composant : dans cette logique de classement une expression comme ENERGIE SOLAIRE sera classée à la fois à la lettre E où elle voisinera les autres formes d 'énergies et à la lettre S où elle sera regroupée avec les différents phénomènes ou processus liés au soleil.

• GLEYZE, Alain .- Pour une méthode d'indexation alphabétique de matières. Villeurbanne : ENSB, 1983.

Page 18: L'analyse documentaire. Résumer, indexer, techniques

Nouvelles technologies de la communication et transformation des processus de recherche documentaire : apports des bases de données plein texte pour l'accès aux documents primaires. Définition, caractéristiques et évolution (multiplication, diversification, améliorations) de ces bases de données depuis les années 1980. Les bases plein texte biomédicales. Les bases plein texte et la fourniture de documents.

Article de Périodique Chartron, Ghislaine/Dalbin, Sylvie/Monteil, Marie-Gaëlle. - Indexation manuelle et indexation automatique : dépasser les oppositions. - Documentaliste (Paris), 07/1989 n° 4-5. - p. 181-187. Comparaison entre l ' indexat ion manuel le ( issue du thésaurus EDF) et l'indexation automatique (réalisée par le système LEXINET) d'un même corpus de documents sur l'intelligence artificielle : avantages et inconvénients des deux approches, réflexion sur les caractérist iques nécessai res à un système d' indexation performant, complémentari té entre indexation manuelle et automatique.

Article de Périodique Chaumier, Jacques/Dejean, Martine. - L'indexation assistée par ordinateur : principes et méthodes. - Documentaliste (Paris), 01/1992 n° 1. - p. 3-6. Intérêt économique et problèmes linguistiques de mise en œuvre de l'indexation automatique : applications existantes aux États-Unis et en France. Principes et fonctionnement des principaux systèmes d'indexation assistée par ordinateur (IAO) : modèle statistique, modèle probabiliste (méthode des co-occurences), modèle linguistique, modèle procédural (comparaison avec un thésaurus).

Article de Périodique Chaumier, Jacques/Dejean, Martine/. - L'indexation documentaire : de l'analyse concep tue l le humaine à l 'analyse au tomat ique morphosyn tax ique . - Documentaliste (Paris), 11/1990 n° 6. - p. 275-279 Rôles de l'indexation. Indexation humaine, indexation automatique (sur texte intégral, sur résumés). Intérêts de l'automatisation de l'indexation. Historique des recherches sur le sujet, des années 1950 aux années 1980. Types de méthodes utilisées (statistiques, par assignation, syntaxiques). Enjeux économiques et limites actuelles de l'indexation automatique.

Article de Périodique Guimier-Sorbets, Anne-Marie. - Des textes aux images : accès aux informations multimédias par le langage naturel. - Documentaliste (Paris), 05/1993 n° 3.- p. 127-134. Banques de données et multimédias disponibles en sciences humaines. Réflexion sur la mise en œuvre d'un système d'information adapté à divers publics. Présentation du système d'information sur le site grec de Delphes, géré par l'utilisation conjointe d'un vidéodisque, modalités de la consultation interactive. Bilan de l'expérimentation.

Page 19: L'analyse documentaire. Résumer, indexer, techniques

Participant d’une démarche de transmission de fictions ou de savoirs rendus difficiles d’accès par le temps, cette édition numérique redonne vie à une œuvre existant jusqu’alors uniquement

sur un support imprimé, conformément à la loi n° 2012-287 du 1er mars 2012 relative à l’exploitation des Livres Indisponibles du XXe siècle.

Cette édition numérique a été réalisée à partir d’un support physique parfois ancien conservé au sein des collections de la Bibliothèque nationale de France, notamment au titre du dépôt légal.

Elle peut donc reproduire, au-delà du texte lui-même, des éléments propres à l’exemplaire qui a servi à la numérisation.

Cette édition numérique a été fabriquée par la société FeniXX au format PDF.

La couverture reproduit celle du livre original conservé au sein des collections

de la Bibliothèque nationale de France, notamment au titre du dépôt légal.

*

La société FeniXX diffuse cette édition numérique en vertu d’une licence confiée par la Sofia ‒ Société Française des Intérêts des Auteurs de l’Écrit ‒

dans le cadre de la loi n° 2012-287 du 1er mars 2012.