RECHERCHER DES MOTS CLES EXPLORER DES BASES DE … · suivante est de les tester sur d’autres bases de données et de compléter au fur et mesure un tableur CSV comme un « journal

Atelier URFIST (2019-2020) - ISTEX et Gargantext - Etude de cas

Constitution d’un corpus d’analyse

Le sujet de recherche et l’angle d’analyse vont également influencer les bases de données d’intérêt dans lesquelles vous allez fouiller pour trouver des articles et de la documentation scientifique.

Pluridisciplinaires - Archive ouverte : HAL - Documentation ESR : ISTEX, Panist - Documentation CNRS : BibCNRS - Bases de données éditeur : Web of science, Scopus, etc.

Sciences humaines et sociales - Infrastructure : Huma-Num - Moteur de recherche : Isidore - Portail de revues : Persée - Plateforme d’Edition : OpenEdition - Agrégateur : Cairn

Sciences naturelles (archive ouverte) - arXiv : physique, astrophysique, mathématiques, etc. - Pubmed : santé biologie et médecine

EXPLORER DES BASES DE DONNEES

L’analyse de son corpus documentaire demande un travail préparatoire pour ordonner les données obtenues dans un tableur.

Le tableur permet de répertorier, d’organiser et de trier les documents trouvés dans la littérature scientifique.

L’export du tableur au format CSV facilite l’import et l’export du jeu de données dans plusieurs outils de visualisation et d’analyse de corpus.

Ce format permet à la fois de garantir l’interopérabilité entre les bases de données et les outils de visualisation associés mais également de sélectionner les informations à visualiser.

IMPORTER UN TABLEUR CSV

Pour qu’une recherche documentaire par mots clés soit efficace et exhaustive, il faut définir précisément l’angle sous lequel cet ensemble de document va être étudié.

A partir d’un même corpus documentaire l’angle d’analyse délivrera des cartes d’information totalement différentes.

Par exemple

Si l’on s’intéresse à la thématique du médicament. Il faut bien définir au préalable si l’on veut étudier la synthèse chimique, les essais biologiques in vivo, le marketing, etc.

Astuce

Une carte Gargantext sur une requête large peut permettre de repérer des mots clés recherchés et de faire remonter d’autres propositions de mot clés

RECHERCHER DES MOTS CLES


Rechercher des mots-clés Dès la requête dans les moteurs de recherche, l’opérateur peut associer plusieurs mots clés et définir des conditions d’exploration : questionner un ensemble de termes avec les paramètres booléens (AND ou OR) et des guillemets, date de publication (publicationDate:[2010 TO *]), auteur (author.name :*), présence d’un résumé (abstract:*), éliminer les PDF image (qualityIndicators.pdfWordCount:[500 TO *]), etc.

Ces formulations ne sont pas reconnues par toutes les bases de données. Cela dépend du degrés d’enrichissement des métadonnées. La base ISTEX constitue l’un des réservoirs les plus garnis en métadonnées. Vous pouvez retrouver l’ensemble des fonctions présentent sur le démonstrateur ISTEX (un outil pédagogique grâce à la fonction de recherche avancée).

L’outil de cartographie Gargantext analyse les termes d’un corpus documentaire et propose à l’opérateur plusieurs modèles de visualisation qu’il peut modifier. Quand on débute un travail d’exploration documentaire, une première recherche sur une base pluridisciplinaire comme HAL ou ISTEX permet de baliser les grandes axes (clusters) de l’étude documentaire.

Problématique de recherche : quelle est l’influence de l’univers de « Star Wars » sur la culture populaire moderne chez les jeunes ?

On réalise une première carte avec Gargantext sur le corpus ISTEX en indiquant comme mots-clés "Star Wars" pour explorer l’environnement large du sujet de recherche.

On obtient la carte suivante organisée en 5 groupes de couleur (clusters) représentant chacun un regroupement thématique : un ensemble de termes proche dans l’univers de « Star Wars » (contexte, synonyme, etc.)

La requête n’est pas assez fine pour donner des résultats pertinents et exploitables sur le sujet de recherche. Néanmoins, cette première requête permet de définir les grandes thématiques et de cibler plusieurs mots-clés pour améliorer la requête initiale.

https://demo.istex.fr/


Etude des clusters

A cette étape, l’objectif est de définir la thématique de chaque cluster et de déterminer les mots-clés qui pourraient être reliés au sujet d’étude.

Le cluster bleu foncé contient le termes pivot « Star Wars » dans ces points de liaison. Cet ensemble révèle essentiellement des mots-clés sur les thématiques de l’espace, de l’armée, de la politique, etc. Ce cluster est assez éloigné de notre sujet de recherche.

Le cluster vert regroupe les termes techniques sur la vidéo, le montage, les effets spéciaux et les flux de données. On ne retrouve aucun terme pivot et il ne permet pas de valoriser notre angle d’analyse.

Attention : Le mot « article » est un mot difficilement interprétable qu’il faudra éliminer de la « map list » parce qu’il peut être relié à une phrase du type « cet article abordera… ».

Termes pivots vs Mots-clés

Termes pivots : Les termes principaux de notre recherche déjà identifiés : Star Wars, culture populaire, jeunes, etc.

Mots-clés : mots liés à nos termes pivots qui se trouvent généralement dans le même cluster et renseigne sur la nature de liaison.


Le cluster bleu clair révèle la structuration de l’univers « Star Wars » et met en avant l’apprentissage, la connaissance, l’information, les concepts, etc. Ce regroupement est particulièrement intéressant puisque le terme « learning » peut se référer à la transmission de savoir auprès d’un jeune public.

Il serait intéressant d’enrichir la requête initiale avec de nouveaux mots-clés comme « learning » et/ou « knowledge ».

Le cluster rouge fait référence au développement technologique, à la temporalité et à la science-fiction. Si l’on cible le point « science-fiction », on remarque l’apparition pour la première fois du terme pivot « popular culture ». Ce dernier ne possède qu’une unique liaison avec le mot-clé « science-fiction ». Néanmoins, on retrouve le mot-clé « education » qui

n’a pas de liaison directe avec le terme pivot « popular culture » mais se situe dans le même environnement spatial.

Enfin, le cluster jaune s’intéresse à l’identité des protagonistes et de leur mise en scène (film, livre et jeux vidéo). Par rapport au sujet initial, il serait intéressant d’affiner la prochaine requête avec un mot clé sur le public visé comme « children » pour faire apparaitre des points de liaison avec le cluster rouge.

Cette première exploration large permet de délimiter les thématiques du sujet de recherche et de repérer de nouveaux types de mots clés pour affiner la recherche initiale

Astuce : deux points proches spatialement partagent plusieurs éléments en communs. On peut les retrouver fréquemment ensemble dans le résumé d’un article ou s’ils ont des synonymes en commun, etc.


Explorer des bases de données Utilisation du démonstrateur ISTEX (www.demo.istex.fr), un outil pédagogique de construction de requête informatique, pour affiner la requête initiale.

Réalisation de nouvelles requêtes/cartes pour interpréter les nouvelles relations entre les mots-clés identifiés sur la première carte dans trois clusters différents : « popular culture », « learning » et « children ».

REQUETE N°2 "Star Wars" AND "popular culture" AND (abstract:*)

La seconde requête permet d’étudier la spatialisation et les liaisons des mots-clés qui relient « Star Wars » à « culture populaire ». L’objectif est de trouver des liens directs ou d’identifier des mots-clés en communs qui permettrait de les relier entre eux.

Les trois mots-clés identifiés sur la carte précédente sont spatialement proches. C’est le mot « educationnal research » qui se rapproche le plus du terme « learning » et qui fait la liaison avec la « popular culture », « children » et « young people ».

Pour réussir à les relier directement, il faut préciser une nouvelle fois la requête d’exploration. Nous allons préférer cibler « young people » plutôt que « children » pour orienter la liaison vers la liaison sur le référentiel des « popular film ».

REQUET N°3 "Star Wars" AND "popular culture" AND "young people" AND (abstract:*)

AND qualityIndicators.pdfWordCount:[500 TO *]

https://demo.istex.fr/


La troisième requête révèle un résultat particulièrement intéressant puisqu’il réunit termes pivots et mots-clés identifiés au sein d’un même cluster. En effet, le mot « popular culture » est directement lié à « learning » qui lui-même est rattaché à « children » et à « educationnal research ».

Les deux nouvelles requêtes sont intéressantes et exploitables. L’étape suivante est de les tester sur d’autres bases de données et de compléter au fur et mesure un tableur CSV comme un « journal de bord ».

Moteur de recherche SHS : Isidore

Le sujet choisi est davantage une thématique de SHS. Le premier réflexe est d’utiliser le moteur de recherche Isidore de la TGIR Huma-Num qui regroupe les résultats de plusieurs bases de données en SHS.

La requête sur Isidore donne 93 résultats repartis sur plusieurs plateformes comme OpenEdition, Scielo, HAL, Thèse.fr, etc.

En explorant plus en détail les ressources signalées dans Isidore, on effectue un premier filtre pour garder les publications d’intérêt puisque la sélection n’est pas encore terminée.

Importer un tableur au format CSV Le tableur va permettre à l’opérateur de tenir un journal de bord pour développer son propre corpus de données.

En effet, il est possible d’utiliser la puissance de calcul et de traitement de Gargantext pour analyser un corpus autre que ceux proposés dans la liste des bases de données interrogeables. Puis de venir agréger les résultats dans le tableur.

Il suffit de compléter une feuille de calcul sous le modèle d’un export de corpus Gargantext qui se présente en 7 colonnes principales (peu importe l’ordre) :

1. Colonne pour le titre du document : « title » 2. La colonne dédiée au contenu textuel à traiter (par exemple pour

le champ résumé d’un article scientifique) : « abstract » 3. La colonne pour l’année du document (cette colonne ne doit pas

rester vide, mettre l’année en cours si pas d’infos) : « publication_year »

4. La colonne pour décrire les auteurs : « authors » 5. La colonne pour définir la source (pour d’où vient l’information) :

« source » 6. La colonne pour décrire le mois de la publication (si pas indiqué,

mettre le chiffre ‘1’) : « publication_month » 7. La colonne pour décrire le jour de la publication (si pas indiqué,

mettre le chiffre ‘1’) : « publication_day »


Formatage du fichier

Le journal de bord sous forme de tableur doit être édité sur un document « Libre office » ou un « Google sheet » pour permettre l’export CSV.

Voici le formalisme du tableur obtenu à partir de la requête n°2 :

REQUETE N°2 "Star Wars" AND "popular culture" AND (abstract :*)

Ensuite, il faut convertir le tableur au format CSV avec l’option de téléchargement « des valeurs séparées par des virgules ».

Dans GoogleSheet, il suffit de télécharger le fichier sous le format CSV avec la virgule comme séparateur, le jeu de caractère UTF8 est utilisé par défaut dans GoogleSheet.

Astuce : ajouter une colonne sur les liens ou les identifiants pérennes (DOI, PMID, ARK) des articles scientifiques pour retrouver facilement le document.

Astuce : il faut penser à enlever les sauts de ligne dans chaque cellule, en utilisant la fonction Rechercher/Remplacer avec l’expression régulière « \n » à remplacer par un espace.

Attention : Le formatage par défaut du tableur Excel ne permet pas d’effectuer un export CSV fonctionnel pour Gargantext.

Astuce : il est préconisé pour tout import de fichier dans Gargantext, de compresser le ou les fichiers (s’il y a plusieurs tableaux à analyser) dans une archive, afin d’économiser la bande passante de l’ISCPIF.


Import dans Gargantext

- Le format CSV dans la liste des types de corpus, - Donner un nom à la recherche (sans mettre d’espace) - Téléverser l’archive .zip à analyser

La carte du corpus personnalisé au format CSV ressemble beaucoup à celle de la requête n°2 effectuée exclusivement sur ISTEX. Le terme « educational » a été remplacé par « teachers ». L’apparition du terme « cultural convergence » est intéressant pour relier « Star Wars » à « popular culture » afin de poursuivre la recherche de mot-clés.

Pour aller plus loin…

Quand on clique sur un terme de la carte, il s’ouvre à droite un cadre qui référence l’ensemble des articles dans lesquels le terme a été repéré. Pour continuer l’exploration du corpus, il faudrait ajouter au tableur CSV personnalisé les données des 15-20 articles repérés sur ISTEX en lien avec les termes pivots et les mots-clés.

Ensuite, en travaillant des regroupements dans la liste de termes, on peut associer les termes voisins (synonyme et traduction). L’intérêt c’est de considérer un unique point sur la carte plutôt que plusieurs points distincts avec une plus faible occurrence statistique.


C’est-à-dire, que les termes « learning », « educationnal research » et « teacher » peuvent être liés sous une unique bannière qui serait l’un des trois mots.

Même action de regroupement pour « children », « young people » et « adolescent ».

Liste de termes A ce niveau de l’étude, le travail de la liste de termes (catégorie et regroupement) est primordial pour orienter la visualisation sur un angle spécifique du sujet de recherche. Ces termes se regroupent sur le modèle suivant : validé (vert), suggéré (noir), rejeté (rouge barré).

Astuce : si votre recherche rassemble des articles avec plusieurs langues, le regroupement de mots permet d’intégrer indirectement la fonction de traduction.

Attention : 50 termes au minimum sont nécessaires pour afficher une carte Gargantext.


Carte finale - distance conditionnelle

La carte finale analyse le « journal de bord » (corpus personnalisé) qui regroupe les 15 résultats de la recherche ISTEX et 15 résultats de la recherche sur Isidore.

Dans ce corpus les termes pivots et mots-clés « learning », « popular culture » et « young people » ont été réparti sur trois clusters distincts.

La topologie des clusters est construite sur un modèle centralisé (théorie des graphs), une architecture où tous les sommets sont rattachés à un seul pôle. Cette répartition est intéressante pour identifier les publications qui sont rattachées spécifiquement à chaque mot-clé.


En fonction, de la liaison considérée, on va pouvoir naviguer dans les publications en associant deux termes comme « popular culture » et « star wars ».

Cette liaison regroupe 8 articles scientifiques comme celui sur Star Wars : les origines du mythe populaire qui pourrait alimenter une section sur l’inspiration mythologique de l’univers de Star Wars.

Enfin, on remarque l’apparition d’un nouveau cluster sur la culture, la fiction populaire et les études des fans. Il serait intéressant d’explorer davantage ce cluster pour comprendre l’implication des communautés de fans dans la transmission de la culture populaire.


Conclusion

Cette étude sur la problématique de « l’influence de l’univers de Star Wars sur la culture populaire moderne chez les jeunes » a permis d’explorer plusieurs bases de données comme ISTEX, HAL, OpenEdition, Cairn, Scielo, etc.

Un premier travail cartographique à partir du réservoir ISTEX sur la recherche de mots-clés a permis d’identifier plusieurs termes pour préciser l’angle de la recherche : « learning », « educational research », « teachers », « children », « young people », « adolescent », « fans studies », etc.

Cette exploration des mots-clés a permis d’établir de nouvelles requêtes plus précises (cibler l’angle d’analyse) en combinant plusieurs conditions de requête.

Une fois la requête fixée, on l’essaye sur plusieurs bases de données pour constituer un son corpus personnalisé (journal de bord) au sein d’un tableur. Ce document sera ensuite exporté au format CSV pour être importé dans le logiciel Gargantext.

La carte finale répartie en quatre clusters révèle quatre grandes sections thématiques permettant d’identifier à chaque étape les publications clés.

Voici un exemple de répartition des parties qui pourraient être développées pour répondre à la problématique initiale :

- La culture populaire rattachée aux mythes antiques - L’influence des supports de diffusion (livre et film) - L’enseignement et les pratiques de recherche éducative chez les

enfants et le jeunes - Les études de fans sur la fiction populaire et la culture

Documents

RECHERCHER DES MOTS CLES EXPLORER DES BASES DE … · suivante est de les tester sur d’autres bases de données et de compléter au fur et mesure un tableur CSV comme un « journal