Introduction aux concepts et outils de la Bibliométrie

Preview:

Citation preview

Introduction aux concepts et outils de la bibliométrie

Manuel Durand-Barthez - URFIST Paris 27 octobre 2016

Journée d’étude CentraleSupélec : « Les enjeux documentaires de la thèse »

Calculer ?

! Calculer pour qui ? ! Calculer comment ? ! Calculer pourquoi ?

www.htemeel.com

Tout ce qui est comptabilisable ne compte pas et tout ce qui compte n’est pas comptabilisable

William Bruce Cameron 1957, 1958 et 1963…? http://quoteinvestigator.com/2010/05/26/everything-counts-einstein/#more-455

Calculer pour qui ?

Contexte législatif français : !  Les Programmes de la LOLF

(loi organique relative aux lois de finances)

!  IIs visent:

!  La « production scientifique » alias les publications !  Le transfert de technologie (dépôt de brevets…) !  La participation aux Programmes de recherche &

Développement de l’Union européenne (ex.: H2020)

Les Programmes de la LOLF

! 3 programmes gérés par le MENESR : ! P150 : Enseignement supérieur &

Recherche = financement DGESIP ! P172 : Recherches scientifiques et

technologiques pluridisciplinaires = financement DGRI

! P193 : réservé exclusivement au CNES = financement DGRI

Indicateurs communs aux P 150, 172 et 193

a) Production scientifique desopérateurs du programme.Part des publications de référence internationale des opérateurs du programme dans la production scientifique de l’Union européenne, du monde et du trio France /Allemagne / Royaume-Uni.

Indicateurs communs aux P 150, 172 et 193

b) Reconnaissance scientifique des opérateurs du programme •  Indice de citation à deux ans des publications des opérateurs du programme Source des données : Web of Science, Clarivate-Analytics (ex-Thomson-Reuters) Base de référence spécifiquement agréée par l’Administration (LOLF)

Indicateurs d’autres programmes LOLF

! P192 (Min. Économie, Industrie & Numérique)

! Bibliométrie des écoles ! Nombre moyen de publications

scientifiques de rang « A » rapporté au nombre de chercheurs (ETP)

Source: Consolidation des informations apportées par les organismes concernés

Calculer pour être classé !  Shanghai ! Times Higher Education World University

Rankings. ! QS [Quacquarelli Sysmonds] World

University Rankings ! U-Multirank ! Leiden Ranking ◦  Les classements ne sont pas, en France, un

objectif officiellement avoué, mais toujours implicitement visé

Calculer pour être classé

! Les classements en vigueur sont plutôt mal adaptés au cas français ◦ Recensent pour l’essentiel les établissements

d’E.S. => Orientation des étudiants avancés pour la suite de leurs études ◦ Ne concernent les grands organismes français

de Recherche que par le biais de la « contamination » UMR/Universités, le cas échéant => inadéquation du modèle

Calculer pour être classé

! En France, le recensement est faussé par l’hétérogénéité importante des Affiliations

! Le millefeuille des signatures croît avec le poids politique des superstructures (COMUÉs etc.) et un usage immodéré de la syntaxe multilignes ou de monolignes mal construits

EVALUATION DES PUBLICATIONS

13875 titres revendiqués sur la Plate-Forme propriétaire de

l’ISI WEB OF SCIENCE (WoS)

[2016]

Répartition par Domaines

! 8854 titres en Sciences Technologie Médecine

Base Science Citation Index ! 3242 titres en Sciences sociales Base Social Science Citation Index ! 1779 titres en Sciences humaines Base Arts & Humanities Citation Index

EVALUATION DES SOURCES (Titres des revues)

JOURNAL CITATION REPORT (J.C.R.)

Tableau statistique annuel paraît à la fin du 1er semestre

de l’année « n+1 » 2015 (paru en 2016): 8757 titres analysés en STM 3206 en Sci. sociales

Calcul du Facteur d’Impact ISI C

hristina Welsh – C

C-

BY N

D

Journal: EMBO J

Impact Factor: 9,643 Cites in 2015 to articles published in: 2014 = 1630

2013 = 2285 14+13 = 3915

Number of articles published in: 2014 = 181 2013 = 225 14+13 = 406

Calculation: Cites to recent articles 3915 = 9,643 Number of recent articles 406

Le calcul sur deux ans n'est pas forcément le plus adapté à toutes les spécialités :

Certaines peuvent mieux supporter 5 ans de délai

Notamment parce que la nature des articles publiés possède un caractère plus pérenne et

plus fondamental, appréciable (et donc "citable") sur une plus longue durée

Facteurs de pondération: -  Périodicité + ou – grande: 2 ou 52 num. par an ?

-  Nombre d’articles par numéro

-  Changement de titre en cours d’année

-  « Jeune » périodique (libre, par ex.)

-  Nombre de textes type « review »

-  Langue, alphabet

Facteurs d’Impact et Axes de Recherche

!  177 Subject Categories du JCR S.T.M. regroupées en 8 disciplines académiques par l’Observatoire des Sciences et des Techniques (O.S.T.) + 1 pluridisciplinaire (type Science ou Nature)

!  Les Subject Categories font l’objet d’un

Facteur d’Impact agrégé sur le JCR dont la variation annuelle peut éventuellement se répercuter sur les politiques de recherche

Chercher la « bonne » revue

! Les « bonnes revues » d’un domaine définies à partir du Journal Citation Reports

! Une investigation sujette à caution ! La notion de rang A est multiforme et

varie suivant les contextes ! Néanmoins, quelle méthode brute permet

un défrichage basique ?

Méthode des 10 + 15 % Subj. Cat. /JCR

!  Sélectionner 1, 2, voire 3 Subject Categories (parmi les 177) correspondant au domaine de recherche

! Afficher le premier Quartile dans l’ordre décroissant des facteurs d’impact

! Les 10 premiers pour-cent = rang A ! Les 15 suivants = rang B ! Après, cela n’a plus beaucoup d’intérêt…

Cette Catégorie comporte 135 revues

2015, Science Citation Index Expanded (SCIE)

Select Quartile n°1

Bloc Quartile n°1 Top 10% = 13 / 135

Grands écarts entre les 3 premières positions

Fin du premier Quartile 15 % suivant le Top 10 = de 14 à 33

Remarquer l’Eigenfactor en dernière colonne (commentaire + loin)

Si 2 ou 3 catégories englobent le domaine recherché, comparer les Q1 de chacune, avec éventuellement des titres communs dont le rang sera différent

I.F. du 1er = 25,4 I.F. du 33ème = 2,57 Soit 1/10

Évaluation des Auteurs Facteur de HIRSCH Calcul d’une moyenne faisant

coïncider: !  Nb de Publications et !  Nb de Citations

= indice h

Facteur H Jorge Hirsch, Univ. San Diego (Cal.)

Si 25 articles cités au moins 25 fois, alors H=25

Facteur H ! Si H = 25 : 25 articles cités au moins

20 fois ! H = √Σcit. ⁄ 1,82 (racine carrée du

nombre total de citations recueillies [sauf auto-] par un nombre défini d’articles sur une période définie, divisée par 1,82)

Principaux problèmes liés au H index ! Cumul arithmétique associé à

l’ancienneté: le jeune chercheur très talentueux n’est pas reconnu

! Le plus souvent (sauf par ex. en biomédecine), tous les co-auteurs capitalisent les citations de manière identique, quelle que soit leur contribution intellectuelle réelle

! Calcul contaminé par les biais du système de citations

Comment calculer ?

! L’Administration tend à privilégier les mesures expéditives. ◦  Pour les publications : facteur d’impact du

JCR combiné au WoS mentionné par la LOLF ◦  Pour les auteurs : facteurs H

! Comme les classements : souvent dénigrés, toujours adulés…

Dérivés de l’impact

!  Score SIGAPS (recherche médicale) ! 5 catégories de publis (ordre décroissant

de notoriété suivant l’IF de la revue) ! Données bibilio extraites de PubMed,

catégorisation issue du WoS ! Attribution corrélative de 8,6,4,3,2,1

point(s) ! Les points sont cotés en équivalent €

pour la subvention au labo

Dérivé du H (valorisation de l’auteur)

!  Score SIGAPS en signatures : ◦  Premier ou Dernier auteur : 4 points ◦ Deuxième auteur : 3 points ◦ Troisième ou avant-dernier auteur : 2 points ◦ Autres positions d’auteurs : 1 point

! Le score Auteur est combiné par multiplication avec le score Publi pour affiner l’attribution financière

Duncan C, 2006, FlickR

Typologie des publications

! «Journaux stratégiques » vs. « outils de travail »

!  Impact artificiel des reviews !  Incidence de calculs sur des moyennes ≠ des

médianes !  Indices de notoriété, « boîtes à

moustaches » Box Plots M.-H. Magri, INRA - CREBI Jouy-en-Josas (distribution de type Lotka)

Facteur d’impact agrégé vs. médian

" Calcul effectué sur les moyennes et médianes des F.I. des revues d’une discipline

! Biologie cellulaire #  F.I. agrégé = 5,734 ; médian = 3,200

! Mathématiques # F.I. agrégé = 0,716 ; médian = 0,565 # Delta proportionnellement très inférieur

(culture de publication ≠ biol.)

Variantes du Facteurs d’impact

!  Traçabilité des citations : par qui la publication citante est-elle citée ; par qui la publication citant la citée est-elle elle-même citée etc…

!  Exécution itérative du PageRank de Google (méthode de la « marche aléatoire »)

!  Eigenfactor lié au J.C.R. (Clarivate) 5 ans !  Scimago Journal Rank lié à Scopus (Elsevier) 3 ans !  Facteur Y = produit de l’I.F.-WoS par le Weighted Page

Rank (J.Bollen et al. 2006)

Variantes du Facteur « H »

!  Facteur « G » de Leo Egghe (Univ. Anvers) !  Nombre « g » d'articles dont la somme des

nombres de citations est au moins « g2 » ◦  un « g-index » de 10 indique que l'auteur a écrit 10

papiers dont la somme des citations est au moins de 100

!  Il est censé remédier au « gel » des publications captées au-dessus de l’indice H en tenant compte du nombre exceptionnellement élevé de citations générées par quelques-unes d’entre elles

Variantes du Facteur « H »

! Multiples facteurs dérivés sous l’application Publish or Perish de Will Harzing, liée à Scholar Google, tenant compte de: ◦  L’ancienneté de l’article ◦ Du nombre d’auteurs ◦  6 combinaisons résultent de l’intersection de

ces deux paramètres

Variantes du Facteur « H »

! Nb de citations des chercheurs d’un laboratoire rapporté à l’âge de chacun.

! Calcul effectué à partir de l’âge du plus jeune de l’équipe

! Étude de la croissance du taux de citation annuel moyen pour toute la carrière

! Disparition constatée de l’effet d’âge ! Calculs de médianes

Variantes du Facteur « H » !  BORNMANN, L., MUTZ, R., DANIEL, H.D.

(2009). Do we need the h Index and its variants in addition to standard bibliometric measures? Journal of the American Society for Information Science and Technology, vol. 60, n° 6, p. 1286-1289.

!  BORNMANN, L., MUTZ, R., HUG, S.E., DANIEL, H.D. (2011) A multilevel meta-analysis of studies reporting correlations between the h index and 37 different h index variants Journal of Informetrics, 5(3), 346-359

Max Planck, ETH et Univ. Zürich

Réseaux de co-citations et de citations partagées

! Définition de collèges invisibles ! CiteseerX (Pennsylvania State Univ.)

domaines de l’informatique et des mathématiques appliquées

! Cartographie induite d’un article et de ses (co)auteurs …/…

Réseaux de co-citations et de citations partagées

! CiteseerX : partant de l’article source ! Quels articles cite-t-il ? ! Quels sont les articles qui citent tout ou

partie des articles qu’il cite ? ! Quels sont les articles qui sont cités en

même temps que lui par d’autres ?

Bibliographie en fin d’article

Onglet Active Bibliography

⇒ Liste d’articles citant en bibliographie des articles cités par la bibliographie de celui-ci

Onglet Co-Citation

⇒ Liste d’articles cités en même temps que celui-ci par d’autres articles

Histogramme chrono. des citations de cet article

Combinaison de facteurs multicritères

« Méthode Langevin » Section 17 CNRS, 2007 => Adjacence de 14 critères. L’impact bibliométrique n’est cependant pas déterminant (recrutement DR2)

Comparatif 4 métriques : SNIP et SJR (Elsevier) I.F. et 5-years I.F. (Clarivate) Chemical Engineering Journal - 2016

Evaluations alternatives qualitatives

! A l’origine sur les preprints d’ArXiv !  Sur l’article, dans la revue même, type

Open Access. Ex : European Geological Union

!  Sur des articles publiés dans diverses revues, par des collèges thématiques: Faculty of 1000 liée à l’éditeur

BioMed Central (absorbé par Springer)

Altmetrics

! « Manifesto » du 26 octobre 2010 par: o  Jason Priem, University of North Carolina-Chapel

Hill o  Dario Taraborelli, Wikimedia Foundation o  Paul Groth, VU University Amsterdam o  Cameron Neylon, Science and Technology Facilities

Council ! Mis en avant notamment par PLoS One,

revue biomédicale U.S. en open access

Altmetrics

! Évaluation à partir des Tweets, des Blogs, des systèmes de gestion bibliographique partagée (Mendeley, Zotero) ou des réseaux professionnels de type LinkedIn ou Google Groups

An investigation of the false discovery rate and the m

isinterpretation of p-values D

. Colquhoun R

Soc O

pen Sci 2014 N

ov; 1(3): 140216

Classements internationaux alternatifs

Classement de Leyde (Leiden-NL) •  Impact moyen d’une équipe rapporté à celui d’un champ, i.e. d’une catégorie de sujet •  En rapport avec la taille de l’organisme •  Analyse du taux de collaboration •  Prise en compte du facteur linguistique U-Multirank Projet européen multicritère

Classement de Leiden sur 4 ans : 2011-2014 Physique et Sci. de l’Ingénieur Europe Seuil plancher : 100 publis Calcul en compte fractionnaire

En guise de conclusion(s)?

! Moduler, nuancer, faire évoluer les indicateurs dans le sens d’une caractérisation optimale des entités

! Recenser, certes oui, mais pour qui, pourquoi, à quelles fins ?

! A-t-on ici réellement répondu à ces questions ? $  On peut en douter…

Recommended