Questionner le texte scientifique pour caractériser la science et l'innovation

  • View
    115

  • Download
    0

  • Category

    Science

Preview:

Citation preview

Questionner le texte scientifique pour caractériser la science

et l’innovation

Guillaume Cabanacguillaume.cabanac@univ-tlse3.fr

9 mars 2017TERRE-ISTEX

http://bit.ly/istexCabanac2017

Thème 2 : Indexation et Recherche d’Informations

Équipe IRIS : Information Retrieval & Information Synthesis

2

Interroger le texte scientifique ?Prélude : programme de recherche

3

Interroger le texte scientifique ?Prélude : programme de recherche

Requêterrecherche d’information

Questionnerscientométrie

4

Prélude : programme de recherche

Dans ma boîte à outils

5

MertonPrice

Tukey

Hartley Hubert Milard

Prélude : programme de recherche

6

Prospection sur textes scientifiques

La matière première

1. Notice bibliographiquea. Nature des collaborationsb. Positions dans le champ

2. Plein texte

3. Site web d’une maison d’édition

4. Plateforme de partage

5. Bibliographie institutionnelle

Questionner le texte scientifique pour caractériser la science et l’innovation

7Cabanac, G., Hubert, G., & Milard, B. (2015). Academic careers in Computer Science: continuance and transience

of lifetime co-authorships. Scientometrics, 102, 1, 135–150.

.

1a — Nature des collaborations scientifiques

8

Source: https://projects.groept.be/~emedia

La population(N = 1 870 054)

L’échantillon des« quinquas »

(N = 209 377)

1a — Nature des collaborations scientifiques

9

Collaborations entretenues versus éphémères 1a — Nature des collaborations scientifiques

10

Renouvellement1a — Nature des collaborations scientifiques

11

Effet Matthieu et homophilie1a — Nature des collaborations scientifiques

12

Positions dans le champ

1b — Positions des élites dans le champ de l’informatique

13

La matière première

1. Notice bibliographique

2. Plein textea. Éponymie et panthéonb. Équilibre travail-loisirsc. Écriture scientifique : collectifs et genre

3. Site web d’une maison d’édition

4. Plateforme de partage

5. Bibliographie institutionnelle

Questionner le texte scientifique pour caractériser la science et l’innovation

Prospection sur textes scientifiques

Uncitedness III : l’importance de ne pas être cité

14

“Eponyms remind us that science and scholarship are the work of dedicated people.” (p. 393)

“mnemonic and commemorative device” (p. 121)Merton, R. K. (1942). Science and technology in a democratic order.Journal of Legal and Political Sociology, 1(1), 115–126.

“the practice of affixing the name of the scientist to all or part of what he has found, as with the Copernican system, Hooke’s law, Planck’s constant, or Halley’s comet” (p. 643)Merton, R. K. (1957). Priorities in scientific discovery: A chapter in the sociology of science. American Sociological Review, 22(6), 635–659.

Cabanac, G. (2014). Extracting and quantifying eponyms in full-text articles. Scientometrics, 98, 3, 1631–1645.

2a — Éponymie et panthéon scientifique

15

Théories The Reward System of Science (Merton, 1942, 1957) Obliteration by Incorporation (Merton, 1988; McCain, 2011, 2012) Non-indexed Eponymal Citedness (Száva-Kováts, 1994)

Extraire et quantifier les éponymes en plein texte Connaître les savants les plus influents d’un champ donné Amender un dictionnaire d’éponymes Identifier les tendances et l’incorporation de méthodes

Appréciation implicite via les éponymes2a — Éponymie et panthéon scientifique

16

Moissonnage d’éponymes en plein texte2a — Éponymie et panthéon scientifique

17

Révélation du panthéon scientifique implicite2a — Éponymie et panthéon scientifique

Work-life Balance

18Cabanac, G., & Hartley, J. (2013). Issues of work-life balance among JASIST

authors and editors. JASIST, 64, 10, 2182–2186.

2b — Équilibre travail-loisirs

Fragrances du Publish or Perish ?

19

2b — Équilibre travail-loisirs

20

Faire parler les « séquelles » de la peer review

Sunday!

2b — Équilibre travail-loisirs

21

Ce que les traces révèlent...

Authors

Editors

2b — Équilibre travail-loisirs

22

Travailler dans sa bulle le week-end ?

[…]

2b — Équilibre travail-loisirs

23

Écriture et genre de l’auteur 1/3

Théorie et observations en psychologie dans les années 1960 Men are more spatially and mathematically oriented than women Women are more verbally oriented than men

http:

//w

ww

.kah

eel7

.com

/eng

/imag

es/s

torie

s/2(

5).jp

g

2c — Écriture scientifique : collectifs et genre

Hartley, J. & Cabanac, G. (2014). Do men and women differ in their use of tables and graphs in academic publications?Scientometrics, 98, 2, 1161-1172.

24

Résultats sur 1 403 articles mono-signés en STM Les hommes emploient 26 % plus de figures que les femmes (p < 0.001) Les hommes emploient 11% plus de tableaux que les femmes (p = 0.102)

… cependant, cette différence se voit-elle en pratique ?

2c — Écriture scientifique : collectifs et genre

Écriture et genre de l’auteur 2/3

25

Hypothèse Il est plus difficile de s’accorder sur du texte que sur des figures/graphes Davantage de figures et graphes dans les article co-signés

2c — Écriture scientifique : collectifs et genre

Cabanac, G., Hubert, G., & Hartley, J. (2014). Solo versus collaborative writing: Discrepancies in the use of tables and graphin academic articles. Journal of the American Society for Information Science and Technology, 65, 4, 812–820.

Écriture et collectifs d’auteurs 3/3

26

Davantage de tableaux dans les articles co-signés vs. mono-signés

2c — Écriture scientifique : collectifs et genre

Écriture et collectifs d’auteurs 1/2

27

Davantage de figures dans les articles co-signés vs. mono-signés

2c — Écriture scientifique : collectifs et genre

Écriture et collectifs d’auteurs 2/2

28

La matière première

1. Notice bibliographique

2. Plein texte

3. Site web d’une maison d’éditiona. Effets d’ordonnancement sur l’évaluation par les pairsb. Panorama d’un champ

4. Plateforme de partage

5. Bibliographie institutionnelle

Questionner le texte scientifique pour caractériser la science et l’innovation

Prospection sur textes scientifiques

29

Différences entre champs disciplinaires : les confs3a — Effets d’ordonnancement sur l’évaluation par les pairs

30

Conférences : et si la date de soumission importait ? Évaluation par les pairs

Cabanac, G., & Preuss, T. (2013). Capitalizing on order effects in the bids of peer-reviewed conferences to securereviews by expert referees. JASIST, 64, 2, 405–415.

3a — Effets d’ordonnancement sur l’évaluation par les pairs

31

3a — Effets d’ordonnancement sur l’évaluation par les pairs

32

Le biais de la date de soumission Données de ConfMaster : 42 conférences en informatique

3a — Effets d’ordonnancement sur l’évaluation par les pairs

33

Biais de la date de soumission Influence sur les enchères (bids)

3a — Effets d’ordonnancement sur l’évaluation par les pairs

34

Faites évaluer par ceux qui le veulent !3a — Effets d’ordonnancement sur l’évaluation par les pairs

35

Les gardiens de l’évaluation par les pairs : gatekeepers

(Braun, 2009)

Cabanac, G. (2012). Shaping the landscape of research in information systems from the perspective of editorial boards:A scientometric study of 77 leading journals. JASIST, 63, 5, 977–996.

3b — Panorama de la recherche en systèmes d’information

36

77 revues « cœur » en IS selon une autorité : le WoS3b — Panorama de la recherche en systèmes d’information

37

Analyse exploratoire des données recueillies 77 revues 2 846 gatekeepers

3b — Panorama de la recherche en systèmes d’information

38

3b — Panorama de la recherche en systèmes d’information

Analyse exploratoire des données recueillies

39

Graphe thématique des 77 revues référencées en SI3b — Panorama de la recherche en systèmes d’information

40

Influence, pouvoir, verrouillage...

(198

4)

3b — Panorama de la recherche en systèmes d’information

41

Un siège à la table des négociations ?3b — Panorama de la recherche en systèmes d’information

42

(Manque de) Diversité géographique et de genre3b — Panorama de la recherche en systèmes d’information

43

La matière première

1. Notice bibliographique

2. Plein texte

3. Site web d’une maison d’édition

4. Plateforme de partagea. Marché noir de l’édition scientifique

5. Bibliographie institutionnelle

Questionner le texte scientifique pour caractériser la science et l’innovation

Prospection sur textes scientifiques

Émergence de l’Open Access gris/clandestin

44

Domaines Science de l’information Sociologie des sciences

Contexte : (non)-accès à l’IST 8 millions de chercheurs + des amateurs (sciences participatives) + grand public 114 millions de documents scientifiques en ligne

mais seulement 24 % accessibles librement

Défi : dévoiler rouages et contenu des bibliothèques clandestines Library Genesis (23M d’articles, 1M d’ouvrages), Sci-Hub, #icanhazpdf, /r/scholar

Contribution : article JASIST accepté en octobre 2014 Alimentation : biblioleaks + crowdsourcing Contenu : distribution des éditeurs, disciplines, langues…

@ric

kypo

Cabanac, G. (2016). Bibliogifts in LibGen? A study of a text-sharing platform driven by biblioleaks and crowdsourcing. Journal of the Association for Information Science and Technology, 67, 4, 874–884.

4a — Le marché noir de l’édition scientifique

Étudier l’Open Access clandestin : les enjeux

45

4a — Le marché noir de l’édition scientifique

46

La matière première

1. Notice bibliographique

2. Plein texte

3. Site web d’une maison d’édition

4. Plateforme de partage

5. Bibliographie institutionnellea. Collaborations et thématiques d’un laboratoire

Questionner le texte scientifique pour caractériser la science et l’innovation

Prospection sur textes scientifiques

Que fait ce labo multi-site de 686 personnes ?

47

5a — Collaborations et thématiques d’un laboratoire

Que fait ce labo de 686 personnes ?

48

http://www.irit.fr/IMG/pdf/ORGANIGRAMME_IRIT_RECHERCHE_MAI_2015.pdf

5a — Collaborations et thématiques d’un laboratoire

Que fait ce labo de 686 personnes ?

49

https://websecu.irit.fr/IMG/pdf/Rapport_Web_HCERES_IRIT.pdf

5a — Collaborations et thématiques d’un laboratoire

Des données publiques…

50

5a — Collaborations et thématiques d’un laboratoire

Analyse scientométrique

Contexte : l’évaluation de l’IRIT (octobre 2014)

Question : qu’apprend-t-on de l’analyse des publications ? Source : le site web de l’IRIT (données publiques)

ex : http://dbweb.irit.fr/publi/recherche.list_crit_avance?theme=0&crit1=2&op1=5&texte1=2009&crit2=2&op2=6&texte2=2014&typpub=5

Critères d’échantillonage Revues et conférences à comité de lecture (RICL, RNCL, CICL et CNCL) Année ≥ 2009 (certaines publications étaient à paraître) Auteurs listés parmi les « membres permanents » des équipes

Statistiques 260 auteurs 3 860 publications dont 82 % en international

Avertissement : étude exploratoire à consolider.

51

5a — Collaborations et thématiques d’un laboratoire

Méthodo : les collaborations inter-thèmes Graphe des collaborations

Un sommet = un membre de l’IRIT Couleur : son thème IRIT Taille : nombre de publications normalisé

S 1/N Modélise un « effort » : effort d’écrire à 2 > effort d’écrire à 10

(en supposant une répartition uniforme du travail)

Une arrête = une collaboration Couleur : mélange des couleurs des sommets reliés Taille : nombre de coauteurs par co-publication normalisé

S 1 / ((N × (N – 1)) / 2) Modélise la force du lien interpersonnel : collaborer à 2 > collaborer à 10

52

5a — Collaborations et thématiques d’un laboratoire

53

T2

T1

T3

T4

T5

T7

T6

Preuve de concept : IRIT

Données :

• 2009-2014

• RICL, RNCL, CICL, CNCL

• 260 auteurs

• 3 860 articles (82 % internat.)

Interprétation :

• Collaboration inter-thèmes

• Force des liens faibles

Attention :

• Variabilité des pratiques de publication selon les domaines : fréquence, travail ± collaboratif…

Réalisé avec Gephi

Caractérisation des collaborations inter-thème5a — Collaborations et thématiques d’un laboratoire

Méthodo : les thématiques Analyse lexicométrique

Un titre de publication = un document Focus sur les RICL et CICL pour ne pas mélanger les langues Élimination des mots non discriminants (stop-list + manuelle)

Deux résultats Classification en 7 classes (paramètres fixé) avec la méthode Reinert Extraction des mots-clés

54

5a — Collaborations et thématiques d’un laboratoire

55Réalisé avec Iramuteq

Caractérisation des thématiques 1/2

5a — Collaborations et thématiques d’un laboratoire

56

Interprétation :

• 4 objets principaux

• Des pétales à explorer

NB : le nombre de mots représentés peut être paramétré pour ajuster le niveau de détail.

Réalisé avec Iramuteq

Caractérisation des thématiques 2/2

5a — Collaborations et thématiques d’un laboratoire

57

Conclusion et perspectives générales

Reconnaître les structures d’opportunités

Question de recherche : - captivante - originale / inattendue - importante

Revue de la littérature : - interdisciplinaire - sur le temps long

Données et méthodes : - données originales en libre accès, de préférence - méthode mixte : quanti + quali

Merci

http://www.irit.fr/~Guillaume.Cabanac

@gcabanac