Folksonomies scientifiques : une étude exploratoire comparative
Dominique Besagni, Cecilia Fabry, Claire François, Clotilde Roussel
INIST / CNRSEvelyne Broudoux
UVSQ, DICEN
22
Objectifs généraux de l’étude
De quoi se composent les folksonomies scientifiques ?
Une question : que révèlent les usages ?
– Activité réelle des usagers dans et hors les groupes ?– Représentativité des domaines scientifiques ?
Méthodologie
– Une entrée par les groupes – Une entrée par les tags
33
Objectifs spécifiques de l’étude
Quels groupes utilisent quels tags pour quels articles ?
Informations sur les groupes • Membres• Tags utilisés• Articles et/ou références répertoriés dans les bibliothèques des groupes• Dates (utilisateur et/ou article)
Analyses • Dynamique des groupes
– Taille, âge des groupes, dernière arrivée d’un membre• Activité des groupes
– Taille des bibliothèques, dernier article ajouté,– Tags associés aux articles
• Analyse de contenu– Réseau de partage des tags par les groupes
44
Protocole opératoire
Récupération des données à partir de pages HTML :– Scripts Perl– Module WWW::Mechanize qui peut :
• décharger les pages HTML,• suivre les liens,• remplir les formulaires,• cliquer sur les boutons,• gérer les cookies,• mais ne peut pas interpréter JavaScript (exemple 2Collab) !• (existe pour la plupart des langages : java, python, ruby, php ...)
– Module WWW::RobotRules :• respect des consignes du serveur
55
Protocole opératoire
Récupération des données à partir d’une API :– Sur certains sites comme Bibsonomy– Scripts Perl– Module WWW
• requête simple,• syntaxe dépendante du site,• résultat sous forme de fichiers XML,
– Module XML::TokeParser
66
CiteULike
77
Recherche des groupesURL : http://www.citeulike.org/groups/browse
88
Recherche sur un groupe (1)URL : http://www.citeulike.org/group/22
99
Recherche sur un groupe (2)URL : http://www.citeulike.org/group/22
1010
Recherche sur un groupe (3)URL : http://www.citeulike.org/groupfunc/22/members
1111
Recherche sur un groupe (4)URL : http://www.citeulike.org/group/22/article/1073937
1212
Résultats
Effectifs et dynamique des groupes
Activité des groupes
Tags utilisés par l’ensemble des groupes
Réseau d’un sous-ensemble :– 17 groupes partageant le tag « deforestation »
1313
CiteUlike : Effectifs des 2871 groupes
1
10
100
1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401 1501 1601 1701 1801 1901 2001 2101 2201 2301 2401 2501 2601 2701 2801
Utilisateurs
0
20
40
60
80
100
120
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Utilisateurs
1434 groupes d’un seul membre
Max 99 membres
1414
Dynamique des groupes
2009
2008
2007
2006
2005
dernier membre ajouté
Année de création
2009
2004
2005
2006
2007
2008
21%
9%
15%
17%
37% 6%
11%
14%
31%
38%
1515
Le groupe contenant le + d’inscrits
Bioinformatics
Groupe libre99 membresCrée le 10/10/2007Dernier membre ajouté le 06/08/20093 769 articlesDernier article ajouté le 18/09/2009Description :Analysis and modelling of molecular biology data
1616
Activité des groupes
1
10
100
1000
10000
100000
1 100 199 298 397 496 595 694 793 892 991 109 1189 128 1387 148 1585 168 1783 188 1981 208 2179 227 2377 247 2575 267 2773
236 groupes avec un seul article
524 groupes sans articles
Max 27 741 articlesarticles
0
5000
10000
15000
20000
25000
30000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1717
Activité des groupes
2009
2008
20072006
2005
dernier article ajouté
33%
18%
3%
7%
15%
23%
dernier membre ajouté
2009
2008
2007
2006
20056%
11%
14%
31%
38%
1818
Le groupe contenant le + d’articles
C. elegans /WormBase
Groupe libre2 membres
Crée le 02/08/2008
Dernier membre ajouté le 17/09/200827 741 articles
Dernier article ajouté le 14/09/2009 Description :Articles of note for the nematode research community in general and the C.
elegans community in particular.
Le plus gros groupe n’est géré que par 2
utilisateurs.Il est actif depuis plus d’un an et est mis à
jour très régulièrement
1919
1
0
50
100
150
200
250
300
350
400
450
0 1 2 3 4 5 6 11 8 25 10
1
Groupes
ARTICLES
Utilisateurs
1
0
50
100
150
200
250
300
350
400
450
0 1 2 3 4 5 6 11 8 25 10
1
Groupes
ARTICLES
Utilisateurs
Les groupes de 1 membre
Plus de 350 groupes d’un seul membre ne
contenant pas d’article
TESTS ????
Nb articles
Nb groupes
2020
Répartition du nombre d'utilisateurs pour les groupes sans article
0
50
100
150
200
250
300
350
400
450
1 2 3 4 5 6 7 8 11 12 14 (vide)
0
Nombre de groupes
Utilisateurs
ARTICLES
Répartition du nombre d'utilisateurs pour les groupes sans article
0
50
100
150
200
250
300
350
400
450
1 2 3 4 5 6 7 8 11 12 14 (vide)
0
Nombre de groupes
Utilisateurs
ARTICLES
Les groupes sans article
Un groupe de 14 membres sans
articles
Nb membres
Nb groupes
2121
Répartition du nombre d'utilisateurs pour les groupes avec 1 seul article
0
20
40
60
80
100
120
140
160
180
1 2 3 4 5 6 7 11
1
Nombre de groupe
Utilisateurs
ARTICLES
Répartition du nombre d'utilisateurs pour les groupes avec 1 seul article
0
20
40
60
80
100
120
140
160
180
1 2 3 4 5 6 7 11
1
Nombre de groupe
Utilisateurs
ARTICLES
Les groupes avec 1 seul article
150 groupes constitués d’un seul membre ont un seul
articleTESTS ????
Nb membres
Nb groupes
2222
Tags de l’ensemble des groupes
• 68 522 tags
• 26 668 tags de fréquence 1
• 43 820 tags dans un seul groupe
0500
100015002000250030003500400045005000550060006500700075008000850090009500
10000
1 24 47 70 93 116 139 162 185 208 231 254 277 300 323 346 369 392 415 438 461 484 507 530 553 576 599 622 645
Répartition des tags par fréquence
Nb. tags Nb. occurrences
26 668 1
10 654 2
5 149 3
4 002 4
2 295 5
2 022 6
1 281 7
2 186 8
941 9
929 10
… …
1 27 743
1 27 756
1 27 759
1 27 803
1 47 178
2323
Les tags les plus fréquentsTAG FREQUENCE
NB GROUPE
bibtex-import 47178 240
c_elegans 27803 16
nematode 27759 17
elegans 27756 11
c-elegans 27743 7
caenorhabditis_elegans 27735 1
wormbase 27735 1
meeting_abstract 13694 1
article 7909 28
mdb 6717 2
review 5514 363
ewd-bib 5048 4
model 3952 316
learning 3562 292
Le vocabulaire du plus gros groupe en terme d’article (27741) se retrouve dans ce
classement (C. elegans /WormBase )
2424
Répartition des tags par groupeNb. tags Nb. groupes
43820 1
9780 2
3562 3
2330 4
1459 5
943 6
612 7
1661 8
591 9
466 10
… …
1 289
1 292
1 316
1 346
1 363
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169
Répartition des tags par groupe
1
10
100
1000
10000
100000
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169
Répartition des tags par groupe
2525
Les tags partagés par les groupes
TAG FREQUENCE NB GROUPE
review 5514 363network 3236 346model 3952 316learning 3562 292design 2617 289theory 2295 278social 2009 275system 1552 261information 1241 242bibtex-import 47178 240analysis 1473 231web 1057 221software 1733 220
2626
Le réseau « deforestation »
2727
Le réseau « deforestation »
2828
Tags :1860 bibtex-import1861 Species1862 Habitat1863 Spatial1864 Control1865 Management1866 Biodiversity1867 Conservation1868 Population1869 Diversity1870 Biological1871 Litchi1872 Mode1873 Plant45 landscape
Entomologytaxonomy, ecology, conservation, evolution,
physiology, genetics10 utilisateurs,1862 articles,Créé en 2007, dernier utilisateur en 09/2009dernier article en 06/2007 2938 tags
Botanytaxonomy, evolution, physiology, ecology,
genetics11 utilisateurs,1862 articles,Créé en 2007, dernier utilisateur en 08/2009dernier article en 06/2007 2938 tags
EarthEnvironmentalSciencesMajor researches on various environmental,
ecological, socio-economic, geographical, biodiversity issues. From earth climate change to minute soil pores studies. From microbiotic crusts to Amazon forest study. From polar ice caps to Sahara desert.
12 utilisateurs,1862 articles,Créé en 2008, dernier utilisateur en 08/2009dernier article en 06/2007 2938 tags
Une bibliothèque pour 3 groupes
29
Bibsonomy
29
3030
Recherche des groupes
31
Recherche sur un groupe (1)BIBLIOTHEK 2.0
Séparation url (bookmarks) et publications (notices)
320 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 500
10
20
30
40
50
60
70
80
90
nb de groupes
Effectifs des 169 groupes
85 groupes de zéro membre ????????
Max 47 membres pour le plus grand
groupe
Particularités de ce logiciel le 1er membre donne son nom au groupe et n’est pas compté
33
Dernier article ajouté
20062%
20077%
200811%
200930%
201050%
20050%
2005
2006
2007
2008
2009
2010
Dynamique des groupes
dernier article ajouté
Année de créationcreation
20059%
200617%
200724%
200829%
200917%
20104%
2005
2006
2007
2008
2009
2010
50% des groupes sont mis à jour depuis janvier 2010
34
Les tags les plus
fréquents
# Intitulé Nb.d'occurrences
imported 18207
web 6578
learning 6369
tool 6091
folksonomy 5307
semantic 4526
social 4500
web-2.0 4368
software 4011
tagging 3823
design 3806
ontology 3771
analysis 3604
my-own 3264
network 3103
search 3018
blog 2910
education 2868
clustering 2607
conference 2602
to-read 2572
fca 2519
TAG automatique
35
Connotea
36
Connotea
37
Groupes
Répartition du type d'accès
24%
76%
Ouvert
Privé
38
2collab
38
39
2collab
39
Type de groupe
15%
26%
59%
1 membre, 0 signet1 membre, 1 signetAutres
4040
Conclusion - Perspectives
Premières analyses exploratoires– Analyse guidée par les groupes et les tags– Réseaux de groupe par tags partagés
Profils des groupes– Une activité différenciée dans les groupes
• Des testeurs en nombre (groupes de 1 personne)• Des petits groupes très actifs (2 personnes)• Des groupes qui continuent de croître sans activité de tagging
– Des longues traines de tags
4141
Conclusion - Perspectives
Les domaines représentés– Les groupes représentant les domaines
Reste à évaluer– Le poids de l’activité des individus hors groupes– Le poids des références importées des autres serveurs
(recoupements)