Author
pierres-grenier
View
107
Download
0
Embed Size (px)
Janvier 2006 2
De quoi parle-t-on ?
Mettre à disposition librement toute la littérature scientifique En texte intégral (Notices bibliographiques )
Type de littérature Publications dans des revues avec ou sans comité de lecture Actes de congrès, séminaires, … Livres, chapitres de livre, ouvrages, … Brevets Thèses, mémoires Etc.
Avec les documents multi médias associés le cas échéant
Janvier 2006 3
Phrases clés, mots clés
Libre accès aux résultats de la recherche Gratuité Accessibilité
Publications électroniques E-print (preprint + postprint)
Communication scientifique directe (CSD) Un circuit court entre les chercheurs pour faire connaître leur résultats (et
prendre date pour leur recherche)
Auto archivage Les chercheurs déposent eux-mêmes leurs articles sur des bases
ouvertes
Interopérabilité On met en œuvre des moyens pour « tenter » l’interconnexion des bases
d’articles scientifiques
Janvier 2006 4
Définition de l’archive ouverte
Libre accès pour le dépôt Identification « légère » du contributeur Niveau scientifique requis, mais pas d’évaluation Document sous forme numérique dans un format accessible
Libre accès pour la consultation Depuis Internet, sans aucune restriction
Pré-publications Ensemble des versions de l’article dont la dernière est habituellement celle
acceptée par la revue Éventuellement article non soumis pour publication
Post-publication Pré-publication à laquelle on a ajouté les références de publication Publication dans la forme ultime soumise et acceptée par la revue
Janvier 2006 5
Les souhaits du chercheur
Communiquer rapidement son travail scientifique, prendre date pour ses travaux
Avoir accès immédiatement à toute l’actualité scientifique depuis un seul portail
Bénéficier d’alertes automatiques dans les domaines scientifiques de son choix
Pouvoir se constituer des collections scientifiques personnalisées
Conserver les journaux traditionnels et l’évaluation par les pairs
Au passage, se simplifier les tâches administratives: listes de publications, rapports d’activité, candidatures à des postes, etc..
Un seul dépôt
Des résultats plus visibles sont des résultats plus cités
Janvier 2006 6
Les laboratoires, les établissements, souhaitent
Suivre ce qui se fait sur le plan scientifique dans leurs établissements et exposer leurs production scientifique.
Communiquer commodément aux collègues étrangers les mémoires de thèse
Eviter à des secrétariats surchargés de multiples saisies
Obtenir automatiquement des listes de publications pour les contrats quadriennaux, les rapports à un ou deux ans, etc..
Un laboratoire a souvent beaucoup d’établissements de rattachement (Université, EPST, grande école, etc.)
Janvier 2006 7
Les archives ouvertes pour l’institution
La réussite de l’archive passe par un compromis satisfaisant à la fois les chercheurs mais aussi les institutions
Une archive ne devrait pas être spécifiquement institutionnelle, mais ... L’incitation au dépôt doit être institutionnelle Les méta données recueillies sont suffisantes pour ...
Disposer d’une vue institutionnelle Mesurer la production Aider à l’évaluation des chercheurs Etc.
L’archive reste ouverte A tous les chercheurs quelque soit leur pays ou leur institution
L’archive reste un instrument scientifique
Janvier 2006 8
Types d’archive
Si, lors d’un dépôt ou ultérieurement, on collecte Un classement thématique de l’article déposé Des informations spécifiques
Appartenance à un congrès, une revue électronique, etc. Une information exhaustive sur les auteurs
Affiliations (établissement, université, école, laboratoire, équipe,…)
Alors l’archive ouverte pourra proposer des vues Thématiques ou disciplinaires Des collections de journaux, d’actes de congrès, Institutionnelles à différents niveaux
Travaux de l’équipe xxx Publications de l’université yyy ou de l’établissement zzz
Janvier 2006 9
Recueillir des publications et leurs méta données
L’acteur principal du système est le chercheur Il détient la version électronique de sa publication Il est le seul à pouvoir donner un certain nombre d’informations sur sa
publication Résumé, mots clés, classification, …
Le chercheur N’est pas motivé pour remplir de fastidieux formulaires de méta données
Le choix de méta données restera donc le plus concis possible et le maximum d’informations sera issu de listes d’autorités
Reste à convaincre de l’opportunité de déposer dans une archive ouverte
Les professionnels de la documentation Doivent accompagner le chercheur dans cette démarche Aider au dépôt et au besoin intervenir sur les méta données Etre soutenus par l’institution, le laboratoire, …
Janvier 2006 10
Les devoirs de l’institution
Si l’institution met en place une archive, elle doit veiller A ce que le dépôt d’articles, assorti des références bibliographiques, ne
soit demandé qu’une seule fois au chercheur Tout document administratif nécessitant un liste de publication
s’alimentera automatiquement dans cette archive La demande de dépôt doit apparaître essentiellement comme un acte
scientifique Le chercheur doit ressentir l’archive comme un moyen d’accès aux
travaux de ses collègues
L’institution doit se préoccuper De l’archivage à long terme des documents qui lui sont confiés De la disponibilité de l’archive et de sa sécurité De l’indépendance de l’opérateur vis-à-vis des déposants
Horodatage, validation, qualité des dépôts
Janvier 2006 11
ArXiv, le modèle depuis plus de 10 ans
Initiative de Paul Ginsparg à Los Alamos (xxx) 4 000 manuscrits déposés par mois 500 000 manuscrits déposés à ce jour 300 000 consultations journalières Des sites miroirs dans le monde entier
Australie, Brésil, Chine, Allemagne, Inde, IsraëlItalie, Japon, Russie, Afrique du Sud, FranceCorée du Sud, Espagne, Taiwan, Angleterre,…
Janvier 2006 12
Les missions du CCSD
Une initiative pour des archives scientifiques ouvertes
Une approche internationale : Ne pas construire une archive nationale, mais s’intégrer dans le
mouvement « open archives »
Une approche essentiellement « chercheur » Des archives alimentées directement par les chercheurs avec, comme
vocation première, la réalisation d’un outil scientifique offrant l’accès au document intégral
Un outil administratif indirect grâce à la collecte « au passage » de méta données suffisantes
Une mission d’archivage à long terme
Un accord cadre est en cours de finalisation entre les EPST françaises (INRIA, INSERM, INRA, IRD, etc. et la CPU, la CGE
Janvier 2006 13
Sur une plate-forme unique …URL’S HAL
http://hal.ccsd.cnrs.fr http://tel.ccsd.cnrs.fr http://halshs.ccsd.cnrs.fr http://democrite.in2p3.fr http://archive-edutice.ccsd.cnrs.fr http://hal.inria.fr/ http://hal-inserm.ccsd.cnrs.fr/ http://artxiker.ccsd.cnrs.fr/ http://etol.ccsd.cnrs.fr http://cel.ccsd.cnrs.fr http://nicod.in2p3.fr/ http://asic.ccsd.cnrs.fr/ http://hal-ens-lyon.ccsd.cnrs.fr/ Etc.
Janvier 2006 14
L’archive ouverte HALStatistiques 2005
Janvier 2006 15
Répartition par domaines scientifiques des dépôts avec texte intégral en 2005
Janvier 2006 16
Nombre de dépôts en texte intégral sur l’ensemble de l’archive
0
200
400
600
800
1000
1200
janv-0
1
mar
s-01
mai-
01
juil-0
1
sept
-01
nov-0
1
janv-0
2
mar
s-02
mai-
02
juil-0
2
sept
-02
nov-0
2
janv-0
3
mar
s-03
mai-
03
juil-0
3
sept
-03
nov-0
3
janv-0
4
mar
s-04
mai-
04
juil-0
4
sept
-04
nov-0
4
janv-0
5
mar
s-05
mai-
05
juil-0
5
sept
-05
nov-0
5
Janvier 2006 17
Nombre de dépôts en texte intégral sur HAL-SHS
0
20
40
60
80
100
120
140
160
180
200
sept
-03
oct-0
3
nov-0
3
déc-0
3
janv-
04
févr
-04
mar
s-04
avr-0
4
mai-
04
juin-
04
juil-0
4
août-
04
sept
-04
oct-0
4
nov-0
4
déc-0
4
janv-
05
févr
-05
mar
s-05
avr-0
5
mai-
05
juin-
05
juil-0
5
août-
05
sept
-05
oct-0
5
nov-0
5
déc-0
5
Janvier 2006 18
Nombre de dépôts en texte intégral sur Dé[email protected] (IN2P3)
0
10
20
30
40
50
60
70
80
mar
s-01
mai-
01
juil-0
1
sept
-01
nov-0
1
janv-
02
mar
s-02
mai-
02
juil-0
2
sept
-02
nov-0
2
janv-
03
mar
s-03
mai-
03
juil-0
3
sept
-03
nov-0
3
janv-
04
mar
s-04
mai-
04
juil-0
4
sept
-04
nov-0
4
janv-
05
mar
s-05
mai-
05
juil-0
5
sept
-05
nov-0
5
Une partie des données provient de l’ancienne application Démocrite
Janvier 2006 19
Nombre de dépôts en texte intégral sur le serveur de thèses en lignes TEL.
0
50
100
150
200
250
300
350
400
juil-0
1
sept
-01
nov-0
1
janv-
02
mar
s-02
mai-
02
juil-0
2
sept
-02
nov-0
2
janv-
03
mar
s-03
mai-
03
juil-0
3
sept
-03
nov-0
3
janv-
04
mar
s-04
mai-
04
juil-0
4
sept
-04
nov-0
4
janv-
05
mar
s-05
mai-
05
juil-0
5
sept
-05
nov-0
5
Janvier 2006 20
Nombre de dépôts en texte intégral surl’archive Edutice
0
50
100
150
200
250
300
350
juin-
03
juil-0
3
août-
03
sept
-03
oct-0
3
nov-0
3
déc-0
3
janv-
04
févr
-04
mar
s-04
avr-0
4
mai-
04
juin-
04
juil-0
4
août-
04
sept
-04
oct-0
4
nov-0
4
déc-0
4
janv-
05
févr
-05
mar
s-05
avr-0
5
mai-
05
juin-
05
juil-0
5
août-
05
sept
-05
oct-0
5
nov-0
5
Janvier 2006 21
Dépôts en texte intégral sur HAL-INRIA
0
50
100
150
200
250
avr-05 mai-05 juin-05 juil-05 août-05 sept-05 oct-05 nov-05 déc-05
Janvier 2006 22
Ensemble des dépôts, texte intégral et notices sur l’ensemble de l’archive
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
Janvier 2006 24
Structure de HAL
Janvier 2006 25
Les objectifs recherchés 1
Archive multidisciplinaire orientée « texte intégral » Une seule base de données pour l’ensemble des disciplines Dépôt du texte intégral mais aussi de notices et de rétro dépôts
Orientée « chercheurs » Autoarchivage, mais possibilité d’enrichissement des méta données par des
professionnels
Centralisée mais …
… Multi interfaces Préservation de l’identité Méta données « variables » au-delà de la DTD minimum Environnements de dépôt et de consultation personnalisés Tampons
Internationale Interconnectée avec les autres systèmes de références
ArXiv en physique / mathématiques / informatique / biologie / … PubMed Central en médecine et biologie (2006)
Janvier 2006 26
Les objectifs recherchés 2
Mesurabilité de la production scientifique Des laboratoires, des institutions et plus globalement, de toutes les tutelles À disposition des déposants mais aussi des institutions
Génération des listes de publications dans tous formats (XML, TeX, DOC/RTF, PDF, …)
Transferts vers les bases « administratives » Alimentation de CRAC (fiche chercheur CNRS) Alimentation de Labintel publications
Pérennité Archivage à long terme Stabilité des URLs
Janvier 2006 27
Texte intégralTexte intégral
Noticebibliographique
Noticebibliographique
PubMed Central(2006)
PubMed Central(2006)
ArXivArXiv
OAI
HALHALIN2P3IN2P3 SHS/TICESHS/TICE
AUTRESAUTRESINRAINRA
INRIAINRIA
Méta données obligatoires
Méta données spécifiques
Méta données spécifiques
haLEXPORTSIMPORTS
Janvier 2006 28
OAI
HALHALIN2P3IN2P3 SHS/TICESHS/TICE
AUTRESAUTRESINRAINRA
INRIAINRIA
?
? ? ?
Réponse
haLEXPORTSIMPORTS
Janvier 2006 29
OAI
Méta donnéesMéta données
HALHALIN2P3IN2P3 SHS/TICESHS/TICE
AUTRESAUTRESINRAINRA
INRIAINRIA
?
RéponseIN2P3
haLEXPORTSIMPORTS
Janvier 2006 30
Texte intégralTexte intégral
Noticebibliographique
Noticebibliographique
OAI
HALHALIN2P3IN2P3 TICETICE
AUTRESAUTRESINRAINRA
INRIAINRIATELTEL
2005
haLEXPORTSIMPORTS
PubMed Central(2006)
PubMed Central(2006)
ArXivArXiv
Janvier 2006 31
Dépôt
Simplification 4 étapes
1. Méta données2. Auteurs, laboratoires, tutelles et association3. [téléchargement du document]4. Récapitulation contrôle, dépôt Retour en arrière possible
2
auteursmétadonnées récapitulationfichiers
Janvier 2006 32
Dépôt
Choix des étapes L’ordre des étapes peut être paramétré au niveau d’une interface particulière
Par exemple, on peut décider de commencer par le téléchargement du fichier, afin d’en extraire automatiquement … …La liste d’auteurs …Le résumé …Les références bibliographiques …Etc.
Ces possibles automatismes dépendent fortement du niveau de structuration du document source, (donc de la discipline ?)
ExtractionautomatiqueExtraction
automatique
auteursfichiers récapitulationméta données