Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
OUTIL D'ÉVALUATION DE L'USAGE DES RESSOURCES numériques
http://ezpaarse.couperin.orghttp://analogist.couperin.org
JRES - Montpellier - 12/12/2013
● Dominique Lechaudel<[email protected]>
● Stéphane Gully<[email protected]>
Qui sommes nous ?
JRES - Montpellier - 12/12/2013
● Historique
● Démarche projet
● Présentation d’ezPAARSE/AnalogIST
● Coeur d’ezPAARSE : les parseurs
● Exploitation des résultats
● Écosystème d’ezPAARSE
Plan
JRES - Montpellier - 12/12/2013
Rappel du besoin
● Cf : Quantifier les accès à la documentation numérique payante : un panorama des enjeux
(Monique Joly, Grégory Colcanap, Thomas Porquet)
JRES - Montpellier - 12/12/2013
● Historique
● Démarche projet
● Présentation d’ezPAARSE/AnalogIST
● Coeur d’ezPAARSE : les parseurs
● Exploitation des résultats
● Écosystème d’ezPAARSE
Plan
JRES - Montpellier - 12/12/2013
Portails INIST
JRES - Montpellier - 12/12/2013
ÉditeurChercheur
Des revueslui sont présentées.
Portails INIST
JRES - Montpellier - 12/12/2013
Fonctionnement d'EZProxy
Client EZproxy
HTTP HTTP
HTML*PDF
Éditeur
Réécrituretransparente des URL HTML
JRES - Montpellier - 12/12/2013
● Les indicateurs produits à partir de NUM_STAT font envie à tous les gestionnaires de ressources électroniques lors des communications
● La solution statistiques locales est viable● Il n'existe pas de logiciel qui réponde complètement à ce besoin● La maintenance de l'applicatif au niveau INIST-CNRS est très lourde :
souvent dans le rouge
Constats
NUM_STAT (2009-2012)
JRES - Montpellier - 12/12/2013
Démarche projet
● Historique
● Démarche projet
● Présentation d’ezpaarse/analogist
● Coeur d’ezPAARSE : les parseurs
● Exploitation des résultats
● Écosystème d’ezPAARSE
JRES - Montpellier - 12/12/2013
Initiation du projet ezPAARSE / AnalogISTVision du produit
"ezPAARSE permet l’analyse, l’enrichissement et l’exploitation des logs d’accès collectés localement aux ressources électroniques proposées par les plate-formes Web des éditeurs.
Les utilisateurs d’ezPAARSE sont les services de documentation de l’enseignement supérieur et de la recherche (ESR). Les premiers utilisateurs seront l’INIST-CNRS et la direction de la documentation et de l'édition de l’Université de Lorraine en partenariat avec COUPERIN.
ezPAARSE répond aux besoins suivants : ...."
Liste des fonctionnalitésProduct Backlog d'ezPAARSE (EPIC)
1. Instance nationale publique ezPAARSE2. Organisation fonctionnelle du réseau ezPAARSE3. Instance locale ezPAARSE4. Recommandations COUNTER5. Interopérabilité avec MESURE6. Reconnaissance du format de la ligne de log ....
PrioriséesEstimées
Mai 2012
JRES - Montpellier - 12/12/2013
L’équipe projet
JRES - Montpellier - 12/12/2013
La méthode agile de développement
SCRUM
4
A
B
C
D
JRES - Montpellier - 12/12/2013
Les versions 0.x d'ezPAARSE
En méthode agile, à chaque sprint peut correspondre une version du produit,
En voici la liste qui a conduit à la version 1.0 d’ezPAARSE :● 0.1 du 12/11/2012 au 06/12/2012 - Produit Minimum Viable● 0.2 du 10/12/2012 au 20/12/2012 - Installation générique● 0.3 du 07/01/2013 au 31/01/2013 - Extension du domaine des parseurs● 0.4 du 04/02/2013 au 21/02/2013 - Extension des cas d'usage● 0.5 du 04/03/2013 au 27/03/2013 - Utilisabilité d'ezPAARSE● 0.6 du 02/04/2013 au 18/04/2013 - Consolidation des reconnaissances de plateforme● 0.7 du 21/04/2013 au 05/06/2013 - Consolidation du coeur● 0.8 du 10/06/2013 au 27/06/2013 - Qualification des utilisateurs● 1.0 du 01/07/2013 au 08/08/2013 - Dédoublonnage COUNTER des EC
JRES - Montpellier - 12/12/2013
Les versions 1.x d'ezPAARSE
...et tout est planifiéEn voici la liste qui conduira à la version 2.0 d’ezPAARSE :
● 1.1 du 09/09/2013 au 10/10/2013 - MVP de synchronisation des PKB● 1.2 du 14/10/2013 au 14/11/2013 - Sécurisation● 1.3 du 18/11/2013 au 19/12/2013 - Multilinguisme● 1.4 du 23/12/2013 au 23/01/2014 - Export COUNTER● 1.5 du 27/01/2014 au 20/02/2014 - Intitulé à déterminer● 1.6 du 24/02/2014 au 27/03/2014 - Intitulé à déterminer● 1.7 du 31/03/2014 au 24/04/2014 - Intitulé à déterminer● 1.8 du 28/04/2014 au 22/05/2014 - Intitulé à déterminer● 1.9 du 26/05/2014 au 26/06/2014 - Intitulé à déterminer
JRES - Montpellier - 12/12/2013
Produit minimal viable
JRES - Montpellier - 12/12/2013
Version en cours
JRES - Montpellier - 12/12/2013
● Historique
● Démarche projet
● Présentation d’ezPAARSE/AnalogIST
● Coeur d’ezPAARSE : les parseurs
● Exploitation des résultats
● Écosystème d’ezPAARSE
Présentation d’ezPAARSE/AnalogIST
JRES - Montpellier - 12/12/2013
● ezPAARSE : le logiciel(ez : easy / PAARSE : Progiciel d'Analyse des Accès aux RessourceS Electroniques)
● en version locale : in situ● en version globale : SaaS
● AnalogIST : le portail collaboratif(Analyse des Logs de l'IST) national, lieu de publication des analyses de plateforme, synchronisable avec les instances locales, installées au sein des institutions intéressées.
ezPAARSE et AnalogIST
JRES - Montpellier - 12/12/2013
AnalogIST vs ezPAARSE
Univ 1
Univ 2
...
AnalogIST
instances localesinstance nationale +espace collaboratif
JRES - Montpellier - 12/12/2013
Exemple d’utilisation d’ezPAARSE
EZProxy, Bibliopam, ou
Squid ...log
Éditeurs de littérature
scientifique
1 fois / jour
Bases de connaissances
ParseursezPAARSE
outils de visualisation
EC
Évènements de consultation
accès à la ressource par un chercheur
LDAP
JRES - Montpellier - 12/12/2013
Architecture
POST sur /wsfichier log
utilisation d'un formulaire d'envoi de fichier
EC partie Web
EC partie URL
EC partie utilisateur
Évènement de Consultation (EC) complet
Référentiel utilisateurs
(LDAP)
parseurs des URL des
plateformes
URL
EC url
Login utilisateur
EC utilisateur
Évènements de
Consultations
lignes de logHTML
AP
I
Base de connaissance éditeurs
cairn.csvcairn.json
identifiant éditeur
identifiant normalisé
Filtrage des lignes non significativesJS, JPG, PNG, ...
Découpage
EC résultats fichier CSV
JRES - Montpellier - 12/12/2013
● Historique
● Démarche projet
● Présentation d’ezPAARSE/AnalogIST
● Coeur d’ezPAARSE : les parseurs
● Exploitation des résultats
● Écosystème d’ezPAARSE
Coeur d’ezPAARSE : les parseurs
JRES - Montpellier - 12/12/2013
Logs générés par EZProxy
ISSN = 0001-4575id PDF = 01
126.10.7.11 – [email protected] [13/Mar/2012:16:10:01 +0100] "GET http://sciencedirect.com HTTP/1.1" 200 1993
126.10.7.11 – [email protected] [13/Mar/2012:16:13:41 +0100] "GET http://sciencedirect.com/00014575/01.pdf HTTP/1.1" 200 465935
JRES - Montpellier - 12/12/2013
Structure d'une URL
http://pdn.sciencedirect.com/science?_ob=MiamiImageURL&_cid=271664&_user=4046427&_pii=S0001457512000747&_check=y&_origin=browse&_zone=rslt_list_item&_coverDate=2012-07-31&wchp=dGLbVlt-zSkWb&md5=f5d8d157ccda6d597cb466af123dbff3/1-s2.0-S0001457512000747-main.pdf
JRES - Montpellier - 12/12/2013
http://pdn.sciencedirect.com/science?_ob=MiamiImageURL&_cid=271664&_user=4046427&_pii=S0001457512000747&_check=y&_origin=browse&_zone=rslt_list_item&_coverDate=2012-07-31&wchp=dGLbVlt-zSkWb&md5=f5d8d157ccda6d597cb466af123dbff3/1-s2.0-S0001457512000747-main.pdf
ISSN & type du fichier consulté
Structure d'une URL
JRES - Montpellier - 12/12/2013
http://www.sciencedirect.com/science/journal/00014575
ISSNEn essayant l'URL manuellement on voit que c'est un sommaire HTML
Structure d'une URL
JRES - Montpellier - 12/12/2013
http://www.cairn.info/load_pdf.php?ID_ARTICLE=RFG_218_0009
Code éditeur ISSN
RFG 0338-4551
LMS 0027-2671...
Type PDF & ID éditeurNécessite une table de correspondance pour décoder.
Structure d'une URL
JRES - Montpellier - 12/12/2013
http://pdn.sciencedirect.com/science?_ob=MiamiImageURL&_cid=271664&_user=4046427&_pii=S0001457512000747&_check=y&_origin=browse&_zone=rslt_list_item&_coverDate=2012-07-31&wchp=dGLbVlt-zSkWb&md5=f5d8d157ccda6d597cb466af123dbff3/1-s2.0-S0001457512000747-main.pdf
/_pii=S([0-9]{0,7}[0-9X])/i
Découper l’URL
JRES - Montpellier - 12/12/2013
●Sciencedirect = une structure d'URL●Cairn = une structure d'URL ●…
●Chaque plate-forme possède sa structure d'URL●Écriture d'un parseur par plate-forme
Une structure d’URL par plate-forme
JRES - Montpellier - 12/12/2013
Exemple chez Springer :http://www.springerlink.com/content/j5q872410p510m63/fulltext.pdf
Exemple chez Cairn :http://www.cairn.info/load_pdf.php?ID_ARTICLE=RFG_218_0009
URL opaques (session, cryptages) Bases de connaissances à compléter manuellement
Limites de l’analyse des URLs
JRES - Montpellier - 12/12/2013
Code source d’un parseur
JRES - Montpellier - 12/12/2013
Une interface ou des traitements planifiés
VIA un formulaire Web En ligne de commande (cURL)
JRES - Montpellier - 12/12/2013
● Historique
● Démarche projet
● Présentation d’ezPAARSE/AnalogIST
● Coeur d’ezPAARSE : les parseurs
● Exploitation des résultats
● Écosystème d’ezPAARSE
Exploitation des résultats
JRES - Montpellier - 12/12/2013
ezPAARSE : exploitation des résultats
JRES - Montpellier - 12/12/2013
Exploitation des résultats
JRES - Montpellier - 12/12/2013
Exploitation des résultats
JRES - Montpellier - 12/12/2013
● Historique
● Démarche projet
● Présentation d’ezPAARSE/AnalogIST
● Coeur d’ezPAARSE : les parseurs
● Exploitation des résultats
● Écosystème d’ezPAARSE
Écosystème d’ezPAARSE
JRES - Montpellier - 12/12/2013
● Métiers○ Informaticiens○ Documentalistes○ Négociateurs
● Interactions○ Analyses des plateformes (D)○ Développement des parseurs (I)○ Production d’indicateurs (N)
Métiers et interactions
Comité technique ezPAARSE 21/11/2013
● Développement collaboratif multi-métiers
● Maintenance (prévisible donc doit être facilitée)
● Mutualisation (échelle internationale)
● Quelques réponses :
○ Méthode agile
○ Logiciel libre
○ Qualité logicielle (ex: architecture modulaire/parseur multi-langages)
Besoins d’organisations
JRES - Montpellier - 12/12/2013
● Logiciel libre (licence CeCILL v2) : conçue conjointement par le CEA, le
CNRS et l'INRIA, équivalent de la licence GPL en droit français
● Licence à caractère "copyleft" (liberté de modification et de redistribution)
héréditaire
● Encourage et encadre ainsi les contributions dans un objectif de
mutualisation (code et bases de connaissances).
● Partage / élargissement des partenariats
● Diffusion du code source à la communauté
Logiciel libre
JRES - Montpellier - 12/12/2013
● SGV, déploiement et intégration
● Visibilité (valorisation des dev)
● Workflow collaboratif
○ Compte organisation (droits d’accès)
○ Base de connaissance (pull request : parseur + pkb)
○ Authentification déléguée (couplage avec AnalogIST)
○ Issues (bugtracker)
GitHub
https://github.com/ezpaarse-project/
JRES - Montpellier - 12/12/2013
ezPAARSE est écrit en javascript (NodeJS)
NodeJS● Javascript côté serveur● Plate-forme polyvalente de développement d'applications réseau
“scalable”● Construit sur le V8 de Google● Mono-thread● Événementiel, I/O non-bloquant● Gestion des “stream” facilitée
Javascript (NodeJS)
JRES - Montpellier - 12/12/2013
NodeJS - Serveur web
JRES - Montpellier - 12/12/2013
Bonnes pratiques
● Règles de codage (jshint)
● TDD, + 70 tests (mocha)
● Documentation intégrée (beautiful docs)
● Intégration continue (travis-ci)
● Scrum board (pivotal tracker)
JRES - Montpellier - 12/12/2013
Tests unitaires avec Mocha
JRES - Montpellier - 12/12/2013
Documentation avec “Beautiful docs”
JRES - Montpellier - 12/12/2013
Multi-plateforme
JRES - Montpellier - 12/12/2013
En conclusion, pourquoi les JRES ?
● ezPAARSE c’est un logiciel libre● Facile à installer et à tester (multi-plateforme)● Utilisant des technologies innovantes
● Enjeux autour des ressources numériques● Acquisitions par les bibliothèques● Connaissance des usages au niveau ESR
● Nous avons besoin de vous ! (le réseau)● Les documentalistes ont besoin des logs (admin sys)● Les contributions sont facilitées et attendues
JRES - Montpellier - 12/12/2013
ezPAARSE
http://ezpaarse.couperin.orghttp://analogist.couperin.org
Des Questions ?
https://twitter.com/ezpaarse