OUTIL D ÉVALUATION DE L USAGE DES RESSOURCES ...JRES - Montpellier - 12/12/2013 Les versions 0.x...

Preview:

Citation preview

OUTIL D'ÉVALUATION DE L'USAGE DES RESSOURCES numériques

http://ezpaarse.couperin.orghttp://analogist.couperin.org

JRES - Montpellier - 12/12/2013

● Dominique Lechaudel<dominique.lechaudel@inist.fr>

● Stéphane Gully<stephane.gully@inist.fr>

Qui sommes nous ?

JRES - Montpellier - 12/12/2013

● Historique

● Démarche projet

● Présentation d’ezPAARSE/AnalogIST

● Coeur d’ezPAARSE : les parseurs

● Exploitation des résultats

● Écosystème d’ezPAARSE

Plan

JRES - Montpellier - 12/12/2013

Rappel du besoin

● Cf : Quantifier les accès à la documentation numérique payante : un panorama des enjeux

(Monique Joly, Grégory Colcanap, Thomas Porquet)

JRES - Montpellier - 12/12/2013

● Historique

● Démarche projet

● Présentation d’ezPAARSE/AnalogIST

● Coeur d’ezPAARSE : les parseurs

● Exploitation des résultats

● Écosystème d’ezPAARSE

Plan

JRES - Montpellier - 12/12/2013

Portails INIST

JRES - Montpellier - 12/12/2013

ÉditeurChercheur

Des revueslui sont présentées.

Portails INIST

JRES - Montpellier - 12/12/2013

Fonctionnement d'EZProxy

Client EZproxy

HTTP HTTP

HTML*PDF

Éditeur

Réécrituretransparente des URL HTML

PDF

JRES - Montpellier - 12/12/2013

● Les indicateurs produits à partir de NUM_STAT font envie à tous les gestionnaires de ressources électroniques lors des communications

● La solution statistiques locales est viable● Il n'existe pas de logiciel qui réponde complètement à ce besoin● La maintenance de l'applicatif au niveau INIST-CNRS est très lourde :

souvent dans le rouge

Constats

NUM_STAT (2009-2012)

JRES - Montpellier - 12/12/2013

Démarche projet

● Historique

● Démarche projet

● Présentation d’ezpaarse/analogist

● Coeur d’ezPAARSE : les parseurs

● Exploitation des résultats

● Écosystème d’ezPAARSE

JRES - Montpellier - 12/12/2013

Initiation du projet ezPAARSE / AnalogISTVision du produit

"ezPAARSE permet l’analyse, l’enrichissement et l’exploitation des logs d’accès collectés localement aux ressources électroniques proposées par les plate-formes Web des éditeurs.

Les utilisateurs d’ezPAARSE sont les services de documentation de l’enseignement supérieur et de la recherche (ESR). Les premiers utilisateurs seront l’INIST-CNRS et la direction de la documentation et de l'édition de l’Université de Lorraine en partenariat avec COUPERIN.

ezPAARSE répond aux besoins suivants : ...."

Liste des fonctionnalitésProduct Backlog d'ezPAARSE (EPIC)

1. Instance nationale publique ezPAARSE2. Organisation fonctionnelle du réseau ezPAARSE3. Instance locale ezPAARSE4. Recommandations COUNTER5. Interopérabilité avec MESURE6. Reconnaissance du format de la ligne de log ....

PrioriséesEstimées

Mai 2012

JRES - Montpellier - 12/12/2013

L’équipe projet

JRES - Montpellier - 12/12/2013

La méthode agile de développement

SCRUM

4

A

B

C

D

JRES - Montpellier - 12/12/2013

Les versions 0.x d'ezPAARSE

En méthode agile, à chaque sprint peut correspondre une version du produit,

En voici la liste qui a conduit à la version 1.0 d’ezPAARSE :● 0.1 du 12/11/2012 au 06/12/2012 - Produit Minimum Viable● 0.2 du 10/12/2012 au 20/12/2012 - Installation générique● 0.3 du 07/01/2013 au 31/01/2013 - Extension du domaine des parseurs● 0.4 du 04/02/2013 au 21/02/2013 - Extension des cas d'usage● 0.5 du 04/03/2013 au 27/03/2013 - Utilisabilité d'ezPAARSE● 0.6 du 02/04/2013 au 18/04/2013 - Consolidation des reconnaissances de plateforme● 0.7 du 21/04/2013 au 05/06/2013 - Consolidation du coeur● 0.8 du 10/06/2013 au 27/06/2013 - Qualification des utilisateurs● 1.0 du 01/07/2013 au 08/08/2013 - Dédoublonnage COUNTER des EC

JRES - Montpellier - 12/12/2013

Les versions 1.x d'ezPAARSE

...et tout est planifiéEn voici la liste qui conduira à la version 2.0 d’ezPAARSE :

● 1.1 du 09/09/2013 au 10/10/2013 - MVP de synchronisation des PKB● 1.2 du 14/10/2013 au 14/11/2013 - Sécurisation● 1.3 du 18/11/2013 au 19/12/2013 - Multilinguisme● 1.4 du 23/12/2013 au 23/01/2014 - Export COUNTER● 1.5 du 27/01/2014 au 20/02/2014 - Intitulé à déterminer● 1.6 du 24/02/2014 au 27/03/2014 - Intitulé à déterminer● 1.7 du 31/03/2014 au 24/04/2014 - Intitulé à déterminer● 1.8 du 28/04/2014 au 22/05/2014 - Intitulé à déterminer● 1.9 du 26/05/2014 au 26/06/2014 - Intitulé à déterminer

JRES - Montpellier - 12/12/2013

Produit minimal viable

JRES - Montpellier - 12/12/2013

Version en cours

JRES - Montpellier - 12/12/2013

● Historique

● Démarche projet

● Présentation d’ezPAARSE/AnalogIST

● Coeur d’ezPAARSE : les parseurs

● Exploitation des résultats

● Écosystème d’ezPAARSE

Présentation d’ezPAARSE/AnalogIST

JRES - Montpellier - 12/12/2013

● ezPAARSE : le logiciel(ez : easy / PAARSE : Progiciel d'Analyse des Accès aux RessourceS Electroniques)

● en version locale : in situ● en version globale : SaaS

● AnalogIST : le portail collaboratif(Analyse des Logs de l'IST) national, lieu de publication des analyses de plateforme, synchronisable avec les instances locales, installées au sein des institutions intéressées.

ezPAARSE et AnalogIST

JRES - Montpellier - 12/12/2013

AnalogIST vs ezPAARSE

Univ 1

Univ 2

...

AnalogIST

instances localesinstance nationale +espace collaboratif

JRES - Montpellier - 12/12/2013

Exemple d’utilisation d’ezPAARSE

EZProxy, Bibliopam, ou

Squid ...log

Éditeurs de littérature

scientifique

1 fois / jour

Bases de connaissances

ParseursezPAARSE

outils de visualisation

EC

Évènements de consultation

accès à la ressource par un chercheur

LDAP

JRES - Montpellier - 12/12/2013

Architecture

POST sur /wsfichier log

utilisation d'un formulaire d'envoi de fichier

EC partie Web

EC partie URL

EC partie utilisateur

Évènement de Consultation (EC) complet

Référentiel utilisateurs

(LDAP)

parseurs des URL des

plateformes

URL

EC url

Login utilisateur

EC utilisateur

Évènements de

Consultations

lignes de logHTML

AP

I

Base de connaissance éditeurs

cairn.csvcairn.json

identifiant éditeur

identifiant normalisé

Filtrage des lignes non significativesJS, JPG, PNG, ...

Découpage

EC résultats fichier CSV

JRES - Montpellier - 12/12/2013

● Historique

● Démarche projet

● Présentation d’ezPAARSE/AnalogIST

● Coeur d’ezPAARSE : les parseurs

● Exploitation des résultats

● Écosystème d’ezPAARSE

Coeur d’ezPAARSE : les parseurs

JRES - Montpellier - 12/12/2013

Logs générés par EZProxy

ISSN = 0001-4575id PDF = 01

126.10.7.11 – stephane.gully@inist.fr [13/Mar/2012:16:10:01 +0100] "GET http://sciencedirect.com HTTP/1.1" 200 1993

126.10.7.11 – stephane.gully@inist.fr [13/Mar/2012:16:13:41 +0100] "GET http://sciencedirect.com/00014575/01.pdf HTTP/1.1" 200 465935

JRES - Montpellier - 12/12/2013

Structure d'une URL

http://pdn.sciencedirect.com/science?_ob=MiamiImageURL&_cid=271664&_user=4046427&_pii=S0001457512000747&_check=y&_origin=browse&_zone=rslt_list_item&_coverDate=2012-07-31&wchp=dGLbVlt-zSkWb&md5=f5d8d157ccda6d597cb466af123dbff3/1-s2.0-S0001457512000747-main.pdf

JRES - Montpellier - 12/12/2013

http://pdn.sciencedirect.com/science?_ob=MiamiImageURL&_cid=271664&_user=4046427&_pii=S0001457512000747&_check=y&_origin=browse&_zone=rslt_list_item&_coverDate=2012-07-31&wchp=dGLbVlt-zSkWb&md5=f5d8d157ccda6d597cb466af123dbff3/1-s2.0-S0001457512000747-main.pdf

ISSN & type du fichier consulté

Structure d'une URL

JRES - Montpellier - 12/12/2013

http://www.sciencedirect.com/science/journal/00014575

ISSNEn essayant l'URL manuellement on voit que c'est un sommaire HTML

Structure d'une URL

JRES - Montpellier - 12/12/2013

http://www.cairn.info/load_pdf.php?ID_ARTICLE=RFG_218_0009

Code éditeur ISSN

RFG 0338-4551

LMS 0027-2671...

Type PDF & ID éditeurNécessite une table de correspondance pour décoder.

Structure d'une URL

JRES - Montpellier - 12/12/2013

http://pdn.sciencedirect.com/science?_ob=MiamiImageURL&_cid=271664&_user=4046427&_pii=S0001457512000747&_check=y&_origin=browse&_zone=rslt_list_item&_coverDate=2012-07-31&wchp=dGLbVlt-zSkWb&md5=f5d8d157ccda6d597cb466af123dbff3/1-s2.0-S0001457512000747-main.pdf

/_pii=S([0-9]{0,7}[0-9X])/i

Découper l’URL

JRES - Montpellier - 12/12/2013

●Sciencedirect = une structure d'URL●Cairn = une structure d'URL ●…

●Chaque plate-forme possède sa structure d'URL●Écriture d'un parseur par plate-forme

Une structure d’URL par plate-forme

JRES - Montpellier - 12/12/2013

Exemple chez Springer :http://www.springerlink.com/content/j5q872410p510m63/fulltext.pdf

Exemple chez Cairn :http://www.cairn.info/load_pdf.php?ID_ARTICLE=RFG_218_0009

URL opaques (session, cryptages) Bases de connaissances à compléter manuellement

Limites de l’analyse des URLs

JRES - Montpellier - 12/12/2013

Code source d’un parseur

JRES - Montpellier - 12/12/2013

Une interface ou des traitements planifiés

VIA un formulaire Web En ligne de commande (cURL)

JRES - Montpellier - 12/12/2013

● Historique

● Démarche projet

● Présentation d’ezPAARSE/AnalogIST

● Coeur d’ezPAARSE : les parseurs

● Exploitation des résultats

● Écosystème d’ezPAARSE

Exploitation des résultats

JRES - Montpellier - 12/12/2013

ezPAARSE : exploitation des résultats

JRES - Montpellier - 12/12/2013

Exploitation des résultats

JRES - Montpellier - 12/12/2013

Exploitation des résultats

JRES - Montpellier - 12/12/2013

● Historique

● Démarche projet

● Présentation d’ezPAARSE/AnalogIST

● Coeur d’ezPAARSE : les parseurs

● Exploitation des résultats

● Écosystème d’ezPAARSE

Écosystème d’ezPAARSE

JRES - Montpellier - 12/12/2013

● Métiers○ Informaticiens○ Documentalistes○ Négociateurs

● Interactions○ Analyses des plateformes (D)○ Développement des parseurs (I)○ Production d’indicateurs (N)

Métiers et interactions

Comité technique ezPAARSE 21/11/2013

● Développement collaboratif multi-métiers

● Maintenance (prévisible donc doit être facilitée)

● Mutualisation (échelle internationale)

● Quelques réponses :

○ Méthode agile

○ Logiciel libre

○ Qualité logicielle (ex: architecture modulaire/parseur multi-langages)

Besoins d’organisations

JRES - Montpellier - 12/12/2013

● Logiciel libre (licence CeCILL v2) : conçue conjointement par le CEA, le

CNRS et l'INRIA, équivalent de la licence GPL en droit français

● Licence à caractère "copyleft" (liberté de modification et de redistribution)

héréditaire

● Encourage et encadre ainsi les contributions dans un objectif de

mutualisation (code et bases de connaissances).

● Partage / élargissement des partenariats

● Diffusion du code source à la communauté

Logiciel libre

JRES - Montpellier - 12/12/2013

● SGV, déploiement et intégration

● Visibilité (valorisation des dev)

● Workflow collaboratif

○ Compte organisation (droits d’accès)

○ Base de connaissance (pull request : parseur + pkb)

○ Authentification déléguée (couplage avec AnalogIST)

○ Issues (bugtracker)

GitHub

https://github.com/ezpaarse-project/

JRES - Montpellier - 12/12/2013

ezPAARSE est écrit en javascript (NodeJS)

NodeJS● Javascript côté serveur● Plate-forme polyvalente de développement d'applications réseau

“scalable”● Construit sur le V8 de Google● Mono-thread● Événementiel, I/O non-bloquant● Gestion des “stream” facilitée

Javascript (NodeJS)

JRES - Montpellier - 12/12/2013

NodeJS - Serveur web

JRES - Montpellier - 12/12/2013

Bonnes pratiques

● Règles de codage (jshint)

● TDD, + 70 tests (mocha)

● Documentation intégrée (beautiful docs)

● Intégration continue (travis-ci)

● Scrum board (pivotal tracker)

JRES - Montpellier - 12/12/2013

Tests unitaires avec Mocha

JRES - Montpellier - 12/12/2013

Documentation avec “Beautiful docs”

JRES - Montpellier - 12/12/2013

Multi-plateforme

JRES - Montpellier - 12/12/2013

En conclusion, pourquoi les JRES ?

● ezPAARSE c’est un logiciel libre● Facile à installer et à tester (multi-plateforme)● Utilisant des technologies innovantes

● Enjeux autour des ressources numériques● Acquisitions par les bibliothèques● Connaissance des usages au niveau ESR

● Nous avons besoin de vous ! (le réseau)● Les documentalistes ont besoin des logs (admin sys)● Les contributions sont facilitées et attendues

JRES - Montpellier - 12/12/2013

ezPAARSE

http://ezpaarse.couperin.orghttp://analogist.couperin.org

Des Questions ?

https://twitter.com/ezpaarse