18
Unicas & presse locale ancienne sont dans une interface… POUR UNE APPLICATION DE VISUALISATION ET D’EXPLORATION DES DONNÉES.

Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Unicas amp presse locale

ancienne sont dans une

interfacehellipPOUR UNE APPLICATION DE VISUALISATION ET DrsquoEXPLORATION DES

DONNEacuteES

Le contexte

Point de deacutepart valorisation de 2 corpus speacutecifiques de peacuteriodiques

Unicas et presse locale ancienne

Axe laquo Valorisation des collections raquo dans notre convention sur objectifs

- Eacutevaluer nos collections

- Ameacuteliorer leur visibiliteacute

- Qualiteacute des donneacutees et signalement

Moyen

- Creacuteation et mise en ligne drsquoun outil de visualisation des donneacutees du CR

baseacute sur les web services du Sudoc

Sudoc

UnicasPresse locale

Avec ISSN

Sans ISSN

Traduction en langage patate

Presse locale

numeacuteriseacutee

Traduction en Excel

Fichier des unicas Sudoc Fichier des titres de presse locale

BnF

Traduction en langage graphe (my name is Graph Property

Graph)

Node 2

Node 4

Node 1

Node 5

Node 3

Etapes

- On modeacutelise le graphe (quelles sont les ressources ndash les nœuds ndash et quelles

sont leurs relations ndash connues et agrave construire - )

- On fait un chargement initial de donneacutees agrave minima dans la BDD et on

automatise les enrichissements par des requecirctes directement dans le

graphe

- On deacuteveloppe lrsquoapplication au-dessus de la BDD

bull pour exposer les donneacutees (exports Excel et API)

bull pour proposer une interface web de visualisation

Pour bien commencer deacuteterminer les entiteacutes que lrsquoon veut eacutetudier = les

nœuds geacuteneacuteriques du graphe

Bibliothegraveques

Titres unicas

Titres presse

loc anc

Titres presse

loc anc

numeacuteriseacutes

Nomrcrlatlon

titreppnissn309

titrearkissn

urleacutetab

OWNED_BY

etats_de_coll

HAS_VERSION

Deacutepartements

Nomnumeacutero

LOCATED

IS_ABOUT

SAME_AS

Petit aparteacute la souplesse drsquoune modeacutelisation de type Property Graph est aussi sa

principale difficulteacute

On aurait pu faire complegravetement diffeacuteremmenthellip drsquoailleurs il nrsquoest pas certain du tout que

ce soit la meilleure maniegravere de modeacuteliser

La question essentielle qui doit guider la structuration interne du graphe est quelles sont

les questions auxquelles je veux pouvoir reacutepondre

Unicas

ppn

issnHAS_ID

PresselocaleHAS_ID

arkSudoc

BELONGS_TO

BnFBELONGS_TO

MATCH

Petite mise au point quand on parle de graphe on pense web de

donneacutees et RDFhellip

Mais il nrsquoy a pas que le RDF dans la vie

RDF

Triplets sujet-preacutedicat-objet

Srsquoappuie sur des uri pour identifier

les ressources et des ontologies

pour qualifier les ressources et les

preacutedicats

A pour objectif de modeacuteliser et

formaliser les donneacutees et leurs

connexions selon un standard

Qui permette leur inteacutegration dans

le web (indexation moteurs de

recherche accegraves web

navigation eacutechange)

Un stockage en triple store

accessible par un Endpoint

Un langage de requecircte SPARQL

Proprieacuteteacute de graphe (Graph

Property)

Des nœuds lieacutes par des relations

Nœuds et liens peuvent ecirctre

qualifieacutes par des proprieacuteteacutes

(formaliseacutees comme des objets

cleacute-valeur) sans scheacutema poseacute agrave

priori

Structuration optimiseacutee pour le

stockage et le parcours de

graphe (le requecirctage et la

navigation dans les donneacutees)

Des langages de requecirctes selon la

bdd choisie (Neo4j ArangoDBhellip)

La probleacutematique classique obtenir les donneacutees

- Ougrave sont les donneacutees

- Comment les extraire

Les sources de donneacutees

Bibs de lrsquoILN 230

httpswwwidreffrservicesiln2rcr230

Ppn des unicas

Self Sudoc

Site BnF presse

loc anc

httppresselocaleanciennebnffraccueil

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 2: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Le contexte

Point de deacutepart valorisation de 2 corpus speacutecifiques de peacuteriodiques

Unicas et presse locale ancienne

Axe laquo Valorisation des collections raquo dans notre convention sur objectifs

- Eacutevaluer nos collections

- Ameacuteliorer leur visibiliteacute

- Qualiteacute des donneacutees et signalement

Moyen

- Creacuteation et mise en ligne drsquoun outil de visualisation des donneacutees du CR

baseacute sur les web services du Sudoc

Sudoc

UnicasPresse locale

Avec ISSN

Sans ISSN

Traduction en langage patate

Presse locale

numeacuteriseacutee

Traduction en Excel

Fichier des unicas Sudoc Fichier des titres de presse locale

BnF

Traduction en langage graphe (my name is Graph Property

Graph)

Node 2

Node 4

Node 1

Node 5

Node 3

Etapes

- On modeacutelise le graphe (quelles sont les ressources ndash les nœuds ndash et quelles

sont leurs relations ndash connues et agrave construire - )

- On fait un chargement initial de donneacutees agrave minima dans la BDD et on

automatise les enrichissements par des requecirctes directement dans le

graphe

- On deacuteveloppe lrsquoapplication au-dessus de la BDD

bull pour exposer les donneacutees (exports Excel et API)

bull pour proposer une interface web de visualisation

Pour bien commencer deacuteterminer les entiteacutes que lrsquoon veut eacutetudier = les

nœuds geacuteneacuteriques du graphe

Bibliothegraveques

Titres unicas

Titres presse

loc anc

Titres presse

loc anc

numeacuteriseacutes

Nomrcrlatlon

titreppnissn309

titrearkissn

urleacutetab

OWNED_BY

etats_de_coll

HAS_VERSION

Deacutepartements

Nomnumeacutero

LOCATED

IS_ABOUT

SAME_AS

Petit aparteacute la souplesse drsquoune modeacutelisation de type Property Graph est aussi sa

principale difficulteacute

On aurait pu faire complegravetement diffeacuteremmenthellip drsquoailleurs il nrsquoest pas certain du tout que

ce soit la meilleure maniegravere de modeacuteliser

La question essentielle qui doit guider la structuration interne du graphe est quelles sont

les questions auxquelles je veux pouvoir reacutepondre

Unicas

ppn

issnHAS_ID

PresselocaleHAS_ID

arkSudoc

BELONGS_TO

BnFBELONGS_TO

MATCH

Petite mise au point quand on parle de graphe on pense web de

donneacutees et RDFhellip

Mais il nrsquoy a pas que le RDF dans la vie

RDF

Triplets sujet-preacutedicat-objet

Srsquoappuie sur des uri pour identifier

les ressources et des ontologies

pour qualifier les ressources et les

preacutedicats

A pour objectif de modeacuteliser et

formaliser les donneacutees et leurs

connexions selon un standard

Qui permette leur inteacutegration dans

le web (indexation moteurs de

recherche accegraves web

navigation eacutechange)

Un stockage en triple store

accessible par un Endpoint

Un langage de requecircte SPARQL

Proprieacuteteacute de graphe (Graph

Property)

Des nœuds lieacutes par des relations

Nœuds et liens peuvent ecirctre

qualifieacutes par des proprieacuteteacutes

(formaliseacutees comme des objets

cleacute-valeur) sans scheacutema poseacute agrave

priori

Structuration optimiseacutee pour le

stockage et le parcours de

graphe (le requecirctage et la

navigation dans les donneacutees)

Des langages de requecirctes selon la

bdd choisie (Neo4j ArangoDBhellip)

La probleacutematique classique obtenir les donneacutees

- Ougrave sont les donneacutees

- Comment les extraire

Les sources de donneacutees

Bibs de lrsquoILN 230

httpswwwidreffrservicesiln2rcr230

Ppn des unicas

Self Sudoc

Site BnF presse

loc anc

httppresselocaleanciennebnffraccueil

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 3: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Sudoc

UnicasPresse locale

Avec ISSN

Sans ISSN

Traduction en langage patate

Presse locale

numeacuteriseacutee

Traduction en Excel

Fichier des unicas Sudoc Fichier des titres de presse locale

BnF

Traduction en langage graphe (my name is Graph Property

Graph)

Node 2

Node 4

Node 1

Node 5

Node 3

Etapes

- On modeacutelise le graphe (quelles sont les ressources ndash les nœuds ndash et quelles

sont leurs relations ndash connues et agrave construire - )

- On fait un chargement initial de donneacutees agrave minima dans la BDD et on

automatise les enrichissements par des requecirctes directement dans le

graphe

- On deacuteveloppe lrsquoapplication au-dessus de la BDD

bull pour exposer les donneacutees (exports Excel et API)

bull pour proposer une interface web de visualisation

Pour bien commencer deacuteterminer les entiteacutes que lrsquoon veut eacutetudier = les

nœuds geacuteneacuteriques du graphe

Bibliothegraveques

Titres unicas

Titres presse

loc anc

Titres presse

loc anc

numeacuteriseacutes

Nomrcrlatlon

titreppnissn309

titrearkissn

urleacutetab

OWNED_BY

etats_de_coll

HAS_VERSION

Deacutepartements

Nomnumeacutero

LOCATED

IS_ABOUT

SAME_AS

Petit aparteacute la souplesse drsquoune modeacutelisation de type Property Graph est aussi sa

principale difficulteacute

On aurait pu faire complegravetement diffeacuteremmenthellip drsquoailleurs il nrsquoest pas certain du tout que

ce soit la meilleure maniegravere de modeacuteliser

La question essentielle qui doit guider la structuration interne du graphe est quelles sont

les questions auxquelles je veux pouvoir reacutepondre

Unicas

ppn

issnHAS_ID

PresselocaleHAS_ID

arkSudoc

BELONGS_TO

BnFBELONGS_TO

MATCH

Petite mise au point quand on parle de graphe on pense web de

donneacutees et RDFhellip

Mais il nrsquoy a pas que le RDF dans la vie

RDF

Triplets sujet-preacutedicat-objet

Srsquoappuie sur des uri pour identifier

les ressources et des ontologies

pour qualifier les ressources et les

preacutedicats

A pour objectif de modeacuteliser et

formaliser les donneacutees et leurs

connexions selon un standard

Qui permette leur inteacutegration dans

le web (indexation moteurs de

recherche accegraves web

navigation eacutechange)

Un stockage en triple store

accessible par un Endpoint

Un langage de requecircte SPARQL

Proprieacuteteacute de graphe (Graph

Property)

Des nœuds lieacutes par des relations

Nœuds et liens peuvent ecirctre

qualifieacutes par des proprieacuteteacutes

(formaliseacutees comme des objets

cleacute-valeur) sans scheacutema poseacute agrave

priori

Structuration optimiseacutee pour le

stockage et le parcours de

graphe (le requecirctage et la

navigation dans les donneacutees)

Des langages de requecirctes selon la

bdd choisie (Neo4j ArangoDBhellip)

La probleacutematique classique obtenir les donneacutees

- Ougrave sont les donneacutees

- Comment les extraire

Les sources de donneacutees

Bibs de lrsquoILN 230

httpswwwidreffrservicesiln2rcr230

Ppn des unicas

Self Sudoc

Site BnF presse

loc anc

httppresselocaleanciennebnffraccueil

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 4: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Traduction en Excel

Fichier des unicas Sudoc Fichier des titres de presse locale

BnF

Traduction en langage graphe (my name is Graph Property

Graph)

Node 2

Node 4

Node 1

Node 5

Node 3

Etapes

- On modeacutelise le graphe (quelles sont les ressources ndash les nœuds ndash et quelles

sont leurs relations ndash connues et agrave construire - )

- On fait un chargement initial de donneacutees agrave minima dans la BDD et on

automatise les enrichissements par des requecirctes directement dans le

graphe

- On deacuteveloppe lrsquoapplication au-dessus de la BDD

bull pour exposer les donneacutees (exports Excel et API)

bull pour proposer une interface web de visualisation

Pour bien commencer deacuteterminer les entiteacutes que lrsquoon veut eacutetudier = les

nœuds geacuteneacuteriques du graphe

Bibliothegraveques

Titres unicas

Titres presse

loc anc

Titres presse

loc anc

numeacuteriseacutes

Nomrcrlatlon

titreppnissn309

titrearkissn

urleacutetab

OWNED_BY

etats_de_coll

HAS_VERSION

Deacutepartements

Nomnumeacutero

LOCATED

IS_ABOUT

SAME_AS

Petit aparteacute la souplesse drsquoune modeacutelisation de type Property Graph est aussi sa

principale difficulteacute

On aurait pu faire complegravetement diffeacuteremmenthellip drsquoailleurs il nrsquoest pas certain du tout que

ce soit la meilleure maniegravere de modeacuteliser

La question essentielle qui doit guider la structuration interne du graphe est quelles sont

les questions auxquelles je veux pouvoir reacutepondre

Unicas

ppn

issnHAS_ID

PresselocaleHAS_ID

arkSudoc

BELONGS_TO

BnFBELONGS_TO

MATCH

Petite mise au point quand on parle de graphe on pense web de

donneacutees et RDFhellip

Mais il nrsquoy a pas que le RDF dans la vie

RDF

Triplets sujet-preacutedicat-objet

Srsquoappuie sur des uri pour identifier

les ressources et des ontologies

pour qualifier les ressources et les

preacutedicats

A pour objectif de modeacuteliser et

formaliser les donneacutees et leurs

connexions selon un standard

Qui permette leur inteacutegration dans

le web (indexation moteurs de

recherche accegraves web

navigation eacutechange)

Un stockage en triple store

accessible par un Endpoint

Un langage de requecircte SPARQL

Proprieacuteteacute de graphe (Graph

Property)

Des nœuds lieacutes par des relations

Nœuds et liens peuvent ecirctre

qualifieacutes par des proprieacuteteacutes

(formaliseacutees comme des objets

cleacute-valeur) sans scheacutema poseacute agrave

priori

Structuration optimiseacutee pour le

stockage et le parcours de

graphe (le requecirctage et la

navigation dans les donneacutees)

Des langages de requecirctes selon la

bdd choisie (Neo4j ArangoDBhellip)

La probleacutematique classique obtenir les donneacutees

- Ougrave sont les donneacutees

- Comment les extraire

Les sources de donneacutees

Bibs de lrsquoILN 230

httpswwwidreffrservicesiln2rcr230

Ppn des unicas

Self Sudoc

Site BnF presse

loc anc

httppresselocaleanciennebnffraccueil

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 5: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Traduction en langage graphe (my name is Graph Property

Graph)

Node 2

Node 4

Node 1

Node 5

Node 3

Etapes

- On modeacutelise le graphe (quelles sont les ressources ndash les nœuds ndash et quelles

sont leurs relations ndash connues et agrave construire - )

- On fait un chargement initial de donneacutees agrave minima dans la BDD et on

automatise les enrichissements par des requecirctes directement dans le

graphe

- On deacuteveloppe lrsquoapplication au-dessus de la BDD

bull pour exposer les donneacutees (exports Excel et API)

bull pour proposer une interface web de visualisation

Pour bien commencer deacuteterminer les entiteacutes que lrsquoon veut eacutetudier = les

nœuds geacuteneacuteriques du graphe

Bibliothegraveques

Titres unicas

Titres presse

loc anc

Titres presse

loc anc

numeacuteriseacutes

Nomrcrlatlon

titreppnissn309

titrearkissn

urleacutetab

OWNED_BY

etats_de_coll

HAS_VERSION

Deacutepartements

Nomnumeacutero

LOCATED

IS_ABOUT

SAME_AS

Petit aparteacute la souplesse drsquoune modeacutelisation de type Property Graph est aussi sa

principale difficulteacute

On aurait pu faire complegravetement diffeacuteremmenthellip drsquoailleurs il nrsquoest pas certain du tout que

ce soit la meilleure maniegravere de modeacuteliser

La question essentielle qui doit guider la structuration interne du graphe est quelles sont

les questions auxquelles je veux pouvoir reacutepondre

Unicas

ppn

issnHAS_ID

PresselocaleHAS_ID

arkSudoc

BELONGS_TO

BnFBELONGS_TO

MATCH

Petite mise au point quand on parle de graphe on pense web de

donneacutees et RDFhellip

Mais il nrsquoy a pas que le RDF dans la vie

RDF

Triplets sujet-preacutedicat-objet

Srsquoappuie sur des uri pour identifier

les ressources et des ontologies

pour qualifier les ressources et les

preacutedicats

A pour objectif de modeacuteliser et

formaliser les donneacutees et leurs

connexions selon un standard

Qui permette leur inteacutegration dans

le web (indexation moteurs de

recherche accegraves web

navigation eacutechange)

Un stockage en triple store

accessible par un Endpoint

Un langage de requecircte SPARQL

Proprieacuteteacute de graphe (Graph

Property)

Des nœuds lieacutes par des relations

Nœuds et liens peuvent ecirctre

qualifieacutes par des proprieacuteteacutes

(formaliseacutees comme des objets

cleacute-valeur) sans scheacutema poseacute agrave

priori

Structuration optimiseacutee pour le

stockage et le parcours de

graphe (le requecirctage et la

navigation dans les donneacutees)

Des langages de requecirctes selon la

bdd choisie (Neo4j ArangoDBhellip)

La probleacutematique classique obtenir les donneacutees

- Ougrave sont les donneacutees

- Comment les extraire

Les sources de donneacutees

Bibs de lrsquoILN 230

httpswwwidreffrservicesiln2rcr230

Ppn des unicas

Self Sudoc

Site BnF presse

loc anc

httppresselocaleanciennebnffraccueil

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 6: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Pour bien commencer deacuteterminer les entiteacutes que lrsquoon veut eacutetudier = les

nœuds geacuteneacuteriques du graphe

Bibliothegraveques

Titres unicas

Titres presse

loc anc

Titres presse

loc anc

numeacuteriseacutes

Nomrcrlatlon

titreppnissn309

titrearkissn

urleacutetab

OWNED_BY

etats_de_coll

HAS_VERSION

Deacutepartements

Nomnumeacutero

LOCATED

IS_ABOUT

SAME_AS

Petit aparteacute la souplesse drsquoune modeacutelisation de type Property Graph est aussi sa

principale difficulteacute

On aurait pu faire complegravetement diffeacuteremmenthellip drsquoailleurs il nrsquoest pas certain du tout que

ce soit la meilleure maniegravere de modeacuteliser

La question essentielle qui doit guider la structuration interne du graphe est quelles sont

les questions auxquelles je veux pouvoir reacutepondre

Unicas

ppn

issnHAS_ID

PresselocaleHAS_ID

arkSudoc

BELONGS_TO

BnFBELONGS_TO

MATCH

Petite mise au point quand on parle de graphe on pense web de

donneacutees et RDFhellip

Mais il nrsquoy a pas que le RDF dans la vie

RDF

Triplets sujet-preacutedicat-objet

Srsquoappuie sur des uri pour identifier

les ressources et des ontologies

pour qualifier les ressources et les

preacutedicats

A pour objectif de modeacuteliser et

formaliser les donneacutees et leurs

connexions selon un standard

Qui permette leur inteacutegration dans

le web (indexation moteurs de

recherche accegraves web

navigation eacutechange)

Un stockage en triple store

accessible par un Endpoint

Un langage de requecircte SPARQL

Proprieacuteteacute de graphe (Graph

Property)

Des nœuds lieacutes par des relations

Nœuds et liens peuvent ecirctre

qualifieacutes par des proprieacuteteacutes

(formaliseacutees comme des objets

cleacute-valeur) sans scheacutema poseacute agrave

priori

Structuration optimiseacutee pour le

stockage et le parcours de

graphe (le requecirctage et la

navigation dans les donneacutees)

Des langages de requecirctes selon la

bdd choisie (Neo4j ArangoDBhellip)

La probleacutematique classique obtenir les donneacutees

- Ougrave sont les donneacutees

- Comment les extraire

Les sources de donneacutees

Bibs de lrsquoILN 230

httpswwwidreffrservicesiln2rcr230

Ppn des unicas

Self Sudoc

Site BnF presse

loc anc

httppresselocaleanciennebnffraccueil

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 7: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Petit aparteacute la souplesse drsquoune modeacutelisation de type Property Graph est aussi sa

principale difficulteacute

On aurait pu faire complegravetement diffeacuteremmenthellip drsquoailleurs il nrsquoest pas certain du tout que

ce soit la meilleure maniegravere de modeacuteliser

La question essentielle qui doit guider la structuration interne du graphe est quelles sont

les questions auxquelles je veux pouvoir reacutepondre

Unicas

ppn

issnHAS_ID

PresselocaleHAS_ID

arkSudoc

BELONGS_TO

BnFBELONGS_TO

MATCH

Petite mise au point quand on parle de graphe on pense web de

donneacutees et RDFhellip

Mais il nrsquoy a pas que le RDF dans la vie

RDF

Triplets sujet-preacutedicat-objet

Srsquoappuie sur des uri pour identifier

les ressources et des ontologies

pour qualifier les ressources et les

preacutedicats

A pour objectif de modeacuteliser et

formaliser les donneacutees et leurs

connexions selon un standard

Qui permette leur inteacutegration dans

le web (indexation moteurs de

recherche accegraves web

navigation eacutechange)

Un stockage en triple store

accessible par un Endpoint

Un langage de requecircte SPARQL

Proprieacuteteacute de graphe (Graph

Property)

Des nœuds lieacutes par des relations

Nœuds et liens peuvent ecirctre

qualifieacutes par des proprieacuteteacutes

(formaliseacutees comme des objets

cleacute-valeur) sans scheacutema poseacute agrave

priori

Structuration optimiseacutee pour le

stockage et le parcours de

graphe (le requecirctage et la

navigation dans les donneacutees)

Des langages de requecirctes selon la

bdd choisie (Neo4j ArangoDBhellip)

La probleacutematique classique obtenir les donneacutees

- Ougrave sont les donneacutees

- Comment les extraire

Les sources de donneacutees

Bibs de lrsquoILN 230

httpswwwidreffrservicesiln2rcr230

Ppn des unicas

Self Sudoc

Site BnF presse

loc anc

httppresselocaleanciennebnffraccueil

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 8: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Petite mise au point quand on parle de graphe on pense web de

donneacutees et RDFhellip

Mais il nrsquoy a pas que le RDF dans la vie

RDF

Triplets sujet-preacutedicat-objet

Srsquoappuie sur des uri pour identifier

les ressources et des ontologies

pour qualifier les ressources et les

preacutedicats

A pour objectif de modeacuteliser et

formaliser les donneacutees et leurs

connexions selon un standard

Qui permette leur inteacutegration dans

le web (indexation moteurs de

recherche accegraves web

navigation eacutechange)

Un stockage en triple store

accessible par un Endpoint

Un langage de requecircte SPARQL

Proprieacuteteacute de graphe (Graph

Property)

Des nœuds lieacutes par des relations

Nœuds et liens peuvent ecirctre

qualifieacutes par des proprieacuteteacutes

(formaliseacutees comme des objets

cleacute-valeur) sans scheacutema poseacute agrave

priori

Structuration optimiseacutee pour le

stockage et le parcours de

graphe (le requecirctage et la

navigation dans les donneacutees)

Des langages de requecirctes selon la

bdd choisie (Neo4j ArangoDBhellip)

La probleacutematique classique obtenir les donneacutees

- Ougrave sont les donneacutees

- Comment les extraire

Les sources de donneacutees

Bibs de lrsquoILN 230

httpswwwidreffrservicesiln2rcr230

Ppn des unicas

Self Sudoc

Site BnF presse

loc anc

httppresselocaleanciennebnffraccueil

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 9: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

La probleacutematique classique obtenir les donneacutees

- Ougrave sont les donneacutees

- Comment les extraire

Les sources de donneacutees

Bibs de lrsquoILN 230

httpswwwidreffrservicesiln2rcr230

Ppn des unicas

Self Sudoc

Site BnF presse

loc anc

httppresselocaleanciennebnffraccueil

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 10: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Les sources de donneacutees

Bibs de lrsquoILN 230

httpswwwidreffrservicesiln2rcr230

Ppn des unicas

Self Sudoc

Site BnF presse

loc anc

httppresselocaleanciennebnffraccueil

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 11: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Peut mieux fairehellip

Sudoc web service

multiwhere

httpswwwsudocfrservicesmultiwhereltppngt

Sudoc web service

UNIMARCMARCXML

httpwwwsudocfrltppngtxml

BnF SRU

httpcataloguebnffrapiSRUversion=12ampoperation=searchRetrieveampquery=bibpersistentid20adj2022ltarkgt22amprecordSchema=unimarcxchange

Sudoc web service issn2ppn

httpwwwsudocfrservicesissn2ppn

ltissngt

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 12: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Interface web

Client Side(librairies

JS)

Connexion agrave la BDD

Graphe

Distribution des donneacutees

Server side(Express)

API

Donneacutees Json + doc SWagger

BDDETL Neo4j

node1

node5

node2

node3

node4

Client side Exploitation

API

Tableaux

Widgets

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr

Page 13: Unicas & presse locale ancienne sont dans une application…€¦ · stockage et le parcours de graphe (le requêtage et la ... gist avec les requêtes en langage Cypher utilisées

Pour en savoir plus

Liens vers les billets de blogs (passeacutes et agrave venir)

httpbibliotheque-blogsunicefrsudoc-ps

httpbibliotheque-blogsunicefrsudoc-pstagvalorisation-des-collections

Code source

Le code de lrsquoapplication sera disponible en open source degraves que lrsquoapplication sera

finaliseacutee (agrave la rentreacutee universitaire 2019)

En attendant

- httpsgithubcomgegedeniceangular-sudocps-unicas pour creacuteer une page

web listant vos unicas (voir par exemple lrsquoadaptation du code par le CR Rhocircne-

Alpes acadeacutemie de Grenoble httpsbuuniv-grenoble-

alpesfrCR69indexhtml)

- httpsgistgithubcomgegedenicec7e53cc4c3d65b8bc1639d4b55a90be6 un

gist avec les requecirctes en langage Cypher utiliseacutees pour charger et enrichir les

donneacutees dans Neo4j

Nous contacter

Sudocps-scdunicefr

geoffroyunicefr