1
Contexte Avec la prolifération des bases de données publiques disponibles dans le domaine de la biologie moléculaire et de la génétique, l’intégration des données en bio-informatique est un problème fondamental. Malgré de nombreuses initiatives visant la création de bases de données intégrées des instituts internationaux tel que le NCBI américain, l’EBI européen et l’institut KEGG au Japon, l’espace de données actuels reste composé de silos indépendants. Depuis 2006 le projet Bio2RDF [http://bio2rdf.org] hébergé au Centre de recherche du CHUQ, a pour mission de rendre disponible à la communauté des chercheurs en sciences de la vie, un sous-ensemble des données publiques des domaines de la biologie moléculaire, de la génétique et de la médecin selon les principes du web sémantique énoncés par le W3C. Cette contribution au web de données (Linked Data) a obtenu une reconnaissance internationale est s’est avérée être un modèle qui a inspiré de nombreux autres projets de diffusion des connaissances en bio-informatique. Comment produire, publier et consommer des données sémantiques ? Comment profiter de ce vaste ensemble de données pour répondre à une question complexe ? Le potentiel de cette approche est illustré en répondant à la question Quel est le domaine de recherche du projet Bio2RDF ? Comment publier sur le web sémantique : la méthode de Bio2RDF François Belleau, Arnaud Droit Centre de Biologie Computationnelle Centre de recherche du CHUQ Renseignements Le projet Bio2RDF est disponible à l’adresse http://bio2rdf.org Les personnes intéressées peuvent joindre le groupe de discussion à l’adresse suivante : https://groups.google.com/forum/?fromgroups#!forum/bio2rdf Ce projet est sous la supervision du Dr Arnaud Droit, Directeur du Centre de Biologie Computationnelle du CRCHUQ à l’Université Laval. Mes remerciements aux membres de la communauté Bio2RDF et plus particulièrement à Marc-Alexandre Nolin and Peter Ansell, deux des développeurs initiaux. Figure 1) Le réseau des bases de données sémantiques en 2011, la section rose représente les données des sciences de la vie principalement constituée des ressources de Bio2RDF. [http://lod-cloud.net/] Figure 2.1) La page HTML présentant l’article sur Bio2RDF publié en 2008, dont le numéro de référence pubmed est le 18472304. Figure 2.2) Le processus Talend de transformation du document XML provenant du NCBI utilisé pour effectuer la conversion au format RDF. Produire du RDF en utilisant un ETL Les données du web sémantique sont diffusées sous la forme de triplets (sujet- prédicat-objet). Convertir des sources de données existantes aux formats variés (HTML, XML, SQL) en format RDF est une fonction clé du projet Bio2RDF. Pour accomplir cette tâche et après avoir exploré différents scénarios de conversion basés sur l’utilisation de plusieurs cadres de développement (JSP, Perl et PHP), le logiciel libre d’ETL, le logiciel Talend Integration Studio [http://www.talend.com], est désormais utilisé. Cette approche accélère le processus de programmation et améliore grandement le contrôle de qualité. Le processus de conversion d’un document Pubmed de format XML obtenu via le service REST eFetch au format RDF est illustré ici. Publier dans le web de données via REST Le projet Bio2RDF a appliqué dès ses débuts les quatre règles [http://www.w3.org/DesignIssues/LinkedData.html] du web sémantique énoncé par Tim Berner Lee pour mettre à la disposition des chercheurs 40 points de services SPARQL proposant les bases de données en bio-informatique les plus utilisées (Kegg, PDB, UniProt, etc.). À ces services SPARQL, s’ajoute les services REST d’accès qui reposent sur trois services essentiels utilisés dans la construction de processus de création d’un mashup : 1. Le service DESCRIBE retourne la définition d’une ressource en triplets; 2. Le service LINK permet d’obtenir la liste des références externes vers la ressource; 3. Le service SEARCH permet d’effectuer une recherche dans les littéraux du graphe. En utilisant le logiciel Talend ESB, une nouvelle version des services REST initiaux a été développée avec un minimum d’efforts de réalisation en consommant les services REST ou SOAP des fournisseurs de données. Il s’agit d’un modèle de programmation efficace et économique prometteur. Consommer du RDF pour construire un mashup Pour illustrer la capacité du modèle du web sémantique à répondre à une question complexe, on applique la stratégie suivante : construire une base de données spécialisée pour répondre à chaque question. Voici comment créer un mashup pour découvrir le domaine de recherche du projet Bio2RDF. Le processus de construction est le suivant : 1) rechercher sur Pubmed à l’aide du service SEARCH, les articles associés au mot clé ‘bio2rdf’ (6 résultats) 2) obtenir la liste des articles qui les ont cités à l’aide du service LINK (85 résultats); 3) obtenir la version RDF des métadonnées des 91 articles trouvés à l’aide du service DESCRIBE; 4) obtenir la définition des termes MeSH employés via le point de service SPARQL de Bio2RDF. Une fois les données obtenues, les charger dans un triplestore et exécuter la requête SPARQL qui répond à la question en exploitant le réseau sémantique composé des citations par les auteurs. Ce processus est entièrement automatisé avec un workflow Talend. La réponse à la question: Bio2RDF est un projet de Factual Database and Semanticsce qui correspond bien à la réalité et ce qui n’avait pas été perçu par les annotateurs du NCBI lors de sa publication initiale en 2008. Conclusion Il a été démontré qu’en utilisant le logiciel d’ETL Talend, il est possible de publier efficacement et à faible coût des données scientifiques afin de contribuer à la construction du web sémantique scientifique. En consommant les triplets, nous avons illustré comment construire un mashup capable de répondre à des questions nécessitant l’intégration des données provenant de différentes sources. Le potentiel du web sémantique et des données ouvertes en science est prometteur, il ne s’agit que du début. Figure 2.3) La version RDF en format XML de la description de l’article où chaque élément d’information significatif a été transformé en triplet. Figure 3.1) La description du service REST pour Pubmed développé à l’aide de la suite Talend ESB. Figure 3.2) Le service REST de conversion au format RDF basés sur les services eFetch, eSearch et eLink du NCBI [http://www.ncbi.nlm.nih.gov/books/NBK25499]. Figure 4.3) La définition des termes MeSH qui répondent à la question. Figure 4.1) Le workflow Talend utilisé pour construire le mashup en consommant les services REST de Bio2RDF. Figure 4.2) La requête SPARQL pour obtenir la définition des mots clés les plus utilisés pour décrire le domaine de recherche de Bio2RDF.

Acfas 2013 - Comment publier sur le web sémantique : la méthode de Bio2RDF

Embed Size (px)

DESCRIPTION

Bio2RDF poster about using Talend at ACFAS 2013 in Québec

Citation preview

Page 1: Acfas 2013 - Comment publier sur le web sémantique : la méthode de Bio2RDF

Contexte

Avec la prolifération des bases de données publiques disponibles dans le domaine de la biologie moléculaire et de la

génétique, l’intégration des données en bio-informatique est un problème fondamental. Malgré de nombreuses initiatives

visant la création de bases de données intégrées des instituts internationaux tel que le NCBI américain, l’EBI européen et

l’institut KEGG au Japon, l’espace de données actuels reste composé de silos indépendants.

Depuis 2006 le projet Bio2RDF [http://bio2rdf.org] hébergé au Centre de recherche du CHUQ, a pour mission de rendre

disponible à la communauté des chercheurs en sciences de la vie, un sous-ensemble des données publiques des

domaines de la biologie moléculaire, de la génétique et de la médecin selon les principes du web sémantique énoncés par

le W3C. Cette contribution au web de données (Linked Data) a obtenu une reconnaissance internationale est s’est avérée

être un modèle qui a inspiré de nombreux autres projets de diffusion des connaissances en bio-informatique.

Comment produire, publier et consommer des données sémantiques ? Comment profiter de ce vaste ensemble de

données pour répondre à une question complexe ? Le potentiel de cette approche est illustré en répondant à la question

Quel est le domaine de recherche du projet Bio2RDF ?

Comment publier sur le web

sémantique : la méthode de Bio2RDF

François Belleau, Arnaud Droit

Centre de Biologie Computationnelle

Centre de recherche du CHUQ

Renseignements

● Le projet Bio2RDF est disponible à l’adresse http://bio2rdf.org

● Les personnes intéressées peuvent joindre le groupe de discussion à l’adresse suivante : https://groups.google.com/forum/?fromgroups#!forum/bio2rdf

● Ce projet est sous la supervision du Dr Arnaud Droit, Directeur du Centre de Biologie Computationnelle du

CRCHUQ à l’Université Laval.

● Mes remerciements aux membres de la communauté Bio2RDF et plus particulièrement à Marc-Alexandre Nolin and

Peter Ansell, deux des développeurs initiaux.

Figure 1) Le réseau des bases de données sémantiques en 2011, la section rose représente les données des sciences de la vie principalement constituée des ressources de Bio2RDF.

[http://lod-cloud.net/]

Figure 2.1) La page HTML présentant l’article sur Bio2RDF publié en 2008, dont le numéro de référence pubmed est le 18472304.

Figure 2.2) Le processus Talend de transformation du document XML provenant du NCBI utilisé pour effectuer la conversion au format RDF.

Produire du RDF en utilisant un ETL

Les données du web sémantique sont diffusées sous la forme de triplets (sujet-

prédicat-objet). Convertir des sources de données existantes aux formats

variés (HTML, XML, SQL) en format RDF est une fonction clé du projet

Bio2RDF. Pour accomplir cette tâche et après avoir exploré différents scénarios

de conversion basés sur l’utilisation de plusieurs cadres de développement

(JSP, Perl et PHP), le logiciel libre d’ETL, le logiciel Talend Integration Studio

[http://www.talend.com], est désormais utilisé. Cette approche accélère le

processus de programmation et améliore grandement le contrôle de qualité.

Le processus de conversion d’un document Pubmed de format XML obtenu via

le service REST eFetch au format RDF est illustré ici.

Publier dans le web de données via REST

Le projet Bio2RDF a appliqué dès ses débuts les quatre règles

[http://www.w3.org/DesignIssues/LinkedData.html] du web sémantique énoncé par Tim Berner Lee pour

mettre à la disposition des chercheurs 40 points de services SPARQL proposant les bases de données

en bio-informatique les plus utilisées (Kegg, PDB, UniProt, etc.). À ces services SPARQL, s’ajoute les

services REST d’accès qui reposent sur trois services essentiels utilisés dans la construction de

processus de création d’un mashup :

1. Le service DESCRIBE retourne la définition d’une ressource en triplets;

2. Le service LINK permet d’obtenir la liste des références externes vers la ressource;

3. Le service SEARCH permet d’effectuer une recherche dans les littéraux du graphe.

En utilisant le logiciel Talend ESB, une nouvelle version des services REST initiaux a été développée

avec un minimum d’efforts de réalisation en consommant les services REST ou SOAP des fournisseurs

de données. Il s’agit d’un modèle de programmation efficace et économique prometteur.

Consommer du RDF pour construire un mashup

Pour illustrer la capacité du modèle du web sémantique à répondre à une question

complexe, on applique la stratégie suivante : construire une base de données spécialisée

pour répondre à chaque question.

Voici comment créer un mashup pour découvrir le domaine de recherche du projet

Bio2RDF. Le processus de construction est le suivant : 1) rechercher sur Pubmed à l’aide

du service SEARCH, les articles associés au mot clé ‘bio2rdf’ (6 résultats) 2) obtenir la liste

des articles qui les ont cités à l’aide du service LINK (85 résultats); 3) obtenir la version

RDF des métadonnées des 91 articles trouvés à l’aide du service DESCRIBE; 4) obtenir la

définition des termes MeSH employés via le point de service SPARQL de Bio2RDF. Une

fois les données obtenues, les charger dans un triplestore et exécuter la requête SPARQL

qui répond à la question en exploitant le réseau sémantique composé des citations par les

auteurs. Ce processus est entièrement automatisé avec un workflow Talend.

La réponse à la question: Bio2RDF est un projet de ‘Factual Database and Semantics’ ce

qui correspond bien à la réalité et ce qui n’avait pas été perçu par les annotateurs du NCBI

lors de sa publication initiale en 2008.

Conclusion

Il a été démontré qu’en utilisant le logiciel d’ETL Talend, il est possible de publier efficacement et à faible coût

des données scientifiques afin de contribuer à la construction du web sémantique scientifique. En consommant

les triplets, nous avons illustré comment construire un mashup capable de répondre à des questions

nécessitant l’intégration des données provenant de différentes sources. Le potentiel du web sémantique et des

données ouvertes en science est prometteur, il ne s’agit que du début.

Figure 2.3) La version RDF en format XML de la description de l’article où chaque élément d’information significatif a été transformé en triplet.

Figure 3.1) La description du service REST pour Pubmed développé à l’aide de la suite Talend ESB.

Figure 3.2) Le service REST de conversion au format RDF basés sur les services eFetch, eSearch et eLink du NCBI [http://www.ncbi.nlm.nih.gov/books/NBK25499].

Figure 4.3) La définition des termes MeSH qui répondent à la question.

Figure 4.1) Le workflow Talend utilisé pour construire le mashup en consommant les services REST de Bio2RDF.

Figure 4.2) La requête SPARQL pour obtenir la définition des mots clés les plus utilisés pour décrire le domaine de recherche de Bio2RDF.