51
2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes d’Information Chimique UMR 5076 Hétérochimie moléculaire et macromoléculaire École Nationale Supérieure de Chimie de Montpellier [email protected] ; http://sic.enscm.fr Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier UMR 5506 Université Montpellier II

Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Embed Size (px)

Citation preview

Page 1: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Atelier ‘Bases de données’ du GDR PARIS 7-8 avril 2004 Strasbourg

Les bases de données chimiquesen France

Claude Laurenço

Laboratoire des Systèmes d’Information ChimiqueUMR 5076 Hétérochimie moléculaire et macromoléculaire

École Nationale Supérieure de Chimie de [email protected] ; http://sic.enscm.fr

Laboratoire d’Informatique, de Robotique et de

Microélectroniquede Montpellier UMR 5506 Université Montpellier II

[email protected] ; http://www.lirmm.fr

Page 2: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Un peu d’histoire

Page 3: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

MEMEXVannevar BUSH, "As We May Think" Atlantic Monthly, 1945

http://www.theatlantic.com/flashbks/bushf.htm

• The memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility ....

• Wholly new forms of encyclopedias will appear, ready made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified ....

• The chemist, struggling with the synthesis of an organic compound, has all the chemical literature before him in his laboratory, with trails following the analogies of compounds, and side trails to their physical and chemical behavior ....

Page 4: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Évolution de l’information chimique

0,012 0,2 0,4 1 1,52,2

4

7,2

11,7

17,6

23,6

0

5

10

15

20

25

1907 1917 1927 1937 1947 1957 1967 1977 1987 1997 2004

Progression du nombre des Abstracts publiés par CAS depuis 1907 (en millions)

http://www.cas.org/EO/casstats.pdf

Page 5: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Évolution de l’information chimique

0,7 1,5 2,94,8 6,6

8,812

17,2

63,8

0

10

20

30

40

50

60

70

avant1965

1967 1972 1977 1982 1987 1992 1997 2004

Progression du nombre de substances ayant un CAS Registry Number (enmillions)

Page 6: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Quelques dates

• Années 60– Producteurs d’abstracts et d’index

• CAS, VINITI, ISI …

– Sociétés industrielles• ICI (Crossbow), Hoechst, BASF (IDC) …

• Années 70– CA Search (1976)– Cambridge Structural Database (1977)– MDL (1978) -> MACCS (1979)

http://www.chemheritage.org/explore/timeline/ELECTRON.HTMhttp://www.chemheritage.org/explore/timeline/CC1950.HTM

Page 7: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Quelques dates• Années 80

– J. Med. Chem. (1980)– DARC (1981)– REACCS (1982)– CAS file (1983)– Beilstein Online (1988)

• Années 90– ISIS ; Gmelin Database (1991)– Beilstein CrossFire (1994)– SciFinder (1995)

Page 8: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Sources d’information chimique

• Sources primaires– Articles de journaux, actes de

congrès, thèses, brevets, rapports …

• Sources secondaires– Index et résumés des sources

primaires : Chemical Abstracts, Current Contents …

• Sources tertiaires– Information sélectionnée et évaluée :

mises au point, livres, encyclopédies …

Page 9: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Comment accéder aux bases de données

chimiquesen France

Page 10: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Moyens d’accès aux bases de données chimiques

• Moyens ‘institutionnels’– Serveur TITANE & INIST– SciFinder Scholar– COUPERIN

• Autres moyens– Abonnements online– Abonnements Inhouse– CD Rom– WEB

Page 11: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Serveur national TITANE• Créé en 1995 par le dpt des Sciences Chimiques du

CNRS dans le cadre du GDR « Traitement informatique de la connaissance en chimie organique »

• Installé à l’Université Marseille III sous la responsabilité de A. Baldy

• Partenariat avec le Ministère de l’Éducation Nationale

• Transféré à l’INIST en 2002

• Gestion par INIST-Diffusion• Bases de données ‘tertiaires’ ; requêtes structurales,

sous-structurales, par mots clés, propriétés, références … analyse des résultats

• Formation à l’utilisation des bases par LSIC-ENSCM

http://www.inist.fr/titanesciences

Page 12: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Serveur national TITANE

• Système MDL®ISIS http://www.mdli.com/products

– ISIS/Host ; client : ISIS/Base + ISIS/Draw– Bases de données de molécules

• Available Chemicals Directory (250 000)• Comprehensive Medicinal Chemistry (8 000)• Drug Data Report (132 000)• National Cancer Institute Databases (213 000)• Toxicity Database (158 000)• Metabolite Database (40 000 + 64 000

transformations)

Page 13: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Serveur national TITANE

• Système MDL®ISIS http://www.mdli.com/products

– ISIS/Host ; client : ISIS/Base + ISIS/Draw– Bases de données de réactions (chimie

organique)

• ChemInform Reaction Lib. depuis 1992 (978 000)• Reference Library 1900-1991 (209 000)• Current Synthetic Methodology (75 300)• Derwent Journal of Synthetic Methods (73 300)• Solid-Phase Organic Reactions (17 500)• ORGSYN Database (5 600)

Page 14: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Serveur national TITANE• CrossFire (MDL http://www.mdli.com/products )

– Beilstein (ref. depuis 1771)• 8 millions de composés organiques ; 9 millions de

réactions• 37 millions de propriétés physiques, chimiques et

biologiques associées (350 champs)• 750 000 abstracts et titres indexés de la littérature

primaire de la chimie organique depuis 1980• 500 000 molécules bioactives

– Gmelin (ref. depuis 1772)• 1,6 millions de composés organométalliques et

inorganiques ; 1,3 millions de réactions• Propriétés physiques et chimiques associées (800

champs)• Recherche de catalyseurs et leurs activités

Page 15: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Serveur national TITANE

• Cambridge Structural DatabaseCambridge Crystallographic Data Centre : http://www.ccdc.cam.ac.uk

– Information cristallographique sur 250 000 composés organiques et organométalliques

– Interface graphique d’interrogation, visualisation 3D, calculs : analyses numériques, statistiques et graphiques

Page 16: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

INIST-Bibliosciences

• Bases de données– PASCAL (INIST)

• multidisciplinaire, dont 5% de chimie = 775 000 références depuis 1987

– CURRENT CONTENTS Search (ISI/SilverPlatter)

– SIGLE (EAGLE)

• multidisciplinaire ; couvre la littérature grise en Europe; 781 000

références depuis 1980

– INIS (AIEA)

• couvre le domaine des sciences et technologies nucléaires; 2,2

millions de références depuis 1970 ; chimie, matériaux, sciences de

la Terre, de la vie et de l’environnement, rayonnement, ingénierie

et technologies, physique …

http://www.inist.fr/bibliosciences

Page 17: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

SciFinder Scholar

• Depuis 2002 – À l’initiative du Ministère de l’Éducation Nationale,

en partenariat avec le dpt SC du CNRS– Gestion juridique et financière par l’ABES– Gestion locale par les BIU

• Interrogation croisée de 4 bases de données produites ou diffusées par CAS– CAplus – MEDLINE– CAS REGISTRY– CASREACT

http://www.cas.org/SCIFINDER/SCHOLAR

Page 18: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

SciFinder Scholar

• Bases de données bibliographiques– CAplus

• 23,6 millions d’enregistrements depuis 1907; analyse de 1500 journaux essentiels en chimie et surveillance de 9000 journaux ; actes de congrès ; rapports ; thèses ; brevets …

• Tous les domaines de la chimie et du génie chimique

– MEDLINE (US National Library of Medecine)• 13 millions de références depuis 1958 ; 3900 journaux du

domaine biomédical

• Requêtes en langage naturel ; procédures de tri des résultats selon différents points de vue …

Page 19: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

SciFinder Scholar

• Bases de données de molécules & de réactions– CAS REGISTRY

• 23 millions de substances organiques et inorganiques et 41

millions de bioséquences, depuis 1907

• Structures 2D, noms CAS et autres, CAS RN, propriétés calculées

– CASREACT (CAS, VINITI, ZIC, INPI)• 7,7 millions de réactions organiques, mono et multi-étapes• 426 000 publications

• Requêtes structurales et sous-structurales, par RN, par nom, par rôle …

Page 20: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

COUPERIN

COnsortium Universitaire de PERIodiques Numériqueshttp://couperin.cines.fr

• Créé en 1999 pour :– Mutualiser les moyens des bibliothèques universitaires– Négocier avec les éditeurs de périodiques numériques

• L’accès aux journaux en ligne permet l’utilisation des services– ChemPort dans SciFinder Scholar– LitLink dans ISIS (n’est pas disponible actuellement sur

TITANE)

Page 21: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Coûts d’accès à l’information• Facturation de l’INIST en 2004 aux laboratoires ou

groupes de laboratoires– Beilstein : 3450 € HT pour 4 postes, 540 € HT par poste

supplémentaire– Gmelin : 1025 € HT par poste– ISIS : 3125 € HT pour 3 postes, 438 € HT par poste

supplémentaire– Y compris 10% de gestion par INIST-Diffusion

• Abonnement des BIU à SciFinder en 2004– $ 57 712 HT moins 37 % de prise en charge par le

Ministère et le CNRS soit : $ 36 358 HT pour 3 accès simultanés

– $ 15 596 HT pour le passage de 3 à 5 accès simultanés

Page 22: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Chez nos voisins

• Grande Bretagne– Chemical Database Service (créé en 1992)

• Service analogue à TITANE• En plus :

– données spectroscopiques : SpecInfo/SpecSurf– Données physicochimiques : Detherm et ELYS

– MIMAS• Beilstein et Gmelin CrossFire• ISI Web of knowledge

– JISC = Joint Information Systems Commitee

Libre accès pour les universitaires britanniques

Page 23: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Chez nos voisins

• Pays-Bas– Centre for Molecular and Biomolecular

Informatics (créé en 1985)• Service analogue à TITANE pour la chimie• En plus :

– Planification de synthèse : LHASA– Modélisation moléculaire– Chimie théorique– Moyens de visualisation des structures

– Consortium de 10 universités néerlandaises– Libre accès pour les universitaires

Page 24: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Autres moyens d’accès aux bases de données

chimiques• Abonnements Online

– STN, Questel-Orbit, Dialog, SilverPlatter, THOMSON, Wiley, Thieme Verlag ….

• Abonnements Inhouse– Accelrys, Chemical Concepts, ADC/Labs …

• CD Rom– RSC, INRS

• Accès gratuit sur le WEB

Page 25: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

STN International

• Scientific & Technical Information Network– FIZ, ACS, JST– Plus de 210 bases de données– Cluster chimie : 45 bases– Cluster métaux : 22 bases– Cluster brevets : 24 bases

• MARPAT recherche par formules de Markush

• STN Express et langage Messenger• STN Easy, STN on the WEB• Représenté en France par CAPADOC

http://www.capadoc.com

http://www.stn-international.de

Page 26: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

THOMSON

• Derwent World Index http://thomsonderwent.com/products/

– Semble la base de données la plus complète sur les brevets dans tous les domaines

– 11 millions d’enregistrements ; 1,5 millions ajoutés par an

– Recherche par structure de Markush– Accès par différentes voies : STN, Dialog, etc.

• ISI Web of Knowledge http://www.isinet.com

– ISI Web of Science ( … Citation Index) plus ISI Chemistry (Reaction Center & Compound Center)

Page 27: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Thieme Verlag

• Science of Synthesis http://www.science-of-synthesis.com

– Version électronique de Houben-Weyl– 48 volumes, 39 000 pages– 5 000 méthodes– 15 000 schémas de réactions– 150 000 exemples de réactions

Page 28: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Accelrys

• Protecting groups– Littérature depuis 1913– Protection, déprotection et transprotection

des groupes fonctionnels– Chemo et régio-sélectivité– 39 000 réactions

• Failed reactions– 14 000 réactions

• Systèmes ISIS et Accord

http://www.accelrys.com

Page 29: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Chemical Concepts

• SpecInfo Inhouse, SpecInfo Internet– Bases de données de plus de 660 000

spectres de RMN, IR et Masse– Outils de élucidation de structures

http://www.chemicalconcepts.com

Page 30: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

ACD/Labs

• Bases de données spectrales• Outils de prédiction

-------------------------------------------------Inventaire des bases de données

spectrales http://www.lohninger.com/spectroscopy/dbsurvey.html

http://www.acdlabs.com

Page 31: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Accès gratuit sur le Web• Métabases de données

– Université de Sheffield http://www.chemdex.org– Chemical Database Service

http://cds.dl.ac.uk/cds/other_info_and_links/cheminf.html– Université de Liverpool, section chimie de la www.virtual Library : http://www.liv.ac.uk/Chemistry

• La page ‘Chemical Databases’ pointe sur 107 URL– Répertoire Galaxy http://www.galaxy.com/Science/Chemistry– Université de Haute-Alsace

http://www.scd.uha.fr/info_net_sciences.html– Bibliothèque Nationale de France

http://www.bnf.fr/pages/liens/d3/chim-d3.html– URFIST de Lyon, répertoire des bases de données gratuites

disponibles sur internet http://dadi.enssib.fr/– ChemWeb http://www.chemweb.com

• IUPAC http://www.chem.qmul.ac.uk/iupac http://www.iupac.org– Glossaires, Gold Book ….

Page 32: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Accès gratuit sur le Web• NIST (National Institute of Standards and Technology)

– Portail donnant accès à plus de 80 bases de données http://www.nist.gov/srd/chemistry.html

• Données physico-chimiques : thermodynamique et cinétique chimiques, spectres d’IR, de masse, d’UV-visible, etc. Constantes physiques.

• Base IUPAC-NIST des solubilités (30 000 mesures, 1028 substances …)

• NCSM (National Center for Manufacturing Sciences)– SOLV-DB http://solvdb.ncms.org

• Propriétés physiques et chimiques, catégories, sécurité, risques, fournisseurs ….

• Brevets– ‘Patent Information on the Internet’

http://www.chimia.ch/issues/toc/0005/Stauffer_Etscher_Litscher.pdf– Office européen des brevets http://ep.espacenet.com– http://www.delphion– http://www.uspto.gov/patft

Page 33: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Coût de la base de données Beilstein

• Réalisée par l’Institut Beilstein de 1983 à 1992 avec des fonds de l’État Fédéral Allemand (BMFT) = 31 M€

• Base + infrastructure = 28,6 M€• 1ère implantation sur STN = 2,3 M€

E. Zass, J. Chem. Inf. Comput. Sci. 1996, 36, 942-948R. Luckenbach, J. Chem. Inf. Comput. Sci. 1996, 36, 923-

929

Page 34: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Bases de données chimiques réalisées en

France

Page 35: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Bases de données chimiques françaises

• THERMODATA (avec INPG et UMS818 du CNRS ‘TherMa’) depuis 1974 http://thermodata.online.fr/thermafr/activite.html– 5 bases de données thermochimiques et suite logicielle ThermoSuite

permettant d’accéder aux propriétés thermodynamiques de 5000 substances et d’effectuer des calculs d’équilibres de phases dans des systèmes complexes.

• Thermochemical Database Project (TDB) http://www.nea.fr/html/dbtdb– Agence pour l’énergie nucléaire de l’OCDE

• Common Thermodynamic Database Project (CTDP) http://ctdp.ensmp.fr– Ensmp, CEA, EDF, IFP, IRSN, TOTAL

• BASSIST base de données thermodynamiques (radionucléides), CEA

Page 36: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Bases de données chimiques françaises

• SXD (UMR 7551) http://ulpchim.u-strasbg.fr/~sxd/pub

– Base de données expérimentales sur l’extraction liquide-liquide des métaux

• Database of Palladium Chemistry– Réactions, cycles catalytiques, paramètres chimiques– Développée par J.-L. Malleron et A. Juin (Aventis Pharma)– Distribuée en CD Rom par Elsevier/Academic Press

http://intl.elsevierhealth.com/catalogue

• Bases de données structurales sur les saccharides (CERMAV-CNRS) http://www.cermav.cnrs.fr

Page 37: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Bases de données chimiques françaises

• Chirbase (ENSSPICAMM-Université Marseille III)

http://chirbase.u-3mrs.fr– Bases de données sur les séparations chirales d’énantiomères

par chromatographie (95 000 séparations, 30 000 structures moléculaires)

– Système ISIS

• Diverses bases de données sur la gestion des produits chimiques– Voir ‘Profil français pour évaluer les capacités nationales de

gestion des produits chimiques’ http://www.industrie.gouv.fr/pratique/conseil/pdf/profil2000.pdf– Notamment l ’annexe 2 sur les bases de données (cf. bases de l’INRS)

http://www.industrie.gouv.fr/pratique/conseil/pdf/a2-prof2.pdf

Page 38: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Bases de données chimiques françaises

• Projet EuroSpec (INRA et partenaires européens)

http://www.eurospec.org– Développer une base de données spectroscopiques issues

de publications– Obtenir le soutien des éditeurs– Financement européen

• NMRShiftDB (Max-Planck-Institute) http://www.nmrshiftdb.org

– Open-source & open-content database

Page 39: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Quelques défauts des bases de données de

réactions• Le modèle de la réaction chimique adopté est trop imprécis

: les données sont hétérogènes car les schémas représentent indistinctement des réactions mono-étape et multi-étapes

• Le modèle n’est pas hiérarchique : les données sont ‘à plat’ et relatives à des réactions particulières

• Certains algorithmes sont défectueux ou inadaptés : notamment la détermination automatique du ‘mapping’

• Le contenu des bases reflète-t-il l’état actuel des connaissances? Exhaustivité? Résultats négatifs?

J. Coste, O. Gien, A. Dietz et C. Laurenço , L’Actualité Chimique (1999)

Page 40: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Quels progrès?

• Conception de nouveaux systèmes– ingénierie des connaissances : modèles, ontologies

…– technologies Web– construction de bases de données à partir

d’expérimentations programmées

• Amélioration des systèmes existants– modèles– extraction de connaissances à partir des bases de

données ; organisation des données ; métadonnées

Page 41: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Extraction de connaissances à partir de

bases de données

base de données

données ciblesdonnées pré-traitées

données transformées

modèles

connaissances

sélection

pré-traitement

transformation

fouille de données

interprétation/évaluation

analyste

Page 42: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Une (?) réaction dans une base de données ISIS

Page 43: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Une (?) réaction dans une base de données ISIS

Page 44: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

l’exemple de la Chimiothèque Nationale

du CNRS

Page 45: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

La Chimiothèque Nationale

• « Groupement de Service » créé en juillet 2003 par une convention entre le CNRS et 17 établissements de l'enseignement supérieur et de la recherche publique

• Mission : fédérer et valoriser les collections de produits de synthèse et d'extraits de substances naturelles existants dans les laboratoires publics français

• Plus de 20.000 substances répertoriées mi-2003

http://chimiotheque-nationale.ujf-grenoble.fr/GDS/index.html

Page 46: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

La Chimiothèque Nationale

Objectifsrapidement :

• Diffusion via le web de la disponibilité des substances (requêtes structurales et sous-structurales)

à terme :

• Enrichissement par des descripteurs structuraux

• Couplage chimiothèque-ciblothèque

• Criblage virtuel• Etc.

Page 47: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

La Chimiothèque Nationale

système d’information et flux de données

Base de donnéesnationale

Traitementdes

requêtes

Fichierlog

laboratoire

serveur national

Utilisateur

Base de donnéeslocale1

3

diffusion

4

5

72

Fusion desdonnées

6

WEB

FormatStandard

(SDF normalisé)

Page 48: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

La Chimiothèque Nationale

synthèse des solutions étudiées

ORACLE

Client

Serveur

Couche métier

SGBD

Plate-forme

MDL Draw +devt à façon

Windows Appl. Server

Windows Server

Accord Dev. Studio ProAccord Grid Control Pro

MDL Draw +devt à façon

BEA WeblogicJSP

Windows Serverou Solaris

Apache+ ASP

Linux Redhat

Solution MDL(licence par nb

d’utilisateurs nommés)

Solution ACCELRYS(licence par nb

d’utilisateurs nommés)

Solution ID-BS(licence par nb

d’utilisateurs nommés)

MDL FrameWork Accord Enterprise Activity Base

Page 49: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

SGBD pour la chimie :principales solutions commerciales

Domaines couverts

synthèse

Analyse

modélisation

QSAR

architecture

autonome

Client/Serveur

API

1) Accord Enterprise (accelrys.com)2) DS Accord for Excel (accelrys.com)3) Chemfolder (acdlabs.com)4) Web Librarian (acdlabs.com)5) KnowItAll (knowitall.com)6) ChemOffice (camsoft.com)7) ChemOffice Ent. (camsoft.com)8) JchemBase (chemaxon.com)9) MOE Database (chemcomp.com)10) SpecInfo (chemicalconcepts.com)11) Hyperchem (chemistrysoftware.com)12) MOLSEARCH (molsearch.com)

13) DayCart (daylight.com)14) THOR / MERLIN (daylight.com)15) ActivityBase (idbs.co.uk)16) SciDex (lci-publisher.com)17) Isentris (mdli.com)18) ISIS/Desktop (mdli.com)19) ISIS/Host (mdli.com)20) C@rol (mol-net.de)21) misearch toolkit (cheminspiration.com)22) ChemTK (sageinformatics.com)23) Ched (timtec.com)

2,3,5,6,9,11,12,1825,26

1,4,7,8,9,10,15,16,17,19,20,21,23

1,3,4,6,7,8,11,13,14,15,16,17,18

1,2,3,4,6,7,8,13,14,15,17,18,19,23

3,4,6,7,8,10,11,23

3,4,5,6,7,8,9,10,11,20

1,2,4,5,6,7,8,9,11,12,13,14,15,16,17,18,19,20,21,22

Page 50: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Futur?• Internet Interspace : infrastructure d’information

permettant de naviguer d’un concept à un autre (plutôt que d’un document à un autre) à travers des réseaux d’entrepôts de données maintenus par des communautés scientifiques spécialisées dans des domaines plus ou moins restreints.

R.B. Schatz, Computer, 2002, 54-62

• Problème de l’information chimique– Production, diffusion, conservation, exploitation– Libre accès à l’information scientifique– Normalisation des données, développement d’ontologies de la

chimie– Cahiers de laboratoire électroniques

http://pubs.acs.org/hotartcl/ci/00/jan/inet.html

– ….

Page 51: Atelier Bases de données du GDR PARIS 7-8 avril 2004 Strasbourg Les bases de données chimiques en France Claude Laurenço Laboratoire des Systèmes dInformation

Remerciementsà

Ph. Jauffret & J. Coste