21
www.irstea.fr Pour mieux affirmer ses missions, le Cemagref devient Irstea Fabien AMARGER, Stephan BERNARD, Jean-Pierre CHANET, Catherine ROUSSEY Vers le développement du web de données agricoles

Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

Embed Size (px)

DESCRIPTION

annotation des Bulletins de Santé du Végétal en utilisant les technologies web sémantique. Objectif final développer le web de données agricol en proposant des ontologies dédiées et des méthodes d'enrichissement et de mises à jour propres à ce domaine

Citation preview

Page 1: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

www.irstea.fr

Pour mieux

affirmer

ses missions,

le Cemagref

devient Irstea

Fabien AMARGER, Stephan BERNARD, Jean-Pierre

CHANET, Catherine ROUSSEY

Vers le développement du web de données agricoles

Page 2: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

2

Plan

Web sémantique, Web de données

le web de données agricoles?

Système de Recherche d’Information sur les BSV

SWIP interroge des annotations RDF

Les ontologies agricoles: méthode de développement

Ontology Design Pattern

Thèse de Fabien Amarger: réutiliser des sources

Conclusion et perspectives

Page 3: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

3

Web sémantique, ontologies, web de données

Image de Benjamin Nowak

World Wide Web Consortium (W3C)

Page 4: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

4

Linked Open Data (LOD) ou web de donnéesETAT DES LIEUX

Publication des données et de leur schémas

sur le web

Identifier et lier les données

[ Franck van Harmelen 2008]

Agriculture dans le LOD?

Données géographiques,

Données statistiques

Sciences du vivant

(observation des espèces)

Page 5: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

5

Ontologies agricoles et recherche d'information

sémantique

Problématique

• Le web de données agricoles est peu développé

• Il existe de nombreuses sources d’information : thésaurus, BD, alertes

agricoles, textes réglementaires

• Comment construire des ontologies agricoles réutilisables pour publier sur le

web de données et développer des systèmes d’interrogation dédiés

Proposition

• Utiliser de Design Pattern Ontologiques (ODP) et des schémas connus de

vocabulaires de métadonnées [WOD 2013]

• Réutiliser et transformer des sources viables existantes [Thèse de Fabien

Amarger]

• Cas d’usage de l’application SWIP de l’IRIT : génération de patrons de

requêtes propres au domaine étudié

Cas d’étude

Bulletins de Santé du Végétal, données capteurs

Page 6: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

6

Sources de données agricoles

Plusieurs ressources dédiées au domaine agricole

•Thesaurus/ classification/ Taxonomie:

Agrovoc, TaxRef, NCBI

•Base de Données :

e-phy, EPPT

•XML Schema :

AGROXML, GIEA

•Collection de documents:

Bulletin de Santé du Végétal

•Forum/web site:

wikipedia, wikispecies

•Ontologies/ dataset RDF: biotop, plant, oboe

Web de Données Agricole

•Certaines sources sont déjà sur le web de données: Agrovoc, wikipedia

• Le web de données est principalement anglophone

Page 7: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

7

Perspectives sur les ontologies agricoles:QUE VEUT FAIRE IRSTEA

1. Proposer des méthodes de construction d’ontologies

Evaluer les méthodes existantes et les adapter pour les besoins agricoles

Réutiliser des sources de données non ontologiques

Automatiser la construction des ontologies pour des besoins spécifiques

Agriculture un cas particulier de modélisation spatio-temporelle

2. Améliorer la qualité des ontologies

Développer des méthodes de détection d'erreurs: Antipatterns

Concevoir et réutiliser des Design Patterns Ontologiques (ODP)

3. Eprouver l'utilité des ontologies dans des applications dédiées

Publier et lier des données agricoles sur le web de données

Rechercher et interroger des données agricoles

Observation des cultures + changement climatique

Observation des bio-agresseurs + préconisation de bonnes pratiques

Page 8: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

8

Processus d'Interrogation SWIP de l'IRITSEMANTIC WEB INTERFACE USING PATTERN

Interprétation de la requête en langage naturel

Ontologie +

triplets RDF

Requête exprimée en langage naturel

Requête exprimée en langage pivot

Liste de requêtes formelles classées

Patrons

Formalisation de la requête

en langage pivot

phrases explicatives

Interrogation en français d’une base de triplets RDF

Page 9: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

9

Le Système de Recherche d’Information

SWIP

pdf Internet

Archiveurl

Annotation Triple store RDF

pdf

Stockage

Interrogation

Modélisation

Ontologies

annotations

Page 10: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

10

Cas d'Usage: Annotation des Bulletin de Sante

du Végétal (BSV)Bulletin d’alerte français contient des observations sur le

développement des cultures et les risques d’attaques de leurs

agresseurs

BSV distribués sur le web au format pdf

BSV hétérogènes: Différents auteurs, Différents style de

présentation, Différents contenus (texte structuré, tableau, image)

Aider la recherche d'information dans ces BSV + reconstruire

des données d'observation des cultures documentées par les

BSV

Comment aider l'annotation de ces BSV pour construire

des ontologies sur les observations des cultures et de leurs

attaques?

• Annotations Spatio-temporelles,

•Interaction entre plusieurs organismes vivants: une plante cultivée et

ses agresseurs

Page 11: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

11

Irstea Agronomic TaxonDESIGN PATTERN ONTOLOGIQUES (ODP)

Il existe déjà des ODP en lien

avec l'agriculture

• FAO (projet Neon): isPestOf,

LinneanTaxonomy

• Données observations des

espèces disponibles sur le

Web de données :Geospecies

ontology, TaxonConcept, …

Fusion, intégration et

enrichissement de ces ODP

Pour répondre à nos besoins.

• Méthode de développement d’

ontologies à partir d’ODP

Page 12: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

12

Réutilisation de sources agricoles

Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI

Extraire des données de chaque source et les agréger en suivant les ODP

Construction d'ontologies modulaires

Page 13: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

13

Cas d'Usage: Annotations des BSVPROCESSUS ITÉRATIFS D'ANNOTATION

Ontologies

agricoles

1) Reformater les BSV

2) Tenir compte de la structure

des textes pour déduire des

données utiles

Annotation complexes=

•Attaque d'un type de culture

•Par un bio-agresseur

•Quand

•Où

•A quel niveau de risque

outil d'extraction d'information

La base d'annotations =

ontologie peuplée d'observations

des culturesAnnotations

RDF

Page 14: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

14

Collections des BSV à l'Irstea

Tous les bulletins de 2011 des 19 régions= 2825 BSV

Focus: grande culture de la région Bourgogne = 37 BSV

Projet Vespa de INRA

• Début: Automne 2013

• Analyse sociologique des BSV

• BSV stocké sur Internet Archive sous forme de collection

une page web par BSV

Problèmes rencontrés:

• Identifier les BSV et leur donner une URL valide

• Difficultés à extraire le contenu textuel des BSV

• Besoin de normalisation: les noms des filières agricoles

• La liste des cultures dépend du pays: plante un agresseur ou une

culture

Page 15: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

15

Conclusion et Perspectives

Des spécifications du workflow d’annotation des BSV en devenir

Besoin de définir un modèle d’annotations spatio-temporelles des

observations

Construction d’ ontologies modulaires basé sur des ODP

• 1 module créé / 5 modules

• AgronomicTaxon (WOD 2013)

• plantes cultivées, agresseurs, adventices, maladies

• Cultures: parcelle culturales avec un profil de culture

• Variétés et propriétées des variétées

• Observations spatio temporelles d'attaques sur les cultures

more on googlesite agriontology

Page 16: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

16

BSV

La région

La date de

parution

Les auteurs

Filière

agricole

Le numéro

Page 17: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

17

BSV

L’agresseur

Le stade de

développement

de la culture

la culture

Le niveau de risque

Page 18: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

18

Annotation fine : Objectifs

Page 19: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

19

Page 20: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

20

Agronomic Taxon

Page 21: Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

21

Processus d'annotation

Extraction

brute