32
Pourquoi fouiller les publications scientifiques ? Mathieu Roche ABES - 21 mai 2014 1 / 32

Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

  • Upload
    abes

  • View
    339

  • Download
    0

Embed Size (px)

DESCRIPTION

Journées ABES 2014 - 21 mai 2014 - Session "ISTEX et le Text and Data Mining" - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur - Mathieu Roche , CIRAD - UMR TETIS : "Le TDM côté chercheur : besoins, méthodologie et résultats". Une illustration du potentiel de la "fouille de texte" (TDM) appliquée à la recherche environnementale et de santé publique.

Citation preview

Page 1: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

Pourquoi fouiller les publicationsscientifiques ?

Mathieu Roche

ABES - 21 mai 2014

1 / 32

Page 2: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Plan

1 Introduction

2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation

3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

4 Prospectives

2 / 32

Page 3: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les 3V du "Big Data"

Volume : Données massives

Variété : Données hétérogènes "syntaxiquement" et"sémantiquement"

Vélocité : Données disponibles par flux

Et encore plein d’autres V : Versatilité, Véracité, Visualisation,Valorisation, etc.

3 / 32

Page 4: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Fouille de données

4 / 32

Page 5: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

1 Introduction

2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation

3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

4 Prospectives

5 / 32

Page 6: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Extraction/Acquisition Exploitation/Filtrage

Processus de Fouille de Textes

- - - -- - - -- - - -- - - -

- - - -- - - -- - - -- - - -

- - - -- - - -- - - -- - - -

DonnéesTextuelles Connaissances

6 / 32

Page 7: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Les descripteurs linguistiques

Exemple

Il vend son bien de Montpellier

7 / 32

Page 8: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Traitement linguistique du mot

Sélection des mots ayant une fonction grammaticale définie(par exemple, noms, verbes, adjectifs)→ sélection des mots vend , bien et MontpellierRemarque : distinction du mot bien entre nom, adverbe et adjectif

Exemple - Etiquetage

Il/Pronom vend/Verbe son/AdjPoss bien/Nom de/PrepMontpellier/NomPropre

Principe de l’étiquetage grammatical (Brill’s tagger) :

lexiques

règles lexicales

règles contextuelles

8 / 32

Page 9: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Traitement linguistique du mot

Rassemblement des mots d’une même famille présents sous formefléchie : lemmatisation ou radicalisation→ vend : vendre

Ajout de connaissances sémantiques→ vendre est lié au concept du Commerce

Résolution anaphorique→ remplacement du pronom

9 / 32

Page 10: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Traitement linguistique du syntagme

Des collocations aux syntagmes/termes

Sens global déductible des unités composant le groupe(chapeau en paille)Connaissances sémantiquesConnaissances syntaxiques (patrons ADJ-NOM,NOM-PREP-NOM, etc)

Méthodes de TAL pour l’extraction de syntagmes/termes :linguistiques, statistiques, mixtes

10 / 32

Page 11: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Résumé : du Corpus... aux descripteurs linguistiques

Mais pour des personnes très spontanées ...

Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ...

Etiquetage

Extraction des descripteurs (par

exemple, syntagmes)

fichier clientsconseiller clientèlefront pageassurance qualitélogiciel ciel...

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Corpus

Nettoyage

Normalisation

Processus de Fouille de textes

11 / 32

Page 12: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

1 Introduction

2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation

3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

4 Prospectives

12 / 32

Page 13: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Recherche d’Information

Première étape : représentation des textes... l’approche "sac demots"

Pondération statistique des descripteurs : TF, IDF, TF-IDF,13 / 32

Page 14: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Deuxième étape : Application d’un algorithme d’apprentissage

K plus proches voisins (KPPV) :

But : déterminer les K plus proches voisins de textes à prédire

Principe : La classe majoritaire propre à ces K plus proches voisinsest choisie pour les textes à prédire (ou la classe majoritaire aprèspondération avec la mesure de similarité)

Paramètres : La valeur K et la mesure de similarité (par exemple,la mesure cosinus)

14 / 32

Page 15: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Deuxième étape : Application d’un algorithme d’apprentissage

K plus proches voisins (KPPV) - Exemple :

15 / 32

Page 16: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

1 Introduction

2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation

3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

4 Prospectives

16 / 32

Page 17: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Précision = 910 = 90%

17 / 32

Page 18: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Précision = 910 = 90%

18 / 32

Page 19: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation

Précision = 910 = 90% / Rappel = 9

50 = 18%

19 / 32

Page 20: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

1 Introduction

2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation

3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

4 Prospectives

20 / 32

Page 21: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

corpus Cirad (∼15 Mo)

corpus TETIS (∼500 Ko)

Merci à la Délégation à l’Information Scientifique Technique du Cirad

21 / 32

Page 22: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

• Identification automatique d’acronymes dans les textes (1)

Méthode

Étape 1 : Extraction des candidats (méthode par patron)

Étape 2 : Filtrage des candidats (méthode statistique)

Mesure Web (fouille du Web) :

WebDice(acro, def ) =2×hits(acro,def )

hits(acro)+hits(def )

Exemple :WebDice(BSV ,Banana streak virus) =2×hits(”BSV ” AND ”Banana streak virus”)

hits(”BSV ”)+hits(”Banana streak virus”)

22 / 32

Page 23: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

• Identification automatique d’acronymes dans les textes (2)

Résultats (données Cirad) :

Acronym Possible definition WebDice

ATPSM Agricultural Trade Policy Simulation Model 1.3014TYLCV Tomato yellow leaf curl virus 0.7167NRPS NonRibosomal Peptide Synthetase 0.4423CIAT Centro international de agricultura tropical 0.1408ACMV African cassava mosaic virus 0.0970CSSV Cacao swollen shoot virus 0.0245VLE Virtual Laboratory Environment 0.0222CLF Corynespora Leaf Fall 0.0208BSV Banana streak virus 0.0053BMR Bois Massif Reconstitué 0.0046ER Ehrlichia ruminantium 0.0004

BASIC Brésil, Afrique du Sud, Inde, Chine 0.0001ASA Articulation du Semi-aride 0MAE Mesures agrienvironnementales 0

[Roche, ISA workshop’2014]23 / 32

Page 24: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

• Identification automatique d’Entités Spatiales (ES) dans les textes

Utilisation de patrons d’extraction pour identifier

des indicateurs spatiaux (orientation, distance, adjacence, inclusion,figure géométrique)

des Entités Spatiales Absolues et Relatives

[Kergosien et al., IJGIS’2014]

24 / 32

Page 25: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

• Identification automatique des termes dans les textes (1)

Travaux menés avec Sophie Fortuno, (Cirad, TETIS)

Méthode

Étape 1 : Extraction des candidats termes (méthodes linguistiques +statistiques)

Exemple : "soft contact" vs. "soft contact lens"

Étape 2 : Filtrage des candidats (combinaison avec d’autres méthodes +des ressources comme Agrovoc)

25 / 32

Page 26: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

• Identification automatique des termes dans les textes (2) – Étape 1

[Lossio et al., IJKDB’2014]26 / 32

Page 27: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

• Identification automatique des termes dans les textes (3) – Étape 2

+ prise en compte d’Agrovoc (vocabulaire contrôlé issu de la FAO –Food and Agriculture Organization)

27 / 32

Page 28: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

• Identification automatique des termes dans les textes (3) – Résultats

Résultats quantitatifs [stage étudiants en informatique (Master IPS)]

Corpus Cirad : 28% des termes simples / 12% des termescomposés de BioTex sont présents dans Agrovoc

Corpus TETIS : 25% des termes simples / 1% des termescomposés de BioTex sont présents dans Agrovoc

Résultats qualitatifs [stage étudiante "Ressources documentaires et basesde données"]

Définition de critères de pertinence liés à l’indexation :sélectivité, objectivité, cohérence, indépendance contextuelle

28 / 32

Page 29: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

• Identification automatique des termes dans les textes (3) – RésultatsExemples de termes (en français) : développement durable, sécuritéalimentaire, croissance démographique, développement rural,aménagement du territoire, gouvernance territoriale, etc.

Publication en Open Data (CKAN – Comprehensive KnowledgeArchive Network) :Mise en correspondance des (1) termes extraits, (2) entités spatiales, (3)publications Cirad associées (numéros)

29 / 32

Page 30: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

1 Introduction

2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation

3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie

4 Prospectives

30 / 32

Page 31: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Veille d’épidémiologie animale : Comment détecter des signaux faiblesdans la masse de données ?

Croisement des publications avec d’autres types de données (dépêches,presse, tweets, etc.)

31 / 32

Page 32: Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

IntroductionLes algorithmes pour fouiller les documents

La fouille des publications scientifiques au CiradProspectives

Remerciements

Les chercheurs : Sophie Fortuno (Cirad, TETIS), MaguelonneTeisseire (Irstea, TETIS), Eric Kergosien (LIRMM), Juan AntonioLossio (LIRMM)

Les documentalistes : Marie-Claude Deboin (Cirad),Marie-Christine Duchamp (Cirad), Marie-Francoise Fily (Cirad),Josée Lessard (Cirad), Sylvie Blin-Sarah (Irstea)

Les étudiants : L3 - UM3 : Marie-Odile Aptel-Barral, M1 IPS -UM2 : Amira Akli, Thinhinan Lounis, Serigne Toure, Salim Belkebir

32 / 32