21
Plugin SMILK données liées et traitement de la langue pour plus d'intelligence dans la navigation sur le Web Elena Cabrio, Jordan Calvi, Fabien Gandon, Cédric Lopez, Farhad Nooralahzadeh , Thibault Parmentier, Frédérique Segond

Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Embed Size (px)

Citation preview

Page 1: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Plugin SMILKdonnées liées et traitement de la langue pour plus d'intelligence dans la navigation sur le Web

Elena Cabrio, Jordan Calvi, Fabien Gandon,Cédric Lopez, Farhad Nooralahzadeh,

Thibault Parmentier, Frédérique Segond

Page 2: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Plan of the Talk(1) Overall view of the goals of SMILK Joint Lab

• Objective• Framework and Technology

(2) Guided tour of the SMILK Plugin (1st Prototype)augmentedbrowsing withNLP & LOD

Page 3: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Context

&

Page 4: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

SMILK Joint Laboratory between INRIA & VISEO (ANR) [2014 - 2017]

Objectives: To obtain unambiguous and non-

redundant information from the web, in order to establish correlations between

the concepts and identify new links

Page 5: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Leveraging dataFrom extraction to enrichment

Raw Data

Knowledge

Being able to analyze textual data in order to extract meaning,

Identify links between data in order to discover more information

Enriching information with data from the Web without creating

ambiguity or redundancy

1

2

3

Page 6: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

At the border of NLP and Semantic Web

How to extract the semantics contained in raw texts?

How to link such data?

How to navigate through this data?

How to structure the semantics contained in raw text?

How to disambiguate data using the LOD ?

Page 7: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

‹N°›

REcognition of Named entity in COsmetic (RENCO)

Objective : To extract entities of interest in the Cosmetic domain

Rule-based system (+ learning) whose specifications were developed consequently by studying over a corpus of French journalistic articles (Beauté Info, Cosmétique Mag, …)

➢ Definitional rules: Hyponymy and Hypernymy relations + context

➢ Hierarchical rules: based on the hierarchy of entity types (schema) and enables the building of an ontological resource

Ex(FR): Les marques telles que Lancôme et Guerlain; Le groupe L’Oréal Ex(EN): Brands such as Lancôme and Guerlain; L’Oréal group

Ex(FR): La petite robe noire de Guerlain(LVMH)

Page 8: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

‹N°›

REcognition of Named entity in COsmetic (RENCO)

➢ Coordination rules: use the coordination (« et », « ou », punctuation…)

➢ Intern rules: use the internal context of an entity

➢ Semantic rules: use verbs for the identification of a subject and/or complement

Lopez et al. Generating a Resource for Products and Brand Names Recognition. Application to the Cosmetic Domain (LREC'14).

Ex(FR): Yves Rocher, Diptyque et DieselEx(EN): Yves Rocher, Diptyque and Diesel

Ex(FR): L’Oréal Grand Public

Ex(FR): Vichy lance Dercos NeogenicEx(EN): Vichy introduces Dercos Neogenic

Page 9: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

PRoVOC (PROduct VOCabulary)

Page 10: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Entity Linking

Page 11: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Use case

Product and brand names recognition

Brandname

0 Recognizing entities using their context

La marque Claremont & May a lancé sa crème extra-fluide Sun Light actif

Brand name Product Name

« actif » is included in the entity

11

2 3

4

5

6

Page 12: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Use caseFinding information about brand names

Brand name1 Operating a public knowledge base :

Open Data (linking)

0 Recognizing entities using their context.

Dbpedia:

3,4 millions of entries:• Persons• Locations• Music albums• Video games• Diseases• etc.

Page 13: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

SMILK

Use caseFinding information about brand names

Brand name1

2

Operating a public knowledge base : Open Data

Constructing a private knowledge base dedicated to the domain and enriched while browsing

0 Recognizing entities using their context.

Product

Range

Brand nameDivision

Group Ex: L’Oréal

Ex: L’Oréal Produits Grand Public

Ex: L’Oréal Paris

Ex: Revitalift Laser X3

Ex: Revitalift

The Bio-Buste Suractive cream.La petite robe noire by Guerlain (LVMH)Yves Rocher, Diptyque et DieselL’Oréal Grand PublicVichy launches Dercos Neogenic

RENCO

Page 14: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Use case•Finding information about brand names

Brand name

Con

cept

s as

soci

ated

Opinions

ParfumGel douche

Contour des yeuxTeint Prix

Regard

1

2

3

Operating a public knowledge base : Open Data

Constructing a private knowledge base dedicated to the domain and enriched while browsing

Analyzing messages from Social Media.

0 Recognizing entities using their context.

Page 15: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

SMILK - pluginStep 1 – Recognizing entities

Page 16: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

SMILKStep 2 – Entity Linking from text and data

Page 17: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

www.chanel.com

SMILKStep 3– Enriching information

Page 18: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

SMILKStep 4 – Accessing new sources and pursue the browsing

Page 19: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Our final goal is to …

19

•Extract and structure knowledge automatically

•Create links that make sense between data

• Integrate knowledge from different domains

•Share knowledge

•Reason on knowledge

•Generate knowledge

… to support Business Intelligence

Page 20: Plugin smilk : données liées et traitement de la langue pour améliorer la navigation web

Our current solution …

20

… to support Business Intelligence