32
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique X. AIME, F. FURST, P. KUNTZ & F. TRICHET [email protected] [email protected] pascale.kuntz,[email protected] LINA - UMR CNRS 6241 – Université de Nantes – FRANCE MIS – Université d’Amiens – FRANCE TENNAXIA – Paris – FRANCE

SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

Embed Size (px)

DESCRIPTION

Présentation de Xavier Aimé, Frédéric Fürst, Pascale Kuntz et Francky Trichet à IC 2009

Citation preview

Page 1: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

SEMIOSEM : une mesure de similarité

conceptuelle fondée sur une approche

sémiotique

X. AIME, F. FURST, P. KUNTZ & F. TRICHET

[email protected]@u-picardie.fr

pascale.kuntz,[email protected]

LINA - UMR CNRS 6241 – Université de Nantes – FRANCEMIS – Université d’Amiens – FRANCE

TENNAXIA – Paris – FRANCE

Page 2: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 2/32

Approche sémiotique

Extension

( instances )

Expression

( termes )

Intension

( propriétés )

Page 3: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 3/32

Mesures de type intensionnel (1/3)

hiérarchie de concepts

= graphe orienté

� Rada (1989) :

cCarte débit différé d

Carte

e f

Monnaie

Moyen de paiement

Le plus court chemin dans la hiérarchie is-a

= 0,33

Page 4: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 4/32

Mesures de type intensionnel (2/3)

� Resnik (1995) :

e fg h

a

b

racine � Leacock (1998) :

Le plus court chemin dans la hiérarchie is-a associé à la profondeur maximale

Carte débit différé

Carte Monnaie

Moyen de paiement

= 0,42

Page 5: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 5/32

Mesures de type intensionnel (3/3)

� Wu & Palmer (1994) :

df

g h

a

b

racine

Similarité entre deux concepts basée sur le PPPC (Plus Petit Père Commun)

Carte débit différé

Carte Monnaie

Moyen de paiement = 0,57

Page 6: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 6/32

Mesures de type extensionnel (1/3)

� Jaccard (1901) :

Ic1Ic2

Ic1 ∩∩∩∩ Ic2

Page 7: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 7/32

Mesures de type extensionnel (2/3)

� SimDice (c1 ,c2) = | Ic1 ∩ Ic2 |

Moy ( | Ic1 | , | Ic2 | )

� Plus régulier, même ordre et intervalle [0,1]

Ic1Ic2 Moy (Ic 1 , Ic2)

Ic1 ∩∩∩∩ Ic2

Ic1 ∩∩∩∩ Ic2

Page 8: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 8/32

Mesures de type extensionnel (3/3)

� d’Amato & Staab (2008) :

Ic1 Ic2Ic1 ∩∩∩∩ Ic2

Ipppc (c1,c2)

I

Page 9: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 9/32

Mesures de type expressionnel (1/4)

� Resnik :

t1............……. t2...….t2……………….…………

..............……. t2...….t2……………….…………

t2............……. t2...….t1……………….……t1……

..............……. ...….……………….…………

t1............……. t1...….t1…………t1….…………

t2............……. t2...….t2………t2…….………t2

............……. ....….t2……………….…………

..............……. ...………………….…………

t1............t1…. .....….t1……………….………t2

..............……. .....…………………….…………

..............……. t1...….t2……………….…………

Page 10: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 10/32

Mesures de type expressionnel (2/4)

� Resnik 2 :

df

g h

a

Objet de commerce

racine

Carte débit différé

Carte Monnaie

Moyen de paiement

Combinaison chemin dans la hiérarchie is-a + contenu information

Page 11: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 11/32

Mesures de type expressionnel (3/4)

� Lin (1998) :

df

g h

a

racine

Objet de commerce

Carte débit différé

Carte Monnaie

Moyen de paiement

Combinaison plus court chemin dans la hiérarchie is-a + contenu information

Page 12: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 12/32

Mesures de type expressionnel (4/4)

� Jiang (1997) :

df

g h

a

Objet de commerce

Carte débit différé

Carte Monnaie

Moyen de paiement

Combinaison chemin dans la hiérarchie is-a + contenu information

Page 13: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 13/32

Approche sémiotique

Extension

( instances )

Expression

( termes )

Intension

( propriétés )

Zoologue

Page 14: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 14/32

Approche sémiotique

Extension

( instances )

Expression

( termes )

Intension

( propriétés )

Visiteur d’un zoo

Page 15: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 15/32

Mesure de similarité à base sémiotique

� SEMIOSEM(c1,c2) = (αααααααα . intension (c1,c2)

+ ββββββββ . expression (c1,c2)

+ γγγγγγγγ . extension (c1,c2)) δδδδδδδδ

� Avec :

�� αααααααα + ββββββββ + γγγγγγγγ = 1, αααααααα ∈∈∈∈ [0,1], ββββββββ ∈∈∈∈ [0,1], γγγγγγγγ∈∈∈∈ [0,1]

�� αααααααα , ββββββββ , γγγγγγγγ pondération de l’influence des 3 composantes

�� δδδδδδδδ∈∈∈∈ ]0,+ ∝∝∝∝ [ pondération de l’état émotionnel

Page 16: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 16/32

Facteur émotionnel

delta < 1

delta > 1

SEMIOSEm

alpha . intension + bêta . expression + gamma . ext ension

delta > 1

Un état mental négatif affaiblit la similarité

delta < 1

Un état mental positif atténue la force dedissimilarité.

Page 17: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 17/32

Composante Intensionnelle (1/7)

� Propriété “peut flotter”

� Comment pouvons-nous déterminer l’importance de

cette propriété quand nous définissons ces concepts ?

Pondération des propriétés (Au Yeung 2006)

Page 18: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 18/32

Composante Intensionnelle (2/7)

� Propriété “peut flotter”

0 0.75 1

Peu important Très important

Pondération des propriétés

!!! Possibilité d’une pondération binaire : 0 ou 1 pour possède ou ne possède pas

Page 19: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 19/32

Composante Intensionnelle (3/7)

� Concept “Canard”

(… , 0.3 , 0.75 , 0.8, 0.4 , …)

A des plumes Peut flotter Peut voler Pond un oeuf

Vecteur caractéristique

Page 20: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 20/32

Composante Intensionnelle (4/7)

p0

p1

p2

Sous concepts de cp

=

Nuage de points

Vecteur caractéristique

Page 21: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 21/32

Composante Intensionnelle (5/7)

p0

p1

p2

Prototype de bateau

~

Barycentre du nuage de points

Vecteur prototype

Page 22: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 22/32

Composante Intensionnelle (6/7)

p0

p1

p2

Prototype de canard

~

Barycentre du nuage de points

Vecteur prototype

Page 23: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 23/32

Composante Intensionnelle (7/7)

p0

p1

p2

Intension ( c1 , c2 )

=

1 – distance ( prototype(c1) , prototype(c2) )

Intension

Distance euclidienne normée

Page 24: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 24/32

Composante Extensionnelle (1/2)

� Extension (c1 ,c2) = | Ic1 ∩ Ic2 |

| Ic1 | + | Ic2 | - | Ic1 ∩ Ic2 |

Ic1Ic2

Ic1 ∩∩∩∩ Ic2

Jaccard

Initialement

Page 25: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 25/32

Composante Extensionnelle (2/2)

� Extension (c1 ,c2) = | Ic1 ∩ Ic2 |

Moy ( | Ic1 | , | Ic2 | )

� Plus régulier, même ordre et intervalle [0,1]

Ic1Ic2

Dice

Moy (Ic 1 , Ic2)

Ic1 ∩∩∩∩ Ic2

Ic1 ∩∩∩∩ Ic2

Aujourd’hui

Page 26: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 26/32

Composante Expressionnelle (1/2)

� Fondée sur le nombre d’occurrences des termes

t1............……. t2...….t2……………….…………

..............……. t2...….t2……………….…………

t2............……. t2...….t1……………….……t1……

..............……. ...….……………….…………

t1............……. t1...….t1…………t1….…………

t2............……. t2...….t2………t2…….………t2

............……. ....….t2……………….…………

..............……. ...………………….…………

t1............t1…. .....….t1……………….………t2

..............……. .....…………………….…………

..............……. t1...….t2……………….…………

Page 27: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 27/32

Composante Expressionnelle (2/2)

Avec :

� t1∈terms(c1) , t2∈terms(c2) et terms(c) l’ensemble des termes désignant le

concept c ou un de ses descendants (direct ou non)

� count(ti) est le nombre d’occurrences du terme ti dans les documents du

corpus

� count(t1, t2) est le nombre de documents du corpus où les termes t1 et t2

apparaissent simultanément

� Ndoc est le nombre total de documents du corpus

� Nocc est la somme de tous les nombres d’occurrences de tous les termes du

corpus

Page 28: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 28/32

Proximité ou Similarité ?

� Composante Intensionnelle

� Comparaison des propriétés descriptives et fonctionnelles

� similarité

� Composante Extensionnelle

� Comparaison de la quantité d’individus extensions des deux concepts

simultanément

� similarité

� Composante Expressionnelle

� ~ probabilité d’avoir l’expression des deux concepts dans le même

document

� proximité

Faux jumeaux et vrais jumeaux

a aA A A A a

a aA A A A a

Page 29: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 29/32

Expérimentations

A (alpha = 0.7, bêta= 0.2 , gamma= 0.1, delta = 1)

B (alpha = 0.2 , bêta= 0.7, gamma= 0.1, delta = 1)

C (alpha = 0.2 , bêta= 0.1, gamma = 0.7, delta = 1)

D (alpha = 0.33 , bêta= 0.33, gamma = 0.33, delta = 1)

E (alpha = 0.7, bêta=0.2 , gamma=0.1 , delta = 0.1)

F (alpha = 0.7 , bêta= 0.2 , gamma= 0.1, delta = 5)

Page 30: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

IC'09 – Hammamet, Mai 2009 - 30/32

Limites

� Composante Intensionnelle

� La pondération des propriétés est assez chronophage (pour les

ontologies volumineuses)

� Composante Expressionnelle

� Termes ambiguës

� Contexte autour du terme (“ni m1 ni …”, “opposé de m1”…)

� Anaphores (“Pierre a une voiture, c’est la même que la mienne”)

� Facteur Émotionnel

� Pondération de l’état émotionnel de l’utilisateur

Page 31: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

Conclusion

� SEMIOSEM, une mesure de (quasi-)similarité :

� Adaptée au profil de l’utilisateur via

� la pondération des propriétés ;

� la définition d’un corpus caractéristique ;

� l’état émotionnel.

� Couvrant les trois dimensions d’une conceptualisation

� Qui n’est pas une distance (pas d’inégalité triangulaire)

� Indépendante du Plus Petit Père Commun, et par conséquent des choix

de modélisation.

IC'09 – Hammamet, Mai 2009 - 31/32

Page 32: SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

SEMIOSEM : une mesure de similarité

conceptuelle fondée sur une approche

sémiotique

X. AIME, F. FURST, P. KUNTZ & F. TRICHET

[email protected]@u-picardie.fr

pascale.kuntz,[email protected]

LINA - UMR CNRS 6241 - Université de Nantes – FRANCEMIS – Université d’Amiens – FRANCE

TENNAXIA – Paris – FRANCE