SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique

Preview:

DESCRIPTION

Présentation de Xavier Aimé, Frédéric Fürst, Pascale Kuntz et Francky Trichet à IC 2009

Citation preview

SEMIOSEM : une mesure de similarité

conceptuelle fondée sur une approche

sémiotique

X. AIME, F. FURST, P. KUNTZ & F. TRICHET

xaime@tennaxia.comfrederic.furst@u-picardie.fr

pascale.kuntz,francky.trichet@univ-nantes.fr

LINA - UMR CNRS 6241 – Université de Nantes – FRANCEMIS – Université d’Amiens – FRANCE

TENNAXIA – Paris – FRANCE

IC'09 – Hammamet, Mai 2009 - 2/32

Approche sémiotique

Extension

( instances )

Expression

( termes )

Intension

( propriétés )

IC'09 – Hammamet, Mai 2009 - 3/32

Mesures de type intensionnel (1/3)

hiérarchie de concepts

= graphe orienté

� Rada (1989) :

cCarte débit différé d

Carte

e f

Monnaie

Moyen de paiement

Le plus court chemin dans la hiérarchie is-a

= 0,33

IC'09 – Hammamet, Mai 2009 - 4/32

Mesures de type intensionnel (2/3)

� Resnik (1995) :

e fg h

a

b

racine � Leacock (1998) :

Le plus court chemin dans la hiérarchie is-a associé à la profondeur maximale

Carte débit différé

Carte Monnaie

Moyen de paiement

= 0,42

IC'09 – Hammamet, Mai 2009 - 5/32

Mesures de type intensionnel (3/3)

� Wu & Palmer (1994) :

df

g h

a

b

racine

Similarité entre deux concepts basée sur le PPPC (Plus Petit Père Commun)

Carte débit différé

Carte Monnaie

Moyen de paiement = 0,57

IC'09 – Hammamet, Mai 2009 - 6/32

Mesures de type extensionnel (1/3)

� Jaccard (1901) :

Ic1Ic2

Ic1 ∩∩∩∩ Ic2

IC'09 – Hammamet, Mai 2009 - 7/32

Mesures de type extensionnel (2/3)

� SimDice (c1 ,c2) = | Ic1 ∩ Ic2 |

Moy ( | Ic1 | , | Ic2 | )

� Plus régulier, même ordre et intervalle [0,1]

Ic1Ic2 Moy (Ic 1 , Ic2)

Ic1 ∩∩∩∩ Ic2

Ic1 ∩∩∩∩ Ic2

IC'09 – Hammamet, Mai 2009 - 8/32

Mesures de type extensionnel (3/3)

� d’Amato & Staab (2008) :

Ic1 Ic2Ic1 ∩∩∩∩ Ic2

Ipppc (c1,c2)

I

IC'09 – Hammamet, Mai 2009 - 9/32

Mesures de type expressionnel (1/4)

� Resnik :

t1............……. t2...….t2……………….…………

..............……. t2...….t2……………….…………

t2............……. t2...….t1……………….……t1……

..............……. ...….……………….…………

t1............……. t1...….t1…………t1….…………

t2............……. t2...….t2………t2…….………t2

............……. ....….t2……………….…………

..............……. ...………………….…………

t1............t1…. .....….t1……………….………t2

..............……. .....…………………….…………

..............……. t1...….t2……………….…………

IC'09 – Hammamet, Mai 2009 - 10/32

Mesures de type expressionnel (2/4)

� Resnik 2 :

df

g h

a

Objet de commerce

racine

Carte débit différé

Carte Monnaie

Moyen de paiement

Combinaison chemin dans la hiérarchie is-a + contenu information

IC'09 – Hammamet, Mai 2009 - 11/32

Mesures de type expressionnel (3/4)

� Lin (1998) :

df

g h

a

racine

Objet de commerce

Carte débit différé

Carte Monnaie

Moyen de paiement

Combinaison plus court chemin dans la hiérarchie is-a + contenu information

IC'09 – Hammamet, Mai 2009 - 12/32

Mesures de type expressionnel (4/4)

� Jiang (1997) :

df

g h

a

Objet de commerce

Carte débit différé

Carte Monnaie

Moyen de paiement

Combinaison chemin dans la hiérarchie is-a + contenu information

IC'09 – Hammamet, Mai 2009 - 13/32

Approche sémiotique

Extension

( instances )

Expression

( termes )

Intension

( propriétés )

Zoologue

IC'09 – Hammamet, Mai 2009 - 14/32

Approche sémiotique

Extension

( instances )

Expression

( termes )

Intension

( propriétés )

Visiteur d’un zoo

IC'09 – Hammamet, Mai 2009 - 15/32

Mesure de similarité à base sémiotique

� SEMIOSEM(c1,c2) = (αααααααα . intension (c1,c2)

+ ββββββββ . expression (c1,c2)

+ γγγγγγγγ . extension (c1,c2)) δδδδδδδδ

� Avec :

�� αααααααα + ββββββββ + γγγγγγγγ = 1, αααααααα ∈∈∈∈ [0,1], ββββββββ ∈∈∈∈ [0,1], γγγγγγγγ∈∈∈∈ [0,1]

�� αααααααα , ββββββββ , γγγγγγγγ pondération de l’influence des 3 composantes

�� δδδδδδδδ∈∈∈∈ ]0,+ ∝∝∝∝ [ pondération de l’état émotionnel

IC'09 – Hammamet, Mai 2009 - 16/32

Facteur émotionnel

delta < 1

delta > 1

SEMIOSEm

alpha . intension + bêta . expression + gamma . ext ension

delta > 1

Un état mental négatif affaiblit la similarité

delta < 1

Un état mental positif atténue la force dedissimilarité.

IC'09 – Hammamet, Mai 2009 - 17/32

Composante Intensionnelle (1/7)

� Propriété “peut flotter”

� Comment pouvons-nous déterminer l’importance de

cette propriété quand nous définissons ces concepts ?

Pondération des propriétés (Au Yeung 2006)

IC'09 – Hammamet, Mai 2009 - 18/32

Composante Intensionnelle (2/7)

� Propriété “peut flotter”

0 0.75 1

Peu important Très important

Pondération des propriétés

!!! Possibilité d’une pondération binaire : 0 ou 1 pour possède ou ne possède pas

IC'09 – Hammamet, Mai 2009 - 19/32

Composante Intensionnelle (3/7)

� Concept “Canard”

(… , 0.3 , 0.75 , 0.8, 0.4 , …)

A des plumes Peut flotter Peut voler Pond un oeuf

Vecteur caractéristique

IC'09 – Hammamet, Mai 2009 - 20/32

Composante Intensionnelle (4/7)

p0

p1

p2

Sous concepts de cp

=

Nuage de points

Vecteur caractéristique

IC'09 – Hammamet, Mai 2009 - 21/32

Composante Intensionnelle (5/7)

p0

p1

p2

Prototype de bateau

~

Barycentre du nuage de points

Vecteur prototype

IC'09 – Hammamet, Mai 2009 - 22/32

Composante Intensionnelle (6/7)

p0

p1

p2

Prototype de canard

~

Barycentre du nuage de points

Vecteur prototype

IC'09 – Hammamet, Mai 2009 - 23/32

Composante Intensionnelle (7/7)

p0

p1

p2

Intension ( c1 , c2 )

=

1 – distance ( prototype(c1) , prototype(c2) )

Intension

Distance euclidienne normée

IC'09 – Hammamet, Mai 2009 - 24/32

Composante Extensionnelle (1/2)

� Extension (c1 ,c2) = | Ic1 ∩ Ic2 |

| Ic1 | + | Ic2 | - | Ic1 ∩ Ic2 |

Ic1Ic2

Ic1 ∩∩∩∩ Ic2

Jaccard

Initialement

IC'09 – Hammamet, Mai 2009 - 25/32

Composante Extensionnelle (2/2)

� Extension (c1 ,c2) = | Ic1 ∩ Ic2 |

Moy ( | Ic1 | , | Ic2 | )

� Plus régulier, même ordre et intervalle [0,1]

Ic1Ic2

Dice

Moy (Ic 1 , Ic2)

Ic1 ∩∩∩∩ Ic2

Ic1 ∩∩∩∩ Ic2

Aujourd’hui

IC'09 – Hammamet, Mai 2009 - 26/32

Composante Expressionnelle (1/2)

� Fondée sur le nombre d’occurrences des termes

t1............……. t2...….t2……………….…………

..............……. t2...….t2……………….…………

t2............……. t2...….t1……………….……t1……

..............……. ...….……………….…………

t1............……. t1...….t1…………t1….…………

t2............……. t2...….t2………t2…….………t2

............……. ....….t2……………….…………

..............……. ...………………….…………

t1............t1…. .....….t1……………….………t2

..............……. .....…………………….…………

..............……. t1...….t2……………….…………

IC'09 – Hammamet, Mai 2009 - 27/32

Composante Expressionnelle (2/2)

Avec :

� t1∈terms(c1) , t2∈terms(c2) et terms(c) l’ensemble des termes désignant le

concept c ou un de ses descendants (direct ou non)

� count(ti) est le nombre d’occurrences du terme ti dans les documents du

corpus

� count(t1, t2) est le nombre de documents du corpus où les termes t1 et t2

apparaissent simultanément

� Ndoc est le nombre total de documents du corpus

� Nocc est la somme de tous les nombres d’occurrences de tous les termes du

corpus

IC'09 – Hammamet, Mai 2009 - 28/32

Proximité ou Similarité ?

� Composante Intensionnelle

� Comparaison des propriétés descriptives et fonctionnelles

� similarité

� Composante Extensionnelle

� Comparaison de la quantité d’individus extensions des deux concepts

simultanément

� similarité

� Composante Expressionnelle

� ~ probabilité d’avoir l’expression des deux concepts dans le même

document

� proximité

Faux jumeaux et vrais jumeaux

a aA A A A a

a aA A A A a

IC'09 – Hammamet, Mai 2009 - 29/32

Expérimentations

A (alpha = 0.7, bêta= 0.2 , gamma= 0.1, delta = 1)

B (alpha = 0.2 , bêta= 0.7, gamma= 0.1, delta = 1)

C (alpha = 0.2 , bêta= 0.1, gamma = 0.7, delta = 1)

D (alpha = 0.33 , bêta= 0.33, gamma = 0.33, delta = 1)

E (alpha = 0.7, bêta=0.2 , gamma=0.1 , delta = 0.1)

F (alpha = 0.7 , bêta= 0.2 , gamma= 0.1, delta = 5)

IC'09 – Hammamet, Mai 2009 - 30/32

Limites

� Composante Intensionnelle

� La pondération des propriétés est assez chronophage (pour les

ontologies volumineuses)

� Composante Expressionnelle

� Termes ambiguës

� Contexte autour du terme (“ni m1 ni …”, “opposé de m1”…)

� Anaphores (“Pierre a une voiture, c’est la même que la mienne”)

� Facteur Émotionnel

� Pondération de l’état émotionnel de l’utilisateur

Conclusion

� SEMIOSEM, une mesure de (quasi-)similarité :

� Adaptée au profil de l’utilisateur via

� la pondération des propriétés ;

� la définition d’un corpus caractéristique ;

� l’état émotionnel.

� Couvrant les trois dimensions d’une conceptualisation

� Qui n’est pas une distance (pas d’inégalité triangulaire)

� Indépendante du Plus Petit Père Commun, et par conséquent des choix

de modélisation.

IC'09 – Hammamet, Mai 2009 - 31/32

SEMIOSEM : une mesure de similarité

conceptuelle fondée sur une approche

sémiotique

X. AIME, F. FURST, P. KUNTZ & F. TRICHET

xaime@tennaxia.comfrederic.furst@u-picardie.fr

pascale.kuntz,francky.trichet@univ-nantes.fr

LINA - UMR CNRS 6241 - Université de Nantes – FRANCEMIS – Université d’Amiens – FRANCE

TENNAXIA – Paris – FRANCE

Recommended