Longueur de branches et arbres de mots

  • View
    374

  • Download
    2

Embed Size (px)

DESCRIPTION

9 février 2012, Besançon Colloque La cooccurrence : du fait statistique au fait textuel

Text of Longueur de branches et arbres de mots

  • 1.Colloque Cooccurrence 2012 09/02/2012 - BesanonLongueur de branches et arbres de motsPhilippe Gambette, Nuria Gala, Alexis Nasr, Alain Gunoche LIGMLIFIML Universit Paris-Est Universit Aix-Marseille CNRSMarne-la-Valle

2. Plan Analyses et nuages arbors Interprtation visuelle Formules de longueurs dartes Protocole dvaluation Rsultats Visualisations Perspectives 3. Plan Analyses et nuages arbors Interprtation visuelle Formules de longueurs dartes Protocole dvaluation Rsultats Visualisations Perspectives 4. Analyses arboresRapprochement des mots dun texte selon leur degr decooccurrence dans le texteConstellation du mot nuit dans la base EXEMPLEM(22 romans de 11 auteurs, lemmatiss)TEMPS 2CHAMBRE COUCHER LATMOSPHRETEMPS 1Barthelmy & Luong, Statistique et Analyse des Donnes, 1986HyperbaseBrunet, JADT08 5. Nuage arbor, une information double occurrences cooccurrences Discours inaugural de Barack Obamaconstruit avecSplitsTree : Huson & Bryant, Bioinformatics, 2006 TreeCloud : Gambette & Vronis, IFCS09 6. Plan Analyses et nuages arbors Interprtation visuelle Formules de longueurs dartes Protocole dvaluation Rsultats Visualisations Perspectives 7. Interprtation relle Les distances dans larbre entre deux mots refltent au mieux le degr de cooccurrence entre ces deux mots 8. Interprtation relle Problme 1 : difficiles lire Les distances dans larbre entre deux mots refltent au mieux le degr de cooccurrence entre ces deux mots 9. Interprtation relle Problme 1 : Problme 2 : difficiles lirepeu fiables Les distances dans larbre entre deux mots refltent au mieux le degr de cooccurrence entre ces deux mots 10. Interprtation relleOptimisationglobale, pasde garantieslocales dequalit Problme 1 : Problme 2 : difficiles lirepeu fiables Les distances dans larbre entre deux mots refltent au mieux le degr de cooccurrence entre ces deux mots 11. Interprtation pratiquearbre de distancesutilis commeclassification 12. Interprtation pratiquearbre de distancesutilis commeclassification Les mots dun mme sous-arbre bien spar du reste de larbre constituent une classe de mots 13. Interprtation pratiquearbre de distancesutilis commeclassification Les mots dun mme sous-arbre bien spar du reste de larbre constituent une classe de mots 14. Interprtation pratiquearbre de distancesutilis commeclassificationProblme : toujourspeu lisible (longueurdes artes externes)et peu fiable Les mots dun mme sous-arbre bien spar du reste de larbre constituent une classe de mots 15. Interprtation pratique Astuce de visualisation pour amliorer la lisibilit : longueur unitaire des artesNuages arbors globaux des 60 mots les plus frquents dans Cinna et Othon (distance Liddell, fentrede largeur 20), colors chronologiquement (rouge au dbut, bleu la fin)Amstutz & Gambette, JADT10 16. Interprtation pratique Astuce de visualisation pour amliorer la lisibilit : longueur unitaire des artes, MAIS...encore moins fiable ! retour au texte ncessaire,fausses pistesNuages arbors globaux des 60 mots les plus frquents dans Cinna et Othon (distance Liddell, fentrede largeur 20), colors chronologiquement (rouge au dbut, bleu la fin)Amstutz & Gambette, JADT10 17. Interprtation pratique Problme : Comment calculer les longueurs des artes de larbre pour une interprtation fiable des classes ? Arte longue = classe de mots significative (proches les uns des autres, bien spars du reste) Arte courte = classe de mots peu significative 18. Plan Analyses et nuages arbors Interprtation visuelle Formules de longueurs dartes Protocole dvaluation Rsultats Visualisations Perspectives 19. Formules de longueurs dartes Post-calcul des longueurs dartes aprs la construction de larbre, pour que : artes les plus longues classes de mots les plus significatives classes de mots bien sparesdaprs la distance de cooccurrence 20. Formules de longueurs dartes Post-calcul des longueurs dartes aprs la construction de larbre, pour que : artes les plus longues classes de mots les plus significatives classes de mots bien sparesdaprs la distance de cooccurrence Formule du ratio des bons triplets (triples) : Si mot1 et mot2 dun ct de larte, mot3 de lautre ct, bon triplet si distance(mot1,mot2) < min(distance(mot1,mot3),mot1 distance(mot2,mot3))mot3 ratio espr proche de 1 mot2 Gunoche & Garreta, IFCS02 21. Formules de longueurs dartes Post-calcul des longueurs dartes aprs la construction de larbre, pour que : artes les plus longues classes de mots les plus significatives classes de mots bien sparesdaprs la distance de cooccurrence Formule du ratio des distances moyennes (distanceRatio) : moyenne(distances inter-classes) moyenne(distances intra-classes) ratio espr suprieur 1 Gunoche & Garreta, IFCS02 22. Formules de longueurs dartes Post-calcul des longueurs dartes aprs la construction de larbre, pour que : artes les plus longues classes de mots les plus significatives classes de mots bien sparesdaprs la distance de cooccurrence Formule du ratio des bons quadruplets (quartets) : Si mot1 et mot2 dun ct de larte, mot3 et mot4 de lautre ct, bon quadruplet si mot4 distance(mot1,mot2) + distance(mot2,mot3)