Upload
ananda
View
29
Download
0
Embed Size (px)
DESCRIPTION
- PowerPoint PPT Presentation
Citation preview
L’analyse multidimensionnellede l’information : du texte au multimédia
Ismaïl Biskri (*) (**), Jean-Guy Meunier (**)
* Université du Québec à Trois RivièresDépartement de Mathématiques et d ’Informatique
** Université du Québec À MontréalLaboratoire d’Analyse Cognitive de l’Information
[email protected]@uqam.ca
Analyse multidimensionnelle textuelle standard (introduction)
Premières opérations :– partition du texte en segments (domaines de
l’information) ; – extraction du lexique (unités d’information, par
exemple : les mots, les n-grams) ;– représentation vectorielle (matricielle) du texte.– Classification
Analyse multidimensionnelle textuelle standard (questions 1)
Quelle est la définition d’une unité d’information ?
Quelle est la définition informatique du mot ?– lebensversicherungsgesellschaftsangestellter
(employé d’une compagnie d’assurance vie)
– kathabthouhou (je l’ai écrit)
Le n-Gram est il une solution ?
Analyse numérique textuelle standard (réponses2)
La définition d’une unité d’information dépend – de l’objectif de lecture et de compréhension; – de l’usage dont sera fait le résultat ;
Idem pour le choix du type de segmentation;
N-GRAM (définition )
Bi-grams, tri-grams, quadri-grams, …
« bonjour le monde » – Liste des bi-grams : bo, on, nj, jo, ou, ur, r_, _l,
le, e_, _m, mo, on, nd, de.– Liste des tri-grams : bon, onj, njo, jou, our, ur_,
r_l, _le, le_, e_m, _mo, mon, ond, nde.– Liste des quadri-grams : bonj, onjo, njou, jour,
our_ ur_l, r_le, _le_, le_m, e_mo, _mon, mond, onde.
Segmentation
Par phrases ou paragraphes pour rechercher les similarités intra-textuelles
Par documents pour une classification documentaire préparatoire à une indexation.
GRAMEXCO – eGRAMEXCO (Deux chaînes de traitement)
Texte Ascii
Représentation matricielleExtraction des n-gramssegmentation
Réduction de la taille de la matrice
Suppression des n-grams contenant des espacesSuppression des n-grams en dessous et au dessus d’un certain seuil
Réseau de neurones (classification)
Classe 1
Classe 2Classe n
GRAMEXCO (les résultats)
GRAMEXCO (Evaluation 1)
Corpus (extraits de documents web) de 50 pages. Format ASCII.
Paramètres : – taille du segment = 10 phrases ;
– Quadri-grams ;
– Lettres majuscules identiques aux lettres minuscules ;
– caractères non alphabétique remplacés par des espaces ;
– Suppression des n-grams contenant un ou plusieurs espaces ;
– suppression des n-grams dont la fréquence est 1.
Résultats : 174 segments, 4 857 quadri-grams, 100 classes.
GRAMEXCO (Evaluation 1 - suite 1)
classe 100 : – segments 137 et 157.
– lexique interprétable : {bourse, francs, marchés, millions, mobile, pdg, prix}.
– le mot francs désigne la monnaie française et non la franchise ou les fameuses tribus "les francs".
– thème commun : le domaine financier.
classe 54 :– segments 141 et 143.
– lexiques interprétable : {appel, cour, décidé, juge}.
– le mot cour désigne la cour de justice et non la cour qu'on fait à une demoiselle, la cour de récréation, ou les toilettes des Belges.
– thème commun : affaires judiciaires.
GRAMEXCO (Evaluation 1- suite 2)
classe 13 :– segments 32, 35, 41 et 48 ;
– Lexique selon l’intersection : {russe} ;
– lexique selon l’union : {conservateur, socialisme, marxiste, conservateur, révolutionnaire, Dostoievski, doctrine, impérial, slavophile} ;
– thème commun : les slavophiles et la culture politique russe du 19ième siècle.
GRAMEXCO (Evaluation 2)
Corpus de deux pages extraits d’un texte sur les biotechnologies (format ASCII).
Paramètres : – taille du segment = 1 mot ;
– Quadri-grams ;
– Lettres majuscules identiques aux lettres minuscules ;
– caractères non alphabétique remplacés par des espaces ;
– Suppression des n-grams contenant un ou plusieurs espaces ;
– suppression des n-grams dont la fréquence est 1.
GRAMEXCO (Evaluation 2 - suite)
Classe 101 : {survécu, survie} Classe 102 : {utilisée, outil} Classe 110 : {congelé, décongelé, congelés, congélateur} Classe 112 : {simple, simplifier, simplifiée} Classe 48 : {optimisées, optimum} Classe 60 : {cellules, cellulaire} Classe 65 : {collecte, collectifs} Classe 7 : {transfert, transférables, transférés, pénétrant,
transferts, retransfert} Classe 81 : {glycol, glycérol} Classe 88 : {déshydratées, déshydratation}
GRAMEXCO (Evaluation 3)
Comparaison (découpage en mots vs quadri-grams). Corpus de 50 pages. Paramètres :
– taille du segment = 10 phrases ;
– lemmatisation des mots ;
– suppression des hapax ;
– suppression des n-grams dont la fréquence est 1.
Résultats : 174 segments, 4 857 quadri-grams, 1757 mots. Conclusions : l ’analyse en n-grams de caractères diminue
la taille du lexique pour des corpus de plus de 200 pages
GRAMEXCO : (Evaluation 4)
classe 16 : segments 33 et 34. Le lexique (intersection): {station, shuttle, space, russian, nasa,
launch, dock }. space désigne l'espace dans son sens cosmique et non un
intervalle. shuttle désigne une navette spatiale et non le mouvement alternatif
(shuttle movement). thème commun : la conquête spatiale.
classe 2 : segments 2, 4 et 5. Le lexique : {court, investigation, israeli, sharon}. Court désigne une cour de justice et non ruelle, ou le verbe
courtiser.
GRAMEXCO (Evaluation 4)
La classe 24 : segments 53, 54 et 55. Le lexique : {hospitals, patient, Hollebeek, project,
computing, data, cancer, breast, built, grid}. patient désigne un malade, et n ’introduit pas notion de
patience ou d'endurance. Le thème : un projet médical en rapport avec le cancer du
sein.
La classe 44 : segments 98, 99, 100, 101, 102. Le lexique : {central, carat, diamonds, model, platinum,
plain, weighing, head, hoop}. Pour un américain diamonds correspondra à une pierre
précieuse et non à un terrain de base-ball
GRAMEXCO : (Evaluation 5)
Classe 85 : {peace, peacekeepers, peecekeeping} Classe 97 : {accused, accusations} Classe 107 : {inquiries, required, inquiry} Classe 130 : {minor, minorities, minority} Classe 133 : {civilians, civilized} Classe 110 : {allegations, alleged} Classe 231 : {city, citizen} Classe 52 : {Belgium, belgian, belgians} Classe 14 : {thursdays, wednesday, tuesday} Classe 212 : {imprisonment, prison, prisoners, prisons} Classe 60 : {prosecute, prosecuted, prosecutor,
security}
GRAMEXCO : (Evaluation 6)
Corpus multilingue mixte anglais + français
Résultat important : séparation parfaite des segments français et des segments anglais.
Conclusion
Étant donnée que la définition des unités d’information est indépendante de toute contrainte langagière est il possible de généraliser GRAMEXCO à d’autres sources d’encodage de l’information : image, son, vidéo, … ?
Nous pensons que oui : nos travaux futurs.