19
L’analyse multidimensionnelle de l’information : du texte au multimédia Ismaïl Biskri (*) (**) , Jean-Guy Meunier (**) * Université du Québec à Trois Rivières Département de Mathématiques et d ’Informatique ** Université du Québec À Montréal Laboratoire d’Analyse Cognitive de l’Information [email protected] [email protected]

Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

Embed Size (px)

Citation preview

Page 1: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

L’analyse multidimensionnellede l’information : du texte au multimédia

Ismaïl Biskri (*) (**), Jean-Guy Meunier (**)

* Université du Québec à Trois RivièresDépartement de Mathématiques et d ’Informatique

** Université du Québec À MontréalLaboratoire d’Analyse Cognitive de l’Information

[email protected]@uqam.ca

Page 2: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

Analyse multidimensionnelle textuelle standard (introduction)

Premières opérations :– partition du texte en segments (domaines de

l’information) ; – extraction du lexique (unités d’information, par

exemple : les mots, les n-grams) ;– représentation vectorielle (matricielle) du texte.– Classification

Page 3: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

Analyse multidimensionnelle textuelle standard (questions 1)

Quelle est la définition d’une unité d’information ?

Quelle est la définition informatique du mot ?– lebensversicherungsgesellschaftsangestellter

(employé d’une compagnie d’assurance vie)

– kathabthouhou (je l’ai écrit)

Le n-Gram est il une solution ?

Page 4: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

Analyse numérique textuelle standard (réponses2)

La définition d’une unité d’information dépend – de l’objectif de lecture et de compréhension; – de l’usage dont sera fait le résultat ;

Idem pour le choix du type de segmentation;

Page 5: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

N-GRAM (définition )

Bi-grams, tri-grams, quadri-grams, …

« bonjour le monde » – Liste des bi-grams : bo, on, nj, jo, ou, ur, r_, _l,

le, e_, _m, mo, on, nd, de.– Liste des tri-grams : bon, onj, njo, jou, our, ur_,

r_l, _le, le_, e_m, _mo, mon, ond, nde.– Liste des quadri-grams : bonj, onjo, njou, jour,

our_ ur_l, r_le, _le_, le_m, e_mo, _mon, mond, onde.

Page 6: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

Segmentation

Par phrases ou paragraphes pour rechercher les similarités intra-textuelles

Par documents pour une classification documentaire préparatoire à une indexation.

Page 7: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO – eGRAMEXCO (Deux chaînes de traitement)

Texte Ascii

Représentation matricielleExtraction des n-gramssegmentation

Réduction de la taille de la matrice

Suppression des n-grams contenant des espacesSuppression des n-grams en dessous et au dessus d’un certain seuil

Réseau de neurones (classification)

Classe 1

Classe 2Classe n

Page 8: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO (les résultats)

Page 9: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO (Evaluation 1)

Corpus (extraits de documents web) de 50 pages. Format ASCII.

Paramètres : – taille du segment = 10 phrases ;

– Quadri-grams ;

– Lettres majuscules identiques aux lettres minuscules ;

– caractères non alphabétique remplacés par des espaces ;

– Suppression des n-grams contenant un ou plusieurs espaces ;

– suppression des n-grams dont la fréquence est 1.

Résultats : 174 segments, 4 857 quadri-grams, 100 classes.

Page 10: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO (Evaluation 1 - suite 1)

classe 100 : – segments 137 et 157.

– lexique interprétable : {bourse, francs, marchés, millions, mobile, pdg, prix}.

– le mot francs désigne la monnaie française et non la franchise ou les fameuses tribus "les francs".

– thème commun : le domaine financier.

classe 54 :– segments 141 et 143.

– lexiques interprétable : {appel, cour, décidé, juge}.

– le mot cour désigne la cour de justice et non la cour qu'on fait à une demoiselle, la cour de récréation, ou les toilettes des Belges.

– thème commun : affaires judiciaires.

Page 11: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO (Evaluation 1- suite 2)

classe 13 :– segments 32, 35, 41 et 48 ;

– Lexique selon l’intersection : {russe} ;

– lexique selon l’union : {conservateur, socialisme, marxiste, conservateur, révolutionnaire, Dostoievski, doctrine, impérial, slavophile} ;

– thème commun : les slavophiles et la culture politique russe du 19ième siècle.

Page 12: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO (Evaluation 2)

Corpus de deux pages extraits d’un texte sur les biotechnologies (format ASCII).

Paramètres : – taille du segment = 1 mot ;

– Quadri-grams ;

– Lettres majuscules identiques aux lettres minuscules ;

– caractères non alphabétique remplacés par des espaces ;

– Suppression des n-grams contenant un ou plusieurs espaces ;

– suppression des n-grams dont la fréquence est 1.

Page 13: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO (Evaluation 2 - suite)

Classe 101 : {survécu, survie} Classe 102 : {utilisée, outil} Classe 110 : {congelé, décongelé, congelés, congélateur} Classe 112 : {simple, simplifier, simplifiée} Classe 48 : {optimisées, optimum} Classe 60 : {cellules, cellulaire} Classe 65 : {collecte, collectifs} Classe 7 : {transfert, transférables, transférés, pénétrant,

transferts, retransfert} Classe 81 : {glycol, glycérol} Classe 88 : {déshydratées, déshydratation}

Page 14: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO (Evaluation 3)

Comparaison (découpage en mots vs quadri-grams). Corpus de 50 pages. Paramètres :

– taille du segment = 10 phrases ;

– lemmatisation des mots ;

– suppression des hapax ;

– suppression des n-grams dont la fréquence est 1.

Résultats : 174 segments, 4 857 quadri-grams, 1757 mots. Conclusions : l ’analyse en n-grams de caractères diminue

la taille du lexique pour des corpus de plus de 200 pages

Page 15: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO : (Evaluation 4)

classe 16 : segments 33 et 34. Le lexique (intersection): {station, shuttle, space, russian, nasa,

launch, dock }. space désigne l'espace dans son sens cosmique et non un

intervalle. shuttle désigne une navette spatiale et non le mouvement alternatif

(shuttle movement). thème commun : la conquête spatiale.

classe 2 : segments 2, 4 et 5. Le lexique : {court, investigation, israeli, sharon}. Court désigne une cour de justice et non ruelle, ou le verbe

courtiser.

Page 16: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO (Evaluation 4)

La classe 24 : segments 53, 54 et 55. Le lexique : {hospitals, patient, Hollebeek, project,

computing, data, cancer, breast, built, grid}. patient désigne un malade, et n ’introduit pas notion de

patience ou d'endurance. Le thème : un projet médical en rapport avec le cancer du

sein.

La classe 44 : segments 98, 99, 100, 101, 102. Le lexique : {central, carat, diamonds, model, platinum,

plain, weighing, head, hoop}. Pour un américain diamonds correspondra à une pierre

précieuse et non à un terrain de base-ball

Page 17: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO : (Evaluation 5)

Classe 85 : {peace, peacekeepers, peecekeeping} Classe 97 : {accused, accusations} Classe 107 : {inquiries, required, inquiry} Classe 130 : {minor, minorities, minority} Classe 133 : {civilians, civilized} Classe 110 : {allegations, alleged} Classe 231 : {city, citizen} Classe 52 : {Belgium, belgian, belgians} Classe 14 : {thursdays, wednesday, tuesday} Classe 212 : {imprisonment, prison, prisoners, prisons} Classe 60 : {prosecute, prosecuted, prosecutor,

security}

Page 18: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

GRAMEXCO : (Evaluation 6)

Corpus multilingue mixte anglais + français

Résultat important : séparation parfaite des segments français et des segments anglais.

Page 19: Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières

Conclusion

Étant donnée que la définition des unités d’information est indépendante de toute contrainte langagière est il possible de généraliser GRAMEXCO à d’autres sources d’encodage de l’information : image, son, vidéo, … ?

Nous pensons que oui : nos travaux futurs.