Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu’est-ce que cela change ? Pascale SÉBILLOT PRU en informatique à l’INSA de Rennes Membre de l’équipe LinkMedia de l’IRISA et d’INRIA
"Le traitement automatique du langage (TAL) face aux donnes textuelles volumineuses et potentiellement dgrades : quest-ce que cela change ?" : Prsentation de Pascale Sebillot, chercheuse l'IRISA lors du sminaire IST Inria : "Big Data, nouvelles partitions de l'information" ; Saint-Paul-Ls-Dax du 6 au 10 octobre 2014.
Text of Séminaire Ist inria 2014 : Pascale Sébillot
1. Le traitement automatique des langues face aux donnes
textuelles volumineuses et potentiellement dgrades : quest-ce que
cela change ? Pascale SBILLOT PRU en informatique lINSA de Rennes
Membre de lquipe LinkMedia de lIRISA et dINRIA 2. 2 04/10/2014
LinkMedia Creating and exploiting explicit links between multimedia
fragments Primtre de LinkMedia Objectifs fondements scientifiques
de la structuration de collections de documents multimdias par des
liens explicites nouveaux usages et techniques de traitement de
contenus induits par ces liens 3. 3 04/10/2014 Mon parcours de
recherche Domaine : traitement automatique des langues (TAL) Thse
en syntaxe passage la smantique Acquisition de connaissances partir
de corpus de textes grce des techniques dapprentissage artificiel
Application du TAL la recherche dinformation Application du TAL la
reconnaissance automatique de la parole Application du TAL la
structuration de (collections de) documents multimdias 4. 4
04/10/2014 Impact du Big Data sur le traitement automatique des
langues ? Rvolution ? 5. 5 04/10/2014 Impact du Big Data sur le
traitement automatique des langues ? Rvolution : NON Rvolution du
TAL faite fin des annes 80 dbut des annes 90 Du TAL rationaliste
Approches symboliques base de rgles Expertise humaine forte Focus
sur lexplication des jugements de grammaticalit, la construction de
reprsentations du sens labores au TAL empirique Approches fondes
sur les donnes Volumes de textes et puissance des machines
croissants Apprentissage artificiel, linguistique de corpus
Observation grande chelle, reprsentations du sens utile 6. 6
04/10/2014 Impact du Big Data sur le traitement automatique des
langues ? Rvolution : OUI Nouveaux types de donnes textuelles
prendre en compte Volumes toujours plus consquents Empirisme
toujours plus prsent Moins / pas (ou trs peu) dexpertise Plus de
comptage 7. 7 04/10/2014 Impact du Big Data sur le TAL Organisation
de la prsentation 1. Spcificits des donnes textuelles dans le monde
du Big Data 2. Reprsentations et exploitation des donnes textuelles
3. Applications pour faire face aux masses de donnes 4.
Applications tirant profit de la profusion de donnes 8. 8 1-
Spcificits des donnes textuelles 04/10/2014 dans le monde du Big
Data Les 3 V (volume, varit, vlocit) appliqus aux donnes textuelles
Proprits intrinsques compliquant laccs au sens 9. 9 04/10/2014
Varit Donnes produites (directement) sous une forme textuelle
Textes crits, emails, sites Web Blogs, rseaux sociaux Sms 10. 10
04/10/2014 Varit Donnes produites (directement) sous une forme
textuelle Textes crits, emails, sites Web Blogs, rseaux sociaux Sms
Tu te x mal1 JV encor dvoir 10QT aussi dans la qualit Exemples
issus de [Fairon et al. 2006] 11. 11 04/10/2014 Varit Donnes
langagires issues dun mdia diffrent Systme de reconnaissance
gnrateur derreurs Images de textes Dactylographis, manuscrits OCR :
logiciel de reconnaissance optique de caractres Segmentation en
caractres individuels Classifieur fond sur un apprentissage
neuronal pour la reconnaissance Parole contenue dans les documents
audio/vidos Systme de reconnaissance automatique de la parole (RAP)
12. Systme de reconnaissance automatique de 12 04/10/2014 la parole
Systme de RAP Signal de parole Hypothse de transcription w*1 ...
w*P c1 ... cP Mesures de confiance 13. Systme de reconnaissance
automatique de 13 04/10/2014 Lexique phontis Modle de langue Modle
acoustique Caractristiques numriques du signal sonore contenant de
la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de
transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ...
wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance
la parole 14. Systme de reconnaissance automatique de 14 04/10/2014
Lexique phontis Modle de langue Modle acoustique Caractristiques
numriques du signal sonore contenant de la parole (nergie, frquence
vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }
w1...wP' VP' c1 ... cP Mesures de confiance la parole Vocabulaire :
mots - prononciations 15. Systme de reconnaissance automatique de
15 04/10/2014 Lexique phontis Modle de langue Modle acoustique
Caractristiques numriques du signal sonore contenant de la parole
(nergie, frquence vocale) y1 ... yT Meilleure hypothse de
transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ...
wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance
la parole Vraisemblance du signal sachant une squence de mots 16.
Systme de reconnaissance automatique de 16 04/10/2014 Lexique
phontis Modle de langue Modle acoustique Caractristiques numriques
du signal sonore contenant de la parole (nergie, frquence vocale)
y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ...
w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP'
VP' c1 ... cP Mesures de confiance la parole Probabilit a priori
des squences de mots (n-grammes) 17. 17 quant aux voix catholiques
de serge adda alberta _ il est tout ce qu' il y a de strictes _
srie sous le menton _ l encadre son visage sans permettre de voir _
un seul de ses cheveux _ Quant au voile catholique de soeur ____
Adalberta , il est tout ce qu' il y a de strict , serr sous le
menton , il encadre son visage sans permettre de voir , un seul de
ses cheveux . 04/10/2014 Spcificits des transcriptions
Particularits de loral Disfluences Constructions grammaticales
particulires Format de transcription Pas de ponctuation, de
majuscules Segmentation en groupes de souffle, pas en phrases
Erreurs de transcription Mots non fiables et mesures de confiance
imparfaites Taux d'erreur sur les mots ou WER (word error rate) 18.
18 04/10/2014 Volume et Vlocit Nombres par minute
(http://davidfayon.fr/2011/06/croissance-du-web-une-minute/)
Go-globe.com, juin 2011 19. 19 Proprits intrinsques compliquant
04/10/2014 laccs au sens Donnes non structures Pas de smantique
porte par une structure a priori Donnes porteuses de sens,
comprhensibles par un humain et fortement prsentes Ncessit de
savoir en extraire linformation pertinente Donnes difficiles
comprendre par une machine Ambigut Implicite Formulations
diffrentes dune mme ide 20. 20 04/10/2014 Ambigut Lexicale Statique
: prsident : verbe / nom ? Dynamique : rat : nom / adjectif
Syntaxique Structure hirarchique : la petite brise la glace Ambigut
de rattachement : jai t voir un film avec Brad Pitt Smantique
Homonymie : avocat : fruit / auxiliaire de justice Polysmie :
agneau : animal / viande Porte des quantificateurs : toutes mes
soeurs ont pous un mdecin vs toutes les personnes prsentes ont
entendu un cri Pragmatique Paul : tu viens la fte chez Luc mardi
soir ? Virginie : jai entendu que Benot sera l 21. 21 04/10/2014
Implicite Connaissances partages par les locuteurs Encyclopdiques
De sens commun De scenarii Interprtations videntes [exemples
emprunts F. Yvon] Elle sest assise, a command un caf la serveuse
(). Puis elle est partie sans payer Qui ? Le professeur a envoy
llve au censeur parce quil lanait des boulettes parce quil voulait
avoir la paix parce quil voulait le voir Emplois mtaphoriques,
mtonymiques Premier violon 22. 22 Formulations diffrentes dune mme
ide Problme pour compter des occurrences dun concept Variation
04/10/2014 Graphique, morphologique : mot cl, mot-cl, mots-cls
Syntaxique, morphosyntaxique : acidit du sang, acidit leve du sang,
acidit sanguine Paradigmatique : vlo, bicyclette, cyclisme, moyen
de transport Paraphrase 23. 23 Volumes, varit, proprits intrinsques
des donnes textuelles 04/10/2014 Spcificits des donnes textuelles
Impossibilit de faire des analyses linguistiques fines Rapidement
Sur des textes dgrads et apprentissage Varit : domaine ouvert
Ambiguts multiplies Sources de connaissance non utilisables
Changement de paradigme du TAL Rationalisme Empirisme TAL fond
linguistique TAL fond statistique Comprendre finement Avoir des
reprsentations de sens utiles 24. 24 2- Reprsentations et
exploitation des 04/10/2014 donnes textuelles Reprsentation du sens
rationaliste Vision syntaxico-logique Logique comme langage de
reprsentation de connaissance et de raisonnement Interprtation
compositionnelle du langage dirige par la syntaxe sous forme de
formules logiques Vision Intelligence artificielle Modle du monde
(ou domaine) gnrique Interprtation dun nonc ou discours :
instanciation du modle Ex. : scripts (Schank) 25. 25 2-
Reprsentations et exploitation des 04/10/2014 donnes textuelles
Reprsentation du sens empirique Sens utile et non vrai sens On ne
cherche pas comprendre le langage Sens dun mot Dpendant de /
exprimable par son co-texte Co-textes comparables pour dtecter les
mots du mme paradigme Sens dun document Des mots extraits du texte
qui, ensemble, reprsentent son sens Changement de thme Changement
global de vocabulaire 26. 26 04/10/2014 Changement de paradigme
Expertise Donnes Extraction de la connaissance des donnes par
apprentissage artificiel (observation de rgularits et redondances)
Sens lments de reprsentation extraits des mots, des phrases, des
documents utiles pour lapplication vise Exemples : noms et verbes
les plus frquents, noms de personnes, de lieux et dentreprises
mentionns tous les niveaux : document, paragraphe, phrase 27. 27
04/10/2014 lments de reprsentation N-grammes de caractres, de mots
Mots : tous ou filtrs Type prcis : noms, verbes, termes complexes,
entits nommes (EN : noms de personnes, lieux) Saillance Comptage
Frquence Frquence dans lunit considre mais pas dans la collection
Autres Position Mot / phrase du dbut lments situs entre deux items,
avant, aprs 28. 28 04/10/2014 Reprsentation Taille de la collection
Nb documents contenant le mot 29. 29 04/10/2014 Reprsentation
Exploitation Par comparaison des reprsentations via des mesures de
similarit Fondes intersection des reprsentations Cosinus Par des
mthodes dapprentissage artificiel 30. 30 Des outils pour manipuler
et reprsenter Segmenteurs 04/10/2014 Pas toujours simple : lopra /
aujourdhui ou Ohara, Jean-Paul / qua-t-il dit ? tiqueteurs
morphosyntaxiques (PoS taggers) LeDetMasSing
prsidentNomCommunMasSing Lemmatiseurs / analyseurs morphologiques /
raciniseurs (stemmers) parlons, parlera, parlrent parler
Extracteurs de termes simples ou complexes, dentits nommes, de
relations smantiques Analyseur en dpendances, en chunks Autres
outils lis lapplication vise (dextraction de n-grammes au lieu de
mots) 31. 31 04/10/2014 Apprentissage artificiel Branche de lIA qui
tudie lcriture de programmes qui samliorent en se confrontant aux
donnes Apprentissage supervis Donnes tiquetes disponibles
Apprentissage non supervis Pas de donnes tiquetes Exemple de
technique : clustering Apprentissage de quoi ? De reprsentations
(ex. : probabilits de n-grammes de mots) Doutils De clusters De
connaissances par observation de rgularits dans les masses de
donnes 32. 32 Le chercheur en TAL lheure du Big Data Transformation
en scientifique des donnes (data scientist) 04/10/2014 Quelles
reprsentations ( grain souvent grossier) ? Quelles techniques
dapprentissage artificiel ? Quelles mesures de similarit ? Quelles
mthodes de visualisation ? 33. 33 3- Applications pour faire face
aux masses 04/10/2014 de donnes 34. 34 3- Applications pour faire
face aux masses 04/10/2014 de donnes De trs nombreuses applications
pour aider lhumain face au dluge de donnes Applications sappuyant
sur les reprsentations vues et des mthodes dapprentissage
artificiel Zoom sur trois dentre elles Rsum automatique (dun ou
plusieurs textes) Structuration et navigation Fouille dopinions 35.
35 04/10/2014 3.1- Rsum automatique Intrt : savoir si texte lire in
extenso Domaine ancien du TAL Dbut dans les annes 50 Fort essor au
milieu des annes 90 Notion de bon rsum ? Ralits diverses Ides-cls
Couverture maximale Bande-annonce Contrainte de taille 36. 36
04/10/2014 Typologie(s) Un ou des document(s) Point de dpart :
document(s) ou requte Rsum par abstraction ou par extraction Si
extraction, des phrases ou des mots-cls Si extraction de phrases,
curation a posteriori Remplacement des mots rpts, des pronoms
Fusion de phrases, parties inutiles tes 37. 37 04/10/2014
Typologie(s) Un ou des document(s) Point de dpart : document(s) ou
requte Rsum par abstraction ou par extraction Si extraction, des
phrases ou des mots-cls Si extraction de phrases, curation a
posteriori Remplacement des mots rpts, des pronoms Fusion de
phrases, parties inutiles tes Mthodologie globale Ancrage
linguistique fort Apprentissage artificiel Reprsentations fondes
recherche dinformation (RI) 38. 38 04/10/2014 Rsum par extraction
Saillance Score pour chaque phrase / passage Indicateurs combins
Score des mots : tf, tf*idf (somme) Prsence de mots-cls, dentits
nommes, de marqueurs du discours Longueur Position par rapport au
texte, son paragraphe Pondration entre les indicateurs pouvant tre
fixe ou apprise 39. 39 04/10/2014 Rsum par extraction Redondance
Saillance seule insuffisante Non redondance par rapport aux phrases
dj dans le rsum MMR (maximal marginal relevance [Goldstein et
Carbonell 98]) Score combinaison linaire de saillance et non
redondance MMR Argmax(PiRS) [l(Sim1(Pi,Q)) (1 l)max(DjS)
Sim2(Pi,Dj)] Q : document rsumer / requte utilisateur ; P : phrases
R : liste ordonne des phrases ; S : sous-ensemble des phrases de R
dj dans le rsum Sim : mesure de similarit (cosinus) Cas
multi-documents : clustering des phrases similaires et extraction
dune phrase par cluster 40. 40 04/10/2014 Extraction fonde centrode
Score dune phrase : fonction de sa centralit par rapport au thme
des(du) documents rsumer Document centrode Pseudo-document qui
contient les mots ayant un score (tf*idf) suprieur un seuil Cas
multi-documents : un centrode par cluster Score dune phrase
fonction de Sa similarit avec le centrode (de son cluster dans le
cas multi-documents) Sa non redondance par rapport aux phrases
retenues Logiciel Mead : http://www.summarization.com/mead/ 41. 41
04/10/2014 Extraction fonde graphe Score dune phrase : fonction
globalement du score des phrases avec lesquelles elle partage le
plus de mots Proche de PageRank (Google) Une phrase recommande
dautres phrases Algorithme TextRank [Mihalcea 2004] Chaque phrase :
un noeud du graphe Arc entre deux noeuds : pondration selon le
nombre de mots partags (et longueur des phrases) Poids initial
assign aux noeuds Itration de lalgorithme recalculant le score du
noeud en fonction du score des noeuds lis et du poids des arcs
Conservation des phrases aux scores les plus levs Intrt :
fonctionne sur linformation issue de tout le graphe 42. 42
04/10/2014 Extraction fonde contraintes ou optimisation Choix des
phrases qui maximisent une fonction objectif Donc pas un algorithme
glouton, mais vue globale du choix des phrases (et de la
redondance) Expression de contraintes et de la fonction maximiser
Contraintes : taille, phrases plutt longues Utilisation dun solveur
de contraintes 43. 43 04/10/2014 Extraction fonde contraintes ou
optimisation Un exemple : [Gillick et Favre 2009] Fonction
optimiser Somme des poids des concepts prsents dans le rsum Concept
: bigramme informatif Poids dun concept : nombre de documents o il
apparat Contraintes Somme des longueurs des phrases conserves
infrieure la longueur maximum Non slection de phrases sans concept
Slection dune phrase : slectionner tous ses concepts Slection dun
concept possible si prsent dans au moins une phrase garde 44. 44
04/10/2014 valuation Problme pineux, accord faible entre humains De
nombreuses campagnes dvaluation Confrences DUC puis TAC Des mesures
proposes Rsums de rfrence produits par des humains Mesures fondes
sur la prsence d units , pas de phrases ROUGE [Lin 2004] Proportion
de n-grammes partags entre le rsum produit et les rfrences
Plusieurs variantes 45. 45 04/10/2014 Rsum de loral transcrit Moins
de travaux Rsums de runions, dmissions TV Application de mthodes de
TAL Adaptations pour loral Reponctuation Utilisation des mesures de
confiance Utilisation de linformation acoustique Cas des rsums de
vidos Travail a posteriori ncessaire pour avoir des rsums
acceptables (i.e., coutables et regardables) 46. 46 04/10/2014 Rsum
automatique Bilan Mthodologies fonctionnelles Qualit / cohsion
textuelle encore moyenne Aspect temporel peu pris en compte Rsum de
donnes textuelles autres qucrites encore limit valuation encore
amliorer 47. 47 04/10/2014 3.2- Structuration et navigation Donnes
textuelles Trs nombreuses Non organises ( vrac ) Souvent vues
individuellement, peu au sein dun ensemble Organisation pour
perception ou navigation claire Regroupement / tablissement de
liens selon une notion de proximit, surtout smantique Diffrentes
solutions, sur des textes crits et de loral transcrit 48. 48
Organisation a posteriori dune requte Recherche dinformation (RI)
une colonne par segment du texte 04/10/2014 Mise en vidence des
termes de la question dans les documents retourns [Hearst 1995] une
ligne par mots de la question 49. 49 Organisation a posteriori dune
requte Recherche dinformation (RI) 04/10/2014 Mise en vidence des
termes de la question dans les documents retourns [Hearst 1995]
Clustering des rsultats (par thmes, entits nommes) 50. 50
Organisation a posteriori dune requte 04/10/2014 51. 51
Organisation a posteriori dune requte galement une version par
apprentissage partir de chronologies manuelles (boosting)
04/10/2014 Apprentissage des caractristiques dune date saillante
Traits lis au fait que plus une date est mentionne plus elle est
importante Traits lis au fait quun vnement important est mentionn
longtemps Dans les diffrents cas, constitution de la chronologie
partir des phrases contenant les dates saillantes 52. 52 INDEX
Requte : rvolution tunisienne 04/10/2014 Le prsident gyptien Hosni
Mubarak, qui a dmissionn vendredi, et le prsident Zine El Abidine
Ben Ali, qui a quitt le pouvoir le 14 janvier, ont fait face des
protestations populaires sans prcdent. Zine el-Abidine Ben Ali a
annonc jeudi soir qu'il ne se reprsentera pas en 2014 au poste
qu'il occupe Ben Ali a sign sa dmission vendredi aprs une vague de
protestations dclenche par le suicide dun tudiant de 26 ans que la
police avait empch de vendre des fruits et des lgumes pour vivre.
Des manifestants ont galement blesss vendredi, y compris Chawki
Belhoussine El Hadri Ben Ali a sign sa dmission vendredi aprs une
vague de protestations dclenche par le suicide dun tudiant de 26
ans que la police avait empch de vendre des fruits et des lgumes
pour vivre. La rvolte sest propage le 24 dcembre dans le centre-du
pays, notamment Menzel Bouzaiane, o Mohamed Ammari est tu par balle
dans la poitrine par la police. Requte Plusieurs milliers de
documents Transparents emprunts X. Tannier 53. 53 04/10/2014
Regroups par dates normalises Ordonns selon limportance de la date
La rvolte sest propage le 24 dcembre dans le centre-du pays,
notamment Menzel Bouzaiane, o Mohamed Ammari est tu par balle dans
la poitrine par la police. Des manifestants ont galement blesss
vendredi, y compris Chawki Belhoussine El Hadri 14 jan. 2011 Ben
Ali a sign sa dmission vendredi aprs une vague de protestations
dclenche par le suicide dun tudiant de 26 ans que la police avait
empch de vendre des fruits et des lgumes pour vivre. Zine
el-Abidine Ben Ali a annonc jeudi soir qu'il ne se reprsentera pas
en 2014 au poste qu'il occupe Ces rvlations ont lieu aprs la rvolte
tunisienne qui a mit fin 23 ans de rgne de Ben Ali, qui sest enfui
de Tunisie pour lArabie Saoudite vendredi. Clusters temporels plus
important 24 dc. 2010 13 jan. 2011 INDEX Ben Ali a donn jeudi
l'ordre la police de ne plus tirer sur les manifestants Requte
Plusieurs milliers de documents Requte : rvolution tunisienne 54.
54 04/10/2014 Requte : rvolution tunisienne Regroups par dates
normalises Ordonns selon limportance de la date La rvolte sest
propage le 24 dcembre dans le centre-du pays, notamment Menzel
Bouzaiane, o Mohamed Ammari est tu par balle dans la poitrine par
la police. Des manifestants ont galement blesss vendredi, y compris
Chawki Belhoussine El Hadri 14 jan. 2011 Ben Ali a sign sa dmission
vendredi aprs une vague de protestations dclenche par le suicide
dun tudiant de 26 ans que la police avait empch de vendre des
fruits et des lgumes pour vivre. Zine el-Abidine Ben Ali a annonc
jeudi soir qu'il ne se reprsentera pas en 2014 au poste qu'il
occupe Ces rvlations ont lieu aprs la rvolte tunisienne qui a mit
fin 23 ans de rgne de Ben Ali, qui sest enfui de Tunisie pour
lArabie Saoudite vendredi. Clusters temporels plus important 24 dc.
2010 13 jan. 2011 INDEX Ben Ali a donn jeudi l'ordre la police de
ne plus tirer sur les manifestants Requte Plusieurs milliers de
documents Choix des descriptions dvnements Maximiser la pertinence
Minimiser la redondance 55. 55 Chronologie vnementielle 04/10/2014
Requte : rvolution tunisienne 17 dc. 2010 : Mohamed Bouazizi
simmole par le feu pour protester contre le harclement de la police
et le chmage. 25 dc. 2010 : Les protestations dmarrent Sidi Bouzid
et stendent Bouzaiene, Kairouan, Sfax, Ben Guerdane, Sousse. 27 dc.
2010 : Les protestations stendent Tunis, la capitale du pays. 14
jan. 2011 : Le prsident Ben Ali senfuit en Arabie Saoudite. obtenue
56. Autre rponse de la recherche dinformation 56 Les systmes
questions-rponses [Hirschman et Gaizauskas 2001] 04/10/2014 Rponse
prcise une question au lieu de documents contenant les termes de la
question 57. 57 Liens entre documents fonds contenu Cration de
liens initie par la communaut hypertexte [Allan 1997] 04/10/2014
Souvent sur des documents structure assez marque (emails, articles
de Wikipdia) Souvent sur de petites collections (a posteriori dune
requte par exemple) 58. 58 04/10/2014 Systmes de recommandation
Souvent mlange de filtrages fond contenu et collaboratif Filtrage
collaboratif Calcul de corrlation entre les avis des autres
utilisateurs et celui vis Prdiction pour un item : par exemple
calculable par la moyenne pondre (par le coefficient de corrlation)
des valuations pour cet item des utilisateurs similaires Filtrage
fond contenu laboration dun profil de lutilisateur grce aux
mots-cls mergeant des items quil apprcie Comparaison au contenu dun
item non valu pour le recommander ou pas lutilisateur 59. 59
Graphes temporels dvnements [Tannier 2014] Dpches AFP contenant des
vnements Organisation temporelle fonde sur trois relations
04/10/2014 Mme vnement Continuation (consquence, suite naturelle)
Raction (opinion sur un vnement) Annotation manuelle des dpches
entre dates d et d+7 si 2 mots-cls communs dans 1er paragraphe
Apprentissage (svm) Relation vs pas de relation Mme vnement vs
continuation Continuation vs raction 60. 60 Graphes temporels
dvnements [Tannier 2014] 04/10/2014 2 avril, 21:05 Georges Bush
dclare que le Pape tait un champion de la libert humaine 2 avril,
01:51 Un cardinal dit que la mort du Pape est imminente 2 avril,
15:39 Le Pape dans une situation srieuse mais rsiste 2 avril, 20:58
La Reine Elisabeth II exprime son profond regret 2 avril, 21:40
Jean-Paul II sera enterr mercredi au Vatican continuation
continuation 2 avril, 19:53 Le Pape 2e satv mrilo, r1t9:57 raction
Le Pape e2s ta mvroilr,t 2a0u: 0V1atican raction continuation Le
Pape est mort au Vatican Transparent emprunts X. Tannier 61. 61
Structuration et navigation dans une 04/10/2014 collection de
journaux TV Segmentation automatique de journaux TV en reportages
successifs [Gravier et al. 2011] Navigation Vers dautres reportages
abordant le mme sujet Vers des pages Web offrant de linformation
complmentaire Application de techniques de TAL et de RI, mlant
grain grossier et grain plus fin, sur la parole transcrite 62. 62
04/10/2014 Segmentation thmatique La plupart des techniques fonde
sur la cohsion lexicale Changement de thme = changement de
vocabulaire Mthodes locales Recherche de ruptures par comparaison
de zones adjacentes et dtection de minima de similarit [Hearst
1997] Mthodes globales Production directe des segments les plus
cohrents [Utiyama et Isahara 2001] Possibilit dadaptation aux
transcriptions de la parole ? 63. 63 04/10/2014 Adaptation aux
transcriptions Particularits problmatiques Erreurs de transcription
Manque de rptitions Modification du calcul de la cohsion lexicale
Prise en compte des mesures de confiance, en particulier lors du
comptage des occurrences de mots Prise en compte des relations
smantiques entre les mots cigarette cigare 0.476838 cigarette
gitane 0.378044 cigarette gauloise 0.37508 cigarette clope 0.366334
cigarette tabac 0.304606 mots partageant des contextes similaires
64. 64 04/10/2014 Rsultats de la segmentation Corpus 57 JT de
France 2 fvrier et mars 2007 Systme de reconnaissance de la parole
WER : 20% sur donnes Ester 2 (actualits radio) valuation Changement
de thme chaque reportage (1180 frontires) Frontire correcte : <
10s par rapport une frontire de rfrence Rappel, prcision 65. 65
04/10/2014 Rsultats de la segmentation Mesures de confiance et
relations smantiques 66. Mais aussi, forme de rsum informatif du
contenu Modifications du tf*idf car oral transcrit 66
Caractrisation des segments obtenus Caractrisation par mots-cls
extraits Deux rles Permettre de comparer des reportages entre eux
Permettre dinterroger le Web pour trouver des pages lies
Lemmatisation Pnalit introduite pour les noms propres Prise en
compte des mesures de confiance 04/10/2014 67. 67 Extraction de
mots-cls Tf*idf classique sur les lemmes 04/10/2014 1.000 voile
0.756 adda 0.521 bernadette 0.501 lacit 0.483 musulmans, musulmane
0.449 photo, photos 0.429 sarkozy 0.387 chirac 0.372 prfecture
0.364 serge du tchador et de la corne est au nom du principe de la
lacit de l' tat on l' a quelques jours nicolas sarkozy rappeler
fermement aux musulmans qui n' tait pas question de porter le voile
en photo des entits un rappel l' ordre qui visiblement a chapp
bernadette chirac encore le journal le canard enchan l' pouse du
prsident de la rpublique se dmnent pour qu' une religieuse puisqu'
elle garder son voile est une trange mal le voile de serge adda
alberta ... S(l) = tf(l) x idf(l) 68. 68 04/10/2014 Extraction de
mots-cls + Pnalits sur les noms propres - 1.000 voile - 0.567 adda
0.501 lacit 0.483 musulmans, musulmane 0.449 photo, photos 0.391
bernadette 0.372 prfecture 0.330 mimosa 0.329 tchador 0.326
carmlites 0.322 sarkozy 0.290 chirac 0.273 serge du tchador et de
la corne est au nom du principe de la lacit de l' tat on l' a
quelques jours nicolas sarkozy rappeler fermement aux musulmans qui
n' tait pas question de porter le voile en photo des entits un
rappel l' ordre qui visiblement a chapp bernadette chirac encore le
journal le canard enchan l' pouse du prsident la publique se dmnent
pour qu' une religieuse puisqu' elle garder son voile est une
trange mal le voile de serge adda alberta ... S(l)= tf(l) x idf(l)
69. 69 Extraction de mots-cls + Prise en compte des mesures de
confiance 04/10/2014 - 0.992 voile 0.500 lacit 0.458 musulmans,
musulmane 0.454 adda 0.428 photo, photos 0.390 bernadette 0.371
prfecture 0.328 tchador 0.325 carmlites 0.321 sarkozy 0.294 serge
0.270 chirac du tchador et de la corne est au nom du principe de la
lacit de l' tat on l' a quelques jours nicolas sarkozy rappeler
fermement aux musulmans qui n' tait pas question de porter le voile
en photo des entits un rappel l' ordre qui visiblement a chapp
bernadette chirac encore le journal le canard enchan l' pouse du
prsident de la rpublique se dmnent pour qu' une religieuse puisqu'
elle garder son voile est une trange mal le voile de serge adda
alberta ... 70. Rcupration de pages Web lies laide de erreurs de
transcription 70 04/10/2014 requtes Conservation des premiers
mots-cls Requtes formes par mlange de 2 ou 3 mots-cls voile lacit
voile musulmans voile adda ... Limite linfluence des voile lacit
photo lacit adda photo musulmans adda photo 71. 71 04/10/2014
Texmix Application : systme de navigation au sein dune collection
de journaux TV Utilisation de techniques issues de diffrents
travaux de recherche dans lquipe TexMex Dmonstration : Texmix 72.
72 04/10/2014 Texmix 73. 73 04/10/2014 Texmix 74. 74 04/10/2014
3.3- Fouille dopinions Analyse de donnes exprimant des opinions :
rseaux sociaux, blogs, fora, commentaires sur des sites de commerce
lectronique Enjeux Individuels : achat dun matriel, rservation de
sjour conomiques : perception dun produit (propre ou concurrent)
par des utilisateurs, avis synthtique sur un sujet Politiques :
perception dune rforme, de sujets de mcontentement 75. 75
04/10/2014 Un travail compliqu Samedi dernier, jai achet un mobile
Nokia et ma copine a achet un Samsung avec Bluetooth. On sest
appels quand on est rentrs. La voix sur mon tlphone ntait pas si
claire, pire en tous cas que sur mon Motorola prcdent. La batterie
ne dure pas longtemps non plus. Ma copine tait plutt satisfaite de
son tlphone. Moi, je voulais un tlphone avec un bon son. Donc jtais
du de mon achat. Jai ramen le tlphone hier. (exemple de [Liu 2012]
traduit) Nombreux aspects du TAL impliqus Dont certains aspects de
comprhension assez fins Corfrence, analyse syntaxique, analyse
smantique voire pragmatique (claire >0 ou 0 et