Upload
vohanh
View
213
Download
0
Embed Size (px)
Citation preview
ECOLE POLYTECHNIQUE EXECUTIVE EDUCATION - F 91128 PALAISEAU CEDEX - T. +33 (0)1 69 59 66 60 - www.exed.polytechnique.edu
Les essentiels du Text Mining / NLP Text
Mining
Le texte représente une très grande partie des données digitales en ligne et hors ligne et l’analyse
automatisée du texte (ou text mining en Anglais) est donc d’une importance capitale dans de nombreux
domaines d'application. Ces derniers incluent par exemple les moteurs de recherche, les chatbots, le
marketing digital, ou l’analyse des réseaux sociaux. Ce cours offrira un aperçu des techniques et des
méthodes de pointe pour différentes tâches de text mining. Dans la suite, le contenu du cours est détaillé
suivant une organisation correspondant aux tâches majeures du domaine.
Eléments clés Durée : 3 jours
Lieu : EXED Polytechnique
Code : TMIN
Prérequis - programmation en Python
Objectifs - familiarisation avec le domaine du text mining, ses tâches et ses défis
- apprentissage des méthodes traditionnelles et plus récentes utilisées pour résoudre les principales tâches
du text mining
Compétences acquises à l’issue de la formation - compréhension des méthodes de text mining
- capacité à implémenter ces méthodes en Python
Tâche 1: Récupération d’informations
- le modèle ‘Vector Space’ (bag-of-words)
- pré-traitement de texte
- indexing (inverted index) et retrieval (requêtes booléennes et TF-IDF)
- métriques d'évaluation: MAP, P@k
- Topic modeling et analyse sémantique latente, visualisation (clustering de documents)
Tâche 2: Extraction de mots clés
- pré-traitement de texte
- l'hypothèse de distribution et le modèle "graph-of-words"
- comparaison de TF-IDF, PageRank et des algorithmes de dégénérescence graphique
- jeu de données: Hulth2003
- métriques d'évaluation: précision, rappel, F1-score
ECOLE POLYTECHNIQUE EXECUTIVE EDUCATION - F 91128 PALAISEAU CEDEX - T. +33 (0)1 69 59 66 60 - www.exed.polytechnique.edu
Tâche 3: Apprentissage de vecteurs de mots et de documents, classification non supervisée
de documents
- word2vec (CBOW and skip-gram)
- doc2vec
- visualisation de régularités et de regroupements dans les espaces de vecteurs de mots et de documents
- illustration de la classification non supervisée de documents: algorithme des plus proches voisins avec TF-
IDF, word2vec, Word Mover’s Distance, doc2vec
- jeu de données: 20NewsGroup
- métriques d'évaluation: précision
Tâche 4: Classification supervisée de documents
- algorithmes: Naive Bayes, régression logistique, machines à supports de vecteurs
- réseaux de neurones convolutionnels
- exploration des caractéristiques les plus discriminatives (phrases, n-grammes) pour chaque classe
- jeux de données: WebKB, tweets (analyse de sentiment)
- mesures d'évaluation: précision
Tâche 5: Résumé de documents
- extractive: approche de Maximum Marginal Relevance
- abstractive: approche graphique de compression multi-phrases de Filippova
- jeu de données: DUC2002
- mesures d'évaluation: ROUGE
PROGRAMME
Jour 1
MATIN
Théorie des tâches 1 et 2: Récupération d’informations et extraction de mots clés
APRÈS-MIDI
Séance de programmation pratique sur certains des sujets abordés dans la matinée. Mise en œuvre de
l'index inversé et de requêtes, extraction non-supervisée de mots clés.
Jour 2
MATIN
Théorie des tâches 3 et 4 (1/2): Apprentissage de vecteurs de mots et de documents, classification non
supervisée et supervisée de documents.
APRÈS-MIDI
Séance de programmation pratique sur certains des sujets abordés dans la matinée. Word2vec, doc2vec,
Word Mover’s Distance. Utilisation des vecteurs de mots ‘Google News’. Classification non-supervisée de
documents.
Jour 3 MATIN
Théorie des tâches 3 et 4 (2/2): Apprentissage de vecteurs de mots et de documents, classification non-
supervisée et supervisée de documents + théorie de la tâche 5: Résumé de documents.
ECOLE POLYTECHNIQUE EXECUTIVE EDUCATION - F 91128 PALAISEAU CEDEX - T. +33 (0)1 69 59 66 60 - www.exed.polytechnique.edu
APRÈS-MIDI
Séance de programmation pratique sur certains des sujets abordés dans la matinée. Naive Bayes, régression
logistique, SVM et réseaux de neurones convolutionnels. Classification supervisée de documents.
Responsable scientifique
Michalis Vazirgiannis
Intervenants:
Michalis Vazirgiannis
Dr. Antoine Tixier