3
ECOLE POLYTECHNIQUE EXECUTIVE EDUCATION - F 91128 PALAISEAU CEDEX - T. +33 (0)1 69 59 66 60 - www.exed.polytechnique.edu Les essentiels du Text Mining / NLP Text Mining Le texte représente une très grande partie des données digitales en ligne et hors ligne et l’analyse automatisée du texte (ou text mining en Anglais) est donc d’une importance capitale dans de nombreux domaines d'application. Ces derniers incluent par exemple les moteurs de recherche, les chatbots, le marketing digital, ou l’analyse des réseaux sociaux. Ce cours offrira un aperçu des techniques et des méthodes de pointe pour différentes tâches de text mining. Dans la suite, le contenu du cours est détaillé suivant une organisation correspondant aux tâches majeures du domaine. Eléments clés Durée : 3 jours Lieu : EXED Polytechnique Code : TMIN Prérequis - programmation en Python Objectifs - familiarisation avec le domaine du text mining, ses tâches et ses défis - apprentissage des méthodes traditionnelles et plus récentes utilisées pour résoudre les principales tâches du text mining Compétences acquises à l’issue de la formation - compréhension des méthodes de text mining - capacité à implémenter ces méthodes en Python Tâche 1: Récupération d’informations - le modèle ‘Vector Space’ (bag-of-words) - pré-traitement de texte - indexing (inverted index) et retrieval (requêtes booléennes et TF-IDF) - métriques d'évaluation: MAP, P@k - Topic modeling et analyse sémantique latente, visualisation (clustering de documents) Tâche 2: Extraction de mots clés - pré-traitement de texte - l'hypothèse de distribution et le modèle "graph-of-words" - comparaison de TF-IDF, PageRank et des algorithmes de dégénérescence graphique - jeu de données: Hulth2003 - métriques d'évaluation: précision, rappel, F1-score

Les essentiels du Text Mining / NLP Text Mining · - indexing (inverted index) et retrieval (requêtes booléennes et TF-IDF) - métriques d'évaluation: MAP, P@k - Topic modeling

  • Upload
    vohanh

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

ECOLE POLYTECHNIQUE EXECUTIVE EDUCATION - F 91128 PALAISEAU CEDEX - T. +33 (0)1 69 59 66 60 - www.exed.polytechnique.edu

Les essentiels du Text Mining / NLP Text

Mining

Le texte représente une très grande partie des données digitales en ligne et hors ligne et l’analyse

automatisée du texte (ou text mining en Anglais) est donc d’une importance capitale dans de nombreux

domaines d'application. Ces derniers incluent par exemple les moteurs de recherche, les chatbots, le

marketing digital, ou l’analyse des réseaux sociaux. Ce cours offrira un aperçu des techniques et des

méthodes de pointe pour différentes tâches de text mining. Dans la suite, le contenu du cours est détaillé

suivant une organisation correspondant aux tâches majeures du domaine.

Eléments clés Durée : 3 jours

Lieu : EXED Polytechnique

Code : TMIN

Prérequis - programmation en Python

Objectifs - familiarisation avec le domaine du text mining, ses tâches et ses défis

- apprentissage des méthodes traditionnelles et plus récentes utilisées pour résoudre les principales tâches

du text mining

Compétences acquises à l’issue de la formation - compréhension des méthodes de text mining

- capacité à implémenter ces méthodes en Python

Tâche 1: Récupération d’informations

- le modèle ‘Vector Space’ (bag-of-words)

- pré-traitement de texte

- indexing (inverted index) et retrieval (requêtes booléennes et TF-IDF)

- métriques d'évaluation: MAP, P@k

- Topic modeling et analyse sémantique latente, visualisation (clustering de documents)

Tâche 2: Extraction de mots clés

- pré-traitement de texte

- l'hypothèse de distribution et le modèle "graph-of-words"

- comparaison de TF-IDF, PageRank et des algorithmes de dégénérescence graphique

- jeu de données: Hulth2003

- métriques d'évaluation: précision, rappel, F1-score

ECOLE POLYTECHNIQUE EXECUTIVE EDUCATION - F 91128 PALAISEAU CEDEX - T. +33 (0)1 69 59 66 60 - www.exed.polytechnique.edu

Tâche 3: Apprentissage de vecteurs de mots et de documents, classification non supervisée

de documents

- word2vec (CBOW and skip-gram)

- doc2vec

- visualisation de régularités et de regroupements dans les espaces de vecteurs de mots et de documents

- illustration de la classification non supervisée de documents: algorithme des plus proches voisins avec TF-

IDF, word2vec, Word Mover’s Distance, doc2vec

- jeu de données: 20NewsGroup

- métriques d'évaluation: précision

Tâche 4: Classification supervisée de documents

- algorithmes: Naive Bayes, régression logistique, machines à supports de vecteurs

- réseaux de neurones convolutionnels

- exploration des caractéristiques les plus discriminatives (phrases, n-grammes) pour chaque classe

- jeux de données: WebKB, tweets (analyse de sentiment)

- mesures d'évaluation: précision

Tâche 5: Résumé de documents

- extractive: approche de Maximum Marginal Relevance

- abstractive: approche graphique de compression multi-phrases de Filippova

- jeu de données: DUC2002

- mesures d'évaluation: ROUGE

PROGRAMME

Jour 1

MATIN

Théorie des tâches 1 et 2: Récupération d’informations et extraction de mots clés

APRÈS-MIDI

Séance de programmation pratique sur certains des sujets abordés dans la matinée. Mise en œuvre de

l'index inversé et de requêtes, extraction non-supervisée de mots clés.

Jour 2

MATIN

Théorie des tâches 3 et 4 (1/2): Apprentissage de vecteurs de mots et de documents, classification non

supervisée et supervisée de documents.

APRÈS-MIDI

Séance de programmation pratique sur certains des sujets abordés dans la matinée. Word2vec, doc2vec,

Word Mover’s Distance. Utilisation des vecteurs de mots ‘Google News’. Classification non-supervisée de

documents.

Jour 3 MATIN

Théorie des tâches 3 et 4 (2/2): Apprentissage de vecteurs de mots et de documents, classification non-

supervisée et supervisée de documents + théorie de la tâche 5: Résumé de documents.

ECOLE POLYTECHNIQUE EXECUTIVE EDUCATION - F 91128 PALAISEAU CEDEX - T. +33 (0)1 69 59 66 60 - www.exed.polytechnique.edu

APRÈS-MIDI

Séance de programmation pratique sur certains des sujets abordés dans la matinée. Naive Bayes, régression

logistique, SVM et réseaux de neurones convolutionnels. Classification supervisée de documents.

Responsable scientifique

Michalis Vazirgiannis

Intervenants:

Michalis Vazirgiannis

Dr. Antoine Tixier