Big Data et Technologies du Langage

Preview:

DESCRIPTION

Les données massivement accumulées par des sociétés comme Google ont permis des avancées considérables dans le traitement du langage humain par des machines (recherche d'information, traduction automatique, etc.). En quelques années, plus de progrès ont été accomplis que dans le demi-siècle qui a précédé, au risque d'une certaine frustration pour le chercheur qui peut avoir à juste titre l'impression que la compréhension des phénomènes lui échappe. L'exposé décrira ces progrès, ainsi que les défis qui restent à relever et qui peuvent changer la face de l'accès à l'information au cours des décennies à venir. Par Jean Veronis, Professeur de linguistique et d'informatique à l'Université Aix Marseille, chercheur.

Citation preview

Big Data et Technologies du langage

Jean VéronisCRIP - Assises du Big Data, du Stockage et des Bases de données18 octobre 2012

Qui suis-je ?

Aix-Marseille Université

Etats-Unis

CNRS

Professeur des Universités

email: jean@veronis.frPage perso : http://www.veronis.frBlog : http://blog.veronis.frWikipedia : http://fr.wikipedia.org/wiki/Jean_Véronis

consultant

entrepreneur

Pages JaunesFrance Télécom - OrangeThalèsWikio group Ebuzzing...

Coordinateur grands projets de rechercheMembre de groupe d’experts internationauxPrésident de l’ATALA ( 2000-2008)

30 ans de recherchesValoriser

typographie, écritures

traduction automatique

sémantique

text mining

synthèse de la parole

lexiques

ontologies

correction orthographique

dialogue homme-machine

discours politique

entités nommées

influence

analyse de l’actu

réseaux sociaux

Buzz analytics

http://www.trendsboard.com

Technologies du langage

Le langage est à peu près le seul moyen d’accès à l’information

Mêmes les images et les vidéos sont indexées par les

mots qui les environnent

1968

Le rêve...

HAL

Film d’anticipation réaliste

Reflète ce que les scientifiques pensaient possible en 2001

Marvin Minsky (MIT)

Le rêve a commencé en 1946…

En 1960 on affirmait que 5 ans plus tard on pourrait se passer de traducteurs humains pour les articles techniques…

Google translate

Loin de la qualité humaine, mais

très gros progrès !

Les progrès de la traduction automatique sont dus à l’approche

Big Data de

gigantesque réservoir de milliards de mots

dans toutes les langues

Méthodologie née vers 1990

Avant le Web...

Corpus multilingues

« Data-driven methods »

La Pierre de Rosette

Changement de paradigmeméthodes symboliques méthodes basées sur les données

logique statistiques

approche rationnelle approche empirique

Ca remonte loin...

René Descartes John Locke

rationalisme empirisme

Big data

Big Data

Continuité « data-driven method »

Changement d’échelle années 2000 Web (Google...) millions de mots → milliards

Changement de technologie stockage (Cloud...) puissance de calcul (map reduce, etc.)

Panacée ?

Difficultés pratiques qui a des données ?

Google, Microsoft, Facebook, Twitter, Amazon... mais les autres chercheurs ?

qui a les moyens techniques (et financiers) ? Google, Microsoft, Facebook, Twitter, Amazon... mais les autres chercheurs ?

Exemple

Projet ngram de Google Ngrammes issus de Google Books rendus publics 500 milliards de mots 4% des livres jamais publiés sur Terre plus grand corpus linguistique de tous les temps

« cholera »

« blog »

en

fr

Exemple

On en fait quoi ? Très peu d’utilisations concrètes

Panacée ?

Difficultés méthodologiques

il ne suffit pas d’avoir les données

il faut : des théories des modèles des outils

Cas particulier de la linguistique

Big data

Biologie(ex:

génome)

Astronomie(ex: Sky Survey)

Physique(ex: LHC)

etc.

Linguistique

tradition littéraire

tradition scientifique

Problèmes

Culturel Séparation lettres / sciences

y compris dans les formations

Epistémologique La linguistique est essentiellement rationaliste

notre raison soit expliquer les règles du langage nous possédons tous la faculté de langage

ce n’est donc pas un matériau d’observation l’approche statistique est bannie

Au fond...

Les Big Data ne nous mettent-elles pas dans le même inconfort intellectuel que la

physique quantique?

On observe, on prédit, mais comprend-on vraiment ?

Mais faut-il comprendre ?

Recommended