28
Big Data et Technologies du langage Jean Véronis CRIP - Assises du Big Data, du Stockage et des Bases de données 18 octobre 2012

Big Data et Technologies du Langage

  • Upload
    aixtal

  • View
    4.403

  • Download
    0

Embed Size (px)

DESCRIPTION

Les données massivement accumulées par des sociétés comme Google ont permis des avancées considérables dans le traitement du langage humain par des machines (recherche d'information, traduction automatique, etc.). En quelques années, plus de progrès ont été accomplis que dans le demi-siècle qui a précédé, au risque d'une certaine frustration pour le chercheur qui peut avoir à juste titre l'impression que la compréhension des phénomènes lui échappe. L'exposé décrira ces progrès, ainsi que les défis qui restent à relever et qui peuvent changer la face de l'accès à l'information au cours des décennies à venir. Par Jean Veronis, Professeur de linguistique et d'informatique à l'Université Aix Marseille, chercheur.

Citation preview

Page 1: Big Data et Technologies du Langage

Big Data et Technologies du langage

Jean VéronisCRIP - Assises du Big Data, du Stockage et des Bases de données18 octobre 2012

Page 2: Big Data et Technologies du Langage

Qui suis-je ?

Page 3: Big Data et Technologies du Langage

Aix-Marseille Université

Etats-Unis

CNRS

Professeur des Universités

email: [email protected] perso : http://www.veronis.frBlog : http://blog.veronis.frWikipedia : http://fr.wikipedia.org/wiki/Jean_Véronis

consultant

entrepreneur

Pages JaunesFrance Télécom - OrangeThalèsWikio group Ebuzzing...

Coordinateur grands projets de rechercheMembre de groupe d’experts internationauxPrésident de l’ATALA ( 2000-2008)

Page 4: Big Data et Technologies du Langage

30 ans de recherchesValoriser

typographie, écritures

traduction automatique

sémantique

text mining

synthèse de la parole

lexiques

ontologies

correction orthographique

dialogue homme-machine

discours politique

entités nommées

influence

analyse de l’actu

réseaux sociaux

Page 5: Big Data et Technologies du Langage

Buzz analytics

http://www.trendsboard.com

Page 6: Big Data et Technologies du Langage

Technologies du langage

Page 7: Big Data et Technologies du Langage

Le langage est à peu près le seul moyen d’accès à l’information

Page 8: Big Data et Technologies du Langage

Mêmes les images et les vidéos sont indexées par les

mots qui les environnent

Page 9: Big Data et Technologies du Langage

1968

Le rêve...

Page 10: Big Data et Technologies du Langage

HAL

Page 11: Big Data et Technologies du Langage

Film d’anticipation réaliste

Reflète ce que les scientifiques pensaient possible en 2001

Marvin Minsky (MIT)

Page 13: Big Data et Technologies du Langage

Le rêve a commencé en 1946…

En 1960 on affirmait que 5 ans plus tard on pourrait se passer de traducteurs humains pour les articles techniques…

Page 14: Big Data et Technologies du Langage

Google translate

Loin de la qualité humaine, mais

très gros progrès !

Page 15: Big Data et Technologies du Langage

Les progrès de la traduction automatique sont dus à l’approche

Big Data de

gigantesque réservoir de milliards de mots

dans toutes les langues

Page 16: Big Data et Technologies du Langage

Méthodologie née vers 1990

Avant le Web...

Corpus multilingues

« Data-driven methods »

La Pierre de Rosette

Page 17: Big Data et Technologies du Langage

Changement de paradigmeméthodes symboliques méthodes basées sur les données

logique statistiques

approche rationnelle approche empirique

Page 18: Big Data et Technologies du Langage

Ca remonte loin...

René Descartes John Locke

rationalisme empirisme

Page 19: Big Data et Technologies du Langage

Big data

Page 20: Big Data et Technologies du Langage

Big Data

Continuité « data-driven method »

Changement d’échelle années 2000 Web (Google...) millions de mots → milliards

Changement de technologie stockage (Cloud...) puissance de calcul (map reduce, etc.)

Page 21: Big Data et Technologies du Langage

Panacée ?

Difficultés pratiques qui a des données ?

Google, Microsoft, Facebook, Twitter, Amazon... mais les autres chercheurs ?

qui a les moyens techniques (et financiers) ? Google, Microsoft, Facebook, Twitter, Amazon... mais les autres chercheurs ?

Page 22: Big Data et Technologies du Langage

Exemple

Projet ngram de Google Ngrammes issus de Google Books rendus publics 500 milliards de mots 4% des livres jamais publiés sur Terre plus grand corpus linguistique de tous les temps

« cholera »

« blog »

en

fr

Page 23: Big Data et Technologies du Langage

Exemple

On en fait quoi ? Très peu d’utilisations concrètes

Page 24: Big Data et Technologies du Langage

Panacée ?

Difficultés méthodologiques

il ne suffit pas d’avoir les données

il faut : des théories des modèles des outils

Cas particulier de la linguistique

Page 25: Big Data et Technologies du Langage

Big data

Biologie(ex:

génome)

Astronomie(ex: Sky Survey)

Physique(ex: LHC)

etc.

Linguistique

tradition littéraire

tradition scientifique

Page 26: Big Data et Technologies du Langage

Problèmes

Culturel Séparation lettres / sciences

y compris dans les formations

Epistémologique La linguistique est essentiellement rationaliste

notre raison soit expliquer les règles du langage nous possédons tous la faculté de langage

ce n’est donc pas un matériau d’observation l’approche statistique est bannie

Page 27: Big Data et Technologies du Langage

Au fond...

Les Big Data ne nous mettent-elles pas dans le même inconfort intellectuel que la

physique quantique?

On observe, on prédit, mais comprend-on vraiment ?

Page 28: Big Data et Technologies du Langage

Mais faut-il comprendre ?