Upload
aixtal
View
4.403
Download
0
Embed Size (px)
DESCRIPTION
Les données massivement accumulées par des sociétés comme Google ont permis des avancées considérables dans le traitement du langage humain par des machines (recherche d'information, traduction automatique, etc.). En quelques années, plus de progrès ont été accomplis que dans le demi-siècle qui a précédé, au risque d'une certaine frustration pour le chercheur qui peut avoir à juste titre l'impression que la compréhension des phénomènes lui échappe. L'exposé décrira ces progrès, ainsi que les défis qui restent à relever et qui peuvent changer la face de l'accès à l'information au cours des décennies à venir. Par Jean Veronis, Professeur de linguistique et d'informatique à l'Université Aix Marseille, chercheur.
Citation preview
Big Data et Technologies du langage
Jean VéronisCRIP - Assises du Big Data, du Stockage et des Bases de données18 octobre 2012
Qui suis-je ?
Aix-Marseille Université
Etats-Unis
CNRS
Professeur des Universités
email: [email protected] perso : http://www.veronis.frBlog : http://blog.veronis.frWikipedia : http://fr.wikipedia.org/wiki/Jean_Véronis
consultant
entrepreneur
Pages JaunesFrance Télécom - OrangeThalèsWikio group Ebuzzing...
Coordinateur grands projets de rechercheMembre de groupe d’experts internationauxPrésident de l’ATALA ( 2000-2008)
30 ans de recherchesValoriser
typographie, écritures
traduction automatique
sémantique
text mining
synthèse de la parole
lexiques
ontologies
correction orthographique
dialogue homme-machine
discours politique
entités nommées
influence
analyse de l’actu
réseaux sociaux
Technologies du langage
Le langage est à peu près le seul moyen d’accès à l’information
Mêmes les images et les vidéos sont indexées par les
mots qui les environnent
1968
Le rêve...
HAL
Film d’anticipation réaliste
Reflète ce que les scientifiques pensaient possible en 2001
Marvin Minsky (MIT)
La réalité...
http://www.sirifunny.com/siri-fail/
Le rêve a commencé en 1946…
En 1960 on affirmait que 5 ans plus tard on pourrait se passer de traducteurs humains pour les articles techniques…
Google translate
Loin de la qualité humaine, mais
très gros progrès !
Les progrès de la traduction automatique sont dus à l’approche
Big Data de
gigantesque réservoir de milliards de mots
dans toutes les langues
Méthodologie née vers 1990
Avant le Web...
Corpus multilingues
« Data-driven methods »
La Pierre de Rosette
Changement de paradigmeméthodes symboliques méthodes basées sur les données
logique statistiques
approche rationnelle approche empirique
Ca remonte loin...
René Descartes John Locke
rationalisme empirisme
Big data
Big Data
Continuité « data-driven method »
Changement d’échelle années 2000 Web (Google...) millions de mots → milliards
Changement de technologie stockage (Cloud...) puissance de calcul (map reduce, etc.)
Panacée ?
Difficultés pratiques qui a des données ?
Google, Microsoft, Facebook, Twitter, Amazon... mais les autres chercheurs ?
qui a les moyens techniques (et financiers) ? Google, Microsoft, Facebook, Twitter, Amazon... mais les autres chercheurs ?
Exemple
Projet ngram de Google Ngrammes issus de Google Books rendus publics 500 milliards de mots 4% des livres jamais publiés sur Terre plus grand corpus linguistique de tous les temps
« cholera »
« blog »
en
fr
Exemple
On en fait quoi ? Très peu d’utilisations concrètes
Panacée ?
Difficultés méthodologiques
il ne suffit pas d’avoir les données
il faut : des théories des modèles des outils
Cas particulier de la linguistique
Big data
Biologie(ex:
génome)
Astronomie(ex: Sky Survey)
Physique(ex: LHC)
etc.
Linguistique
tradition littéraire
tradition scientifique
Problèmes
Culturel Séparation lettres / sciences
y compris dans les formations
Epistémologique La linguistique est essentiellement rationaliste
notre raison soit expliquer les règles du langage nous possédons tous la faculté de langage
ce n’est donc pas un matériau d’observation l’approche statistique est bannie
Au fond...
Les Big Data ne nous mettent-elles pas dans le même inconfort intellectuel que la
physique quantique?
On observe, on prédit, mais comprend-on vraiment ?
Mais faut-il comprendre ?