Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago...

Preview:

Citation preview

Vers un nouvel empirisme:l’ancien et le nouvel

empirismeJohn Goldsmith

Université de ChicagoCNRS MoDyCo

L’ancien empirisme etl’ancien rationalisme

Le nouvel empirisme

Definir le corpus (les donnés).Laisser à la Nature de la marge pour

qu’Elle puisse nous parler.Trouver l’hypothèse la plus probable,

étant donnés les faits que la Nature nous a octroyés.

Conceptuellement similaire à la grammaire générative classique, mais supérieure de deux façons.

Superieur de deux façons?

• La notion de “confirmation de la grammaire par les faits” devient explicitée pour la premiere fois.

• Il n’est pas nécessaire d’éxpliciter des contraintes sur grammaires possibles: la complexité algorithmique fait tout.

Feuille de route

1. Une analyse probabiliste, du point de vue formelle

2. Le nouvel empirisme: • Trouver l’hypothèse la plus probable,

étant donnés les faits: maximiser pr (H|D)

3. Minimiser -1 * log pr (H|D)4. Approches bayésiennes: complexité

du modèle (grammaire) et probabilité des données

6. Pourquoi “bayésiennes”? Règle de Bayes

7. Diviser le problème en deux parties:– le degré de confirmation de la

grammaire par les faits, et– la complexité de la grammaire

8. Conclusions

1. Analyse probabiliste

Une analyse probabiliste assigne un nombre à chaque représentation possible;

Ce sont des probabilités.La somme des probabilités de toutes

les représentations doit égaler 1.0 . Nous voulons que la probabilité qui est

assignée à la réalité soit grande.

2. Le nouvel empirisme

Une expérience scientifique doit offrir assez de marge à la Nature pour nous surprendre. C'est-à-dire, une étude qui confirme ce que l’on croie déjà était mal conçue ; elle nous enseigne peu de choses. Des méthodes quantitatives nous permettent de comprendre et de mesurer la Nature. La performance de nos modèles sera maximale si nous écoutons la Nature.

2 bis. Le nouvel empirisme

Trouver l’hypothèse la plus probable, étant données les observations: )|(max DHpr

Prendre en consideration la probabilité apriori des hypothèses = complexités des modèles

4. Pourquoi “bayésiennes”?

• Regle de Bayes• Elle n’est qu’une manipulation de la

définition de la probabilité conditionnelle.

La règle de Bayes

)(

)()|()|(

Dpr

HprHDprDHpr

D = DonnéesH = Hypothèse

La règle de Bayes

)(

)()|()|(

Dpr

HprHDprDHpr

D = DonnéesH = Hypothèse

)()|()()|( HprHDprDprDHpr

)(

)()|()|(

Dpr

HprHDprDHpr

5. Equivalence mathématique

“Maximiser pr (H|D)” équivaut“Minimiser -1 * log pr (H|D)”

)()()|(log

)(

)()|(log)|(log

DprHprHDpr

Dpr

HprHDprDHpr

Donc: “Minimiser –log pr(D|H) – log pr(H) + log pr(D)”

D = DonnéesH = Hypothèse

A retenir:Minimiser

–log pr(D|H) – log pr(H) – log pr(D)D = DonnéesH = Hypothèse

6. Règle de Bayes divise le problème en deux parties

Minimiser –log pr(D|H) – log pr(H) – log pr(D)

D = DonnéesH = Hypothèse

6. Règle de Bayes divise le problème en deux parties

Minimiser –log pr(D|H) – log pr(H) – log pr(D)

D = DonnéesH = Hypothèse

quantité positive:

plus elle est petite, plus la probabilité de D, étant donné H, est grande.

6. Règle de Bayes divise le problème en deux parties

Minimiser –log pr(D|H) – log pr(H) – log pr(D)

D = DonnéesH = Hypothèse

quantité positive:

plus elle est petite, plus la probabilité de D, étant donné H, est grande.

“longueur optimale de D compressé par

H”

6. Règle de Bayes divise le problème en deux parties

Minimiser –log pr(D|H) – log pr(H) – log pr(D)

D = DonnéesH = Hypothèse

quantité positive:

plus elle est petite, plus la probabilité de D, étant donné H, est grande.

degré inverse de

confirmation de la

grammaire H par données D

Chomsky Language and Mind

•  A third task is that of determining just what it means for a hypothesis about the generative grammar of a language to be “consistent” with the data of sense. Notice that it is a great oversimplification to suppose that a child must discover a generative grammar that accounts for all the linguistic data that has been presented to him and that “projects” such data to an infinite range of potential sound-meaning relations….

Chomsky Language and Mind

• The task, then, is to study what we might think of as the problem of “confirmation”—in this context, the problem of what relation must hold between a potential grammar and a set of data for this grammar to be confirmed as the actual theory of the language in question.

Si trois conditions sont satisfaites, cette mesure M est équivalente à une probabilité:

• La mesure est toujours positive;• Plus la mesure est grande, moins

les données D appuyent H;• Si un corpus C contient 2 phrases,

P1 et P2, M(C) = M(P1) + M(P2)

Supposons qu’une telle mesure M existe…

6 (rappel): Règle de Bayes divise le problème en deux

partiesMinimiser

–log pr(D|H) – log pr(H) – log pr(D)

D = DonnéesH = Hypothèse

quantité positive:

plus elle est petite, plus la probabilité de D, étant H, est

grande.

Comment mesurer la probabilité

d’une grammaire

?

Complexité algorithmique

On mesure la probabilité d’un algorithme par son complexité algorithmique.

C’est un fait non-trivial que cela défini une probabilité.

)(2

1Hlongueur

7 : Règle de Bayes divise le problème en deux parties

Minimiser –log pr(D|H) – log pr(H) – log pr(D)

D = DonnéesH = Hypothèse

degré inverse de

confirmation de la

grammaire H par données

D

)(2

1Hlongueur

(quantité qui estconstant, une foisles données sont choisies:donc, qui ne varie pas)

7 : En somme

Minimiser la somme de:

la mesure probabiliste

de la grammaire

basée sur les données

la complexié algorithmique de l’analyse+

7. Conclusions

Un nouvel empirisme:1. valorise les recherches empiriques et

les bases de données;2. donne une base théorique pour la

notion de complexité d’une grammaire;3. sans recours à une grammaire innée,

mais avec recours à une grammaire vraiment universelle;

4. donne une base théorique qui explique et explicite la relation entre une grammaire et les données qu’elle engendre.

Fin

Recommended