Upload
emmanuelle-weber
View
109
Download
3
Embed Size (px)
Citation preview
Vers un nouvel empirisme:l’ancien et le nouvel
empirismeJohn Goldsmith
Université de ChicagoCNRS MoDyCo
L’ancien empirisme etl’ancien rationalisme
Le nouvel empirisme
Definir le corpus (les donnés).Laisser à la Nature de la marge pour
qu’Elle puisse nous parler.Trouver l’hypothèse la plus probable,
étant donnés les faits que la Nature nous a octroyés.
Conceptuellement similaire à la grammaire générative classique, mais supérieure de deux façons.
Superieur de deux façons?
• La notion de “confirmation de la grammaire par les faits” devient explicitée pour la premiere fois.
• Il n’est pas nécessaire d’éxpliciter des contraintes sur grammaires possibles: la complexité algorithmique fait tout.
Feuille de route
1. Une analyse probabiliste, du point de vue formelle
2. Le nouvel empirisme: • Trouver l’hypothèse la plus probable,
étant donnés les faits: maximiser pr (H|D)
3. Minimiser -1 * log pr (H|D)4. Approches bayésiennes: complexité
du modèle (grammaire) et probabilité des données
6. Pourquoi “bayésiennes”? Règle de Bayes
7. Diviser le problème en deux parties:– le degré de confirmation de la
grammaire par les faits, et– la complexité de la grammaire
8. Conclusions
1. Analyse probabiliste
Une analyse probabiliste assigne un nombre à chaque représentation possible;
Ce sont des probabilités.La somme des probabilités de toutes
les représentations doit égaler 1.0 . Nous voulons que la probabilité qui est
assignée à la réalité soit grande.
2. Le nouvel empirisme
Une expérience scientifique doit offrir assez de marge à la Nature pour nous surprendre. C'est-à-dire, une étude qui confirme ce que l’on croie déjà était mal conçue ; elle nous enseigne peu de choses. Des méthodes quantitatives nous permettent de comprendre et de mesurer la Nature. La performance de nos modèles sera maximale si nous écoutons la Nature.
2 bis. Le nouvel empirisme
Trouver l’hypothèse la plus probable, étant données les observations: )|(max DHpr
Prendre en consideration la probabilité apriori des hypothèses = complexités des modèles
4. Pourquoi “bayésiennes”?
• Regle de Bayes• Elle n’est qu’une manipulation de la
définition de la probabilité conditionnelle.
La règle de Bayes
)(
)()|()|(
Dpr
HprHDprDHpr
D = DonnéesH = Hypothèse
La règle de Bayes
)(
)()|()|(
Dpr
HprHDprDHpr
D = DonnéesH = Hypothèse
)()|()()|( HprHDprDprDHpr
)(
)()|()|(
Dpr
HprHDprDHpr
5. Equivalence mathématique
“Maximiser pr (H|D)” équivaut“Minimiser -1 * log pr (H|D)”
)()()|(log
)(
)()|(log)|(log
DprHprHDpr
Dpr
HprHDprDHpr
Donc: “Minimiser –log pr(D|H) – log pr(H) + log pr(D)”
D = DonnéesH = Hypothèse
A retenir:Minimiser
–log pr(D|H) – log pr(H) – log pr(D)D = DonnéesH = Hypothèse
6. Règle de Bayes divise le problème en deux parties
Minimiser –log pr(D|H) – log pr(H) – log pr(D)
D = DonnéesH = Hypothèse
6. Règle de Bayes divise le problème en deux parties
Minimiser –log pr(D|H) – log pr(H) – log pr(D)
D = DonnéesH = Hypothèse
quantité positive:
plus elle est petite, plus la probabilité de D, étant donné H, est grande.
6. Règle de Bayes divise le problème en deux parties
Minimiser –log pr(D|H) – log pr(H) – log pr(D)
D = DonnéesH = Hypothèse
quantité positive:
plus elle est petite, plus la probabilité de D, étant donné H, est grande.
“longueur optimale de D compressé par
H”
6. Règle de Bayes divise le problème en deux parties
Minimiser –log pr(D|H) – log pr(H) – log pr(D)
D = DonnéesH = Hypothèse
quantité positive:
plus elle est petite, plus la probabilité de D, étant donné H, est grande.
degré inverse de
confirmation de la
grammaire H par données D
Chomsky Language and Mind
• A third task is that of determining just what it means for a hypothesis about the generative grammar of a language to be “consistent” with the data of sense. Notice that it is a great oversimplification to suppose that a child must discover a generative grammar that accounts for all the linguistic data that has been presented to him and that “projects” such data to an infinite range of potential sound-meaning relations….
Chomsky Language and Mind
• The task, then, is to study what we might think of as the problem of “confirmation”—in this context, the problem of what relation must hold between a potential grammar and a set of data for this grammar to be confirmed as the actual theory of the language in question.
Si trois conditions sont satisfaites, cette mesure M est équivalente à une probabilité:
• La mesure est toujours positive;• Plus la mesure est grande, moins
les données D appuyent H;• Si un corpus C contient 2 phrases,
P1 et P2, M(C) = M(P1) + M(P2)
Supposons qu’une telle mesure M existe…
6 (rappel): Règle de Bayes divise le problème en deux
partiesMinimiser
–log pr(D|H) – log pr(H) – log pr(D)
D = DonnéesH = Hypothèse
quantité positive:
plus elle est petite, plus la probabilité de D, étant H, est
grande.
Comment mesurer la probabilité
d’une grammaire
?
Complexité algorithmique
On mesure la probabilité d’un algorithme par son complexité algorithmique.
C’est un fait non-trivial que cela défini une probabilité.
)(2
1Hlongueur
7 : Règle de Bayes divise le problème en deux parties
Minimiser –log pr(D|H) – log pr(H) – log pr(D)
D = DonnéesH = Hypothèse
degré inverse de
confirmation de la
grammaire H par données
D
)(2
1Hlongueur
(quantité qui estconstant, une foisles données sont choisies:donc, qui ne varie pas)
7 : En somme
Minimiser la somme de:
la mesure probabiliste
de la grammaire
basée sur les données
la complexié algorithmique de l’analyse+
7. Conclusions
Un nouvel empirisme:1. valorise les recherches empiriques et
les bases de données;2. donne une base théorique pour la
notion de complexité d’une grammaire;3. sans recours à une grammaire innée,
mais avec recours à une grammaire vraiment universelle;
4. donne une base théorique qui explique et explicite la relation entre une grammaire et les données qu’elle engendre.
Fin