21
Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 [email protected]

Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 [email protected]

Embed Size (px)

Citation preview

Page 1: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Apprentissage superviséà partir de séquences

DEA Génomique et Informatique

année 2000-2001

[email protected]

Page 2: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Apprentissage par inductionApprentissage d'un concept C à partir

d'exemples (instances) appartenant au concept

• Choix de la description des exemples ?

• Choix de la description des hypothèses ?

• Apprentissage réussi ?

Apprentissagex1, …,xn

échantillon d’apprentissage X H C

hypothèse

Page 3: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Exemple 1

Apprentissage de l’arbre de décision « sortie en mer »

météo Skipper Décisioncalme amateur mertempête amateur terre agitée expérimenté mertempête expérimenté terreagitée amateur terre

Échantillon d’apprentissage Arbre de décision

météo = tempête

terreskipper = amateur

météo = agitée

terre

mer

mer

Apprentissage

Oui

Oui

Oui

Non

Non

Non

Page 4: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Apprentissage de classificationsConcept = fonction de classification c

• Objets à classer O = {o1,o2,…},

• Langage de description D = {d1,d2,…}

• Ensemble de classes [1,C]

Classification c : O [1,C] ( O [1,C])

Exemples = <description, classe> Apprentissage x1 , … , xn

<d1,c1> <dn,cn> h c

c

d

h

Page 5: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Remarques • Apprentissage « supervisé » : on connaît le

nombre de classes et la classe des exemples( clustering, cf. cours I.C. Lerman)

• Cas C = 2 (classes = [1,2]) : discrimination d’objets appartenant à la classe 1 / ceux qui n’y appartiennent pas ( dans classe 2). Apprentissage d’un concept à partir d’exemples et de contre-exemples. On notera = {+,-}

« exemples positifs, exemples négatifs »

Page 6: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Description des objets

• Ensemble d'attributs d = (a1, …, an)

– dans R (apprentissage numérique)– discrets (apprentissage symbolique)

• booléens

• Séquence sur un alphabet, etc...

Devrait permettre discrimination des exemplesc(o1) c(o2) d(o1) d(o2)

mais aussi un apprentissage "efficace"

Mixtes

Page 7: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Description des hypothèses

• Choix du type de fonctions considéré Espace d'hypothèse

• Espace d'hypothèse grand Favorise existence de h=c Plus difficile à explorer pour trouver la

(meilleure) solution

Page 8: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Espaces de description

Programme d'apprentissage cherche la "meilleure" solution dans l'espace d'hypothèses

par rapport à l'échantillon d'apprentissage

+++

+

+h

Espace de représentation Espace d’hypothèses

--

---

-

-- -

D H

Page 9: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Erreurs de classification

• Erreur de classification de h pour d :E(d) = P(c(o) h(d) / d(o) = d)

• Erreur de classification de h (à minimiser)E(h) = d D E(d) P(d(o) = d)

• Taux d’erreur apparent (sur l’échantillon)

Eapp (h) = err / n

n : nombre d’exempleserr : nombre d’erreurs de classification par H sur les exemples

E(h) = lim n Eapp(h)

Page 10: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Bien classer et bien prédire

• Minimisation Eapp Sur-spécialisation / X

Exple : Apprentissage par cœur, Eapp = 0Apprentissage ou mémorisation ?

Pouvoir prédictif ?!?

• But : au moins une meilleure prédiction que laRègle de la classification majoritaire

Page 11: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Critère de simplicité

• Rasoir d’Occam : Favoriser les hypothèses les plus

simples

• Minimum Description Length (MDL)hMDL = argmin hH L1(h)+L2(X/h)

(Minimiser longueur du codage de h et de ses exceptions)

Page 12: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Evaluation par ensemble de testNe pas utiliser les mêmes exemples pour apprendre

et pour évaluer la qualité du résultat !• Échantillon fourni divisé en échantillon d’apprentissage

et échantillon de test (Rapports usuels : 1/2,1/2 ou 2/3,1/3)

• Validation croisée– partition de X en p sous-ensembles

– p apprentissages sur p-1 sous-ensembles, test sur le sous-ensemble restant

• Bootstrap– Tirage avec remise de n exemples : ensemble d’apprentissage

– Test sur X

Page 13: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Apprentissage d’arbre de décision

Page 14: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Inférence grammaticale

Page 15: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Apprentissage de modèles probabilistes

Page 16: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Exemple 2

Apprendre concept « gens aisés » (revenu > moyenne)

• Objets à classer O : population française

• Description D : {répondeur, répondeur}

• Classes : {aisé, aisé}• Echantillon représentatif

40% pop. est aisée80% pop aisée a un répondeur, sinon seulement 45%

Classe k aisé aisé

P(k) 0,4 0,6

P(répondeur/k) 0,8 0,45

Page 17: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Règles de classification

• Majoritaireo, hmaj (o) = aisé

• Maximum de vraisemblancechoix de la classe pour laquelle la description est la plus probableargmax k[1,C] P(d/k)

hmaxv (répondeur) = aisé ; hmaxv (répondeur) = aisé

Pb : classification en {Télécom, Médecin, Ouvrier} avec P(répondeur/Télécom) = 1

hmaxv (répondeur) = Télécom

Classe k aisé aisé

P(k) 0,4 0,6

P(répondeur/k) 0,8 0,45

Page 18: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Règles de classification

• Bayesclasse de probabilité maximale pour la description

argmax k[1,C] P(k/d) = argmax k[1,C] P(d/k) P(k)

Rappel formule de Bayes P(k/d) =

P(répondeur/aisé) P(aisé) = 0,80,4 = 0,32P(répondeur/aisé) P(aisé) = 0,450,6 = 0,27P(répondeur/aisé) P(aisé) = 0,20,4 = 0,08P(répondeur/aisé) P(aisé) = 0,550,6 = 0,33

Nécessite connaissance de P(d/k) et P(k) !...

Classe k aisé aisé

P(k) 0,4 0,6

P(répondeur/k) 0,8 0,45

P(d/k) P(k)

P(d) indépendant de k

hBayes (répondeur) = aisé

hBayes (répondeur) = aisé

Page 19: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Propriétés du classificateur de BayesCBayes(d) = argmax k[1,C] P(k/d)

= argmax k[1,C] P(d/k) P(k)

• Si E(CBayes) = 0 alors c(o1) c(o2) d(o1) d(o2)(problème déterministe)

• Classification d’erreur minimale

h, E(CBayes) E(h) E(Majoritaire)

Mais nécessite connaissance de P(d/k) et P(k) !

Page 20: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Classificateur naïf de BayesApproximation de P(d/k) et P(k) inconnus

si D = A1 A2 ... Am

CBayes(d) = argmax k[1,C] P(<a1, ... , am>/k) P(k)

si valeurs des attributs indépendantes sachant k (!) P(<a1, ... , am>/k) = i[1,m] P(di/k)

alors en notant P(di/k) l'estimation de P(di/k) (proportion d'objets de classe k, ayant comme ième attribut di)

Hypothèses « fausses », mais bons résultats en pratique...

CNaiveBayes(d) = argmax k[1,C] i[1,m] P(di/k) P(k)^ ^

^

Page 21: Apprentissage supervisé à partir de séquences DEA Génomique et Informatique année 2000-2001 Francois.Coste@irisa.fr

Apprentissage de HMM