Apprentissage de Fonctions d’Ordonnancement avec peu d

Thèse de doctorat del’Université Pierre et Marie Curie

Spécialité : Informatique

présentée par

Nguyen Tuong Vinh Truong

pour obtenir le grade deDocteur de l’Université Paris VI — Pierre-et-Marie-Curie

Apprentissage de Fonctions d’Ordonnancement avec peud’Exemples Étiquetés:

une Application au Routage d’Information, au Résumé de Textes et auFiltrage Collaboratif

soutenue publiquement le 8 octobre 2009devant le jury composé de

Massih–Reza A Agent de recherche au Conseil National de Recherches Canada directeur de thèse

Patrick G Professeur à l’Université Pierre et Marie Curie (Paris 6) directeur de thèse

Éric G Professeur à l’Université Joseph Fourier (Grenoble 1) examinateur

Yves G Chercheur au CNRS-Université de Technologie de Compiègne rapporteur

Patrice P Professeur à l’Université Pierre et Marie Curie (Paris 6) examinateur

François Y Professeur à l’Université Paris Sud (Paris 11) rapporteur

L’expérience est une lanterne que l’on porte sur son dos et qui n’éclaire que le cheminparcouru.Lao Tseu

Remerciements

Leave no one behind !

Je tiens à remercier tout particulièrement Massih–Réza A. Son encadrement m’aparticulièrement bien aidé dans mes travaux de recherche. Son enthousiasme, sa pa-tience et sa rigueur m’ont été bénéfiques.

Je tiens à remercier Patrick G pour m’avoir accordé sa confiance, son soutienet de m’avoir accepté dans son équipe.

Je tiens à remercier Yves G et François Y d’avoir accepté la charge derapporteur. Je remercie également Eric G et Patrice P d’avoir accepté d’êtreles examinateurs de cette thèse.

Je tiens à remercier Jean–François Kenichi P, compagnon de grimpe, et NicolasU pour leur collaboration sur le filtrage collaboratif et pour les discussions inté-ressantes.

Je tiens aussi à remercier les personnes avec qui j’ai pu échanger, discuter et polémi-quer. Ce travail est aussi le fruit de ces instants passés avec eux. Je remercie particuliè-rement la mafia moldave – Nicoletta et Nistor, Guénael (il faut en parler à un organi-sateur !), Julien (la quiche lorraine !), Anna et Séverine de m’avoir supporté durant cesannées surtout pendant la rédaction, Young–Min, Marc–Ismaël, Alexander, Tri et toutle reste de l’équipe. Je remercie bien sûr Nabila, Sonia et Wassila mais surtout Sonia G.

Je remercie aussi les personnes qui ont eu l’amabilité de me relire et de me corriger :Séverine, David, Francis et Stéphane.

Je remercie aussi l’ensemble du personnel administratif et technique du 6 et toutparticulièrement Ghislaine, Jacqueline et Christophe.

Le nième remerciement est naturellement adressé à Francis.

6

Résumé

La classification et la régression se sont retrouvées au cœur de la majorité des tra-vaux en apprentissage automatique. La formalisation d’applications récentes a conduità des nouvelles problématiques ne pouvant être traitées par ces cadres. C’est le cas del’ordonnancement : le problème de prédire un ordre sur les exemples. Les fonctions enordonnancement ne cherchent donc plus à prédire une sortie par rapport à une entrée,mais à comparer les entrées entre elles et à les retourner sous forme de liste ordonnée.Leur étude est récente, mais suscite depuis peu un fort engouement dans les commu-nautés de l’apprentissage et de la recherche d’information.

Cependant, l’apprentissage de ces fonctions nécessite une grande base de donnéesétiquetées, dont la formation est en général très coûteuse. Au cours de cette thèse, nousavons considéré l’ordonnancement biparti et nous avons cherché à réduire la taille de labase d’apprentissage. Nous avons abordé cette problématique sous deux angles de vuedifférents. En premier lieu, nous avons considéré le cadre semi–supervisé. L’objectifest d’exploiter l’information contenue dans les données non–étiquetées pour compen-ser le faible nombre d’exemples étiquetés. En deuxième lieu, nous avons considéré lecadre de l’apprentissage actif. Le but est de trouver les meilleures entrées à étiqueterpour réduire au maximum le nombre de données étiquetées.

Dans une première partie, nous présentons nos modèles en apprentissage semi–supervisé puis actif pour l’ordonnancement biparti. Nos modèles sont des extensionsdes modèles de et de boosting adaptés à l’ordonnancement. Nous sommes notam-ment intéressés à développer des modèles de faible complexité pour pouvoir traiter ungrand nombre de données non–étiquetées. Dans une deuxième partie, nous considéronsplusieurs applications de recherche en information touchées par notre problématique :le routage d’information, le résumé automatique de textes et le filtrage collaboratif.Cette partie permet de valider nos modèles et de montrer l’intérêt de l’ordonnancementpour le filtrage collaboratif.

8

Table des matières

1 Introduction 231.1 Problématiques abordées . . . . . . . . . . . . . . . . . . . . . . . . 24

1.1.1 Ordonnancement semi–supervisé . . . . . . . . . . . . . . . 251.1.2 Ordonnancement actif . . . . . . . . . . . . . . . . . . . . . 25

1.2 Plan de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

I Apprentissage de fonctions d’ordonnancement 29

2 Présentation de l’ordonnancement en apprentissage statistique 312.1 Ordonnancement d’instances . . . . . . . . . . . . . . . . . . . . . . 32

2.1.1 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.1.2 Classification de paires critiques . . . . . . . . . . . . . . . . 33

Modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 34Complexité d’apprentissage et d’inférence . . . . . . . 36

2.1.3 Ordonnancement induit par la sortie d’un classifieur . . . . . 362.1.4 Autres critères . . . . . . . . . . . . . . . . . . . . . . . . . 372.1.5 Ordonnancement biparti . . . . . . . . . . . . . . . . . . . . 38

Aire sous la courbe ROC et ordonnancement . . . . . . . . . 382.2 Ordonnancement d’alternatives . . . . . . . . . . . . . . . . . . . . . 39

2.2.1 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.2.2 Modèle linéaire pour l’ordonnancement d’alternatives . . . . 40

Représentation jointe . . . . . . . . . . . . . . . . . . . . . . 40Apprentissage et fonctions d’erreur . . . . . . . . . . . . . . 41Classification de paires critiques . . . . . . . . . . . . . . . . 41Complexité algorithmique . . . . . . . . . . . . . . . . . . . 42

2.3 Relation avec les cadres existants . . . . . . . . . . . . . . . . . . . . 422.3.1 Régression ordinale . . . . . . . . . . . . . . . . . . . . . . . 422.3.2 Apprentissage de relations de préférence . . . . . . . . . . . 43

2.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3 Algorithmes d’apprentissage pour l’ordonnancement biparti 453.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2 Machine à vecteurs de support pour optimiser l’AUC . . . . . . . . . 473.3 Résolution de la forme primale . . . . . . . . . . . . . . . . . . . . . 48

3.3.1 Méthode des sous–gradients . . . . . . . . . . . . . . . . . . 483.3.2 Méthode des plans sécants et bundle . . . . . . . . . . . . . . 49

Méthode pour les fonctions coût régularisées et P 50

10 Table des matières

3.3.3 Méthode en ligne . . . . . . . . . . . . . . . . . . . . . . . . 513.4 Algorithme de boosting pour l’ordonnancement B . . . . . . 52

3.4.1 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . 52Détermination du poids αt . . . . . . . . . . . . . . . . . . . 53Complexité . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.4.2 Cas biparti . . . . . . . . . . . . . . . . . . . . . . . . . . . 54Complexité . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.4.3 Algorithme d’ apprentissage peu performant pour l’ordonnan-cement biparti . . . . . . . . . . . . . . . . . . . . . . . . . . 55Fonctions de base . . . . . . . . . . . . . . . . . . . . . . . . 55Apprentissage de fonctions d’ordonnancement peu performantes 56

3.4.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.5 Autres Approches . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.5.1 Optimisation de l’AUC . . . . . . . . . . . . . . . . . . . . . 583.5.2 Fonction objectif non liée à l’AUC . . . . . . . . . . . . . . . 583.5.3 Algorithmes pour l’ordonnancement d’alternatives . . . . . . 58

3.6 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4 Apprentissage semi–supervisé et actif de fonctions d’ordonnancement :état de l’art 614.1 Méthodes d’ordonnancement transductives . . . . . . . . . . . . . . . 62

4.1.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . 624.1.2 Paradigme transductif et inductif . . . . . . . . . . . . . . . . 624.1.3 Intuition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.1.4 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

Algorithme M . . . . . . . . . . . . . . . . . . . 64S sur une structure de variété . . . . . . . . . . . . . . 65Changement de représentation . . . . . . . . . . . . . . . . . 67

4.1.5 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . 684.1.6 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.2 Méthodes d’apprentissage actif pour l’ordonnancement . . . . . . . . 684.2.1 Stratégie basée sur une mesure de fiabilité . . . . . . . . . . . 694.2.2 Stratégie basée sur l’estimation du gradient . . . . . . . . . . 704.2.3 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

II Apprentissage de fonctions d’ordonnancement avec des don-nées partiellement étiquetées 73

5 Ordonnancement semi–supervisé 755.1 Algorithme de boosting : B . . . . . . . . . . . . . . . . . . . 76

5.1.1 Exploitation du voisinage local des données étiquetées . . . . 765.1.2 Modèle proposé . . . . . . . . . . . . . . . . . . . . . . . . . 77

Détermination du poids αt . . . . . . . . . . . . . . . . . . . 78Apprentissage d’une fonction d’ordonnancement peu perfor-

mante . . . . . . . . . . . . . . . . . . . . . . . . 795.1.3 Complexité . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.1.4 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.2 Modèles auto–apprenants : R et . . . . . . . . . . . . 82

Table des matières 11

5.2.1 Principe de l’auto–apprentissage en–ligne . . . . . . . . . . . 825.2.2 Algorithme R pour l’ordonnancement semi–supervisé . 83

Mise en œuvre avec un solveur en–ligne . . . . . . . . . . . . 83Estimation du degré de pertinence et conditions d’utilisation . 84Complexité . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.2.3 Variante batch de R : la méthode . . . . . . . 86Principe général . . . . . . . . . . . . . . . . . . . . . . . . 86Utilisation d’une méthode d’optimisation de type bundle . . . 87

5.2.4 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 885.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

6 Ordonnancement Actif 916.1 Apprentissage actif de fonctions d’ordonnancement d’instances . . . . 92

6.1.1 Sélection avec une mesure d’incertitude . . . . . . . . . . . . 92Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.1.2 Estimation de l’erreur d’ordonnancement . . . . . . . . . . . 93Détermination des probabilités a posteriori . . . . . . . . . . 94Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6.1.3 Estimation du gradient . . . . . . . . . . . . . . . . . . . . . 95Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

6.2 Ordonnancement actif . . . . . . . . . . . . . . . . . . . . . . . . . . 966.2.1 Approche générale . . . . . . . . . . . . . . . . . . . . . . . 976.2.2 Mesure de désaccord entre deux fonctions score . . . . . . . . 976.2.3 Lien avec l’erreur d’ordonnancement . . . . . . . . . . . . . 986.2.4 Lien avec le comité de modèles issus de la validation croisée . 98

Fonction aléatoire basée sur la validation croisée . . . . . . . 98Borne transductive de l’erreur en généralisation . . . . . . . . 99Critère de sélection et algorithme . . . . . . . . . . . . . . . 100

Complexité . . . . . . . . . . . . . . . . . . . . . . . 1006.2.5 Démonstration de la borne transductive de l’erreur en généra-

lisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102Borne pour l’estimation de la divergence . . . . . . . . . . . 103Borne pour l’estimation par validation croisée . . . . . . . . . 103

6.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

III Applications 107

7 Application au Routage d’Information 1097.1 Routage d’information . . . . . . . . . . . . . . . . . . . . . . . . . 110

7.1.1 Présentation de l’application . . . . . . . . . . . . . . . . . . 1107.1.2 Lien avec l’ordonnancement . . . . . . . . . . . . . . . . . . 111

7.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . 1117.2.1 Description générale . . . . . . . . . . . . . . . . . . . . . . 1117.2.2 Mesures de performances utilisées . . . . . . . . . . . . . . . 1127.2.3 Bases utilisées . . . . . . . . . . . . . . . . . . . . . . . . . 112

base . . . . . . . . . . . . . . . . . . . . . . 112base . . . . . . . . . . . . . . . . . . . . . . 113base 1 . . . . . . . . . . . . . . . . . . . . . . . . 113bases - et -sim . . . . . . . . . . . . . . . . . . 113


bases et . . . . . . . . . . . . . . . . . . . . 1147.2.4 Choix de l’algorithme de propagation pour B . . . . . 114

7.3 Validation des approches : semi–supervisé versus supervisé . . . . . . 1147.3.1 Comparaison expérimentale entre B et B . . . 115

Apport global des données non–étiquetées sur les bases - et . . . . . . . . . . . . . . . . . . . . 115

Apport des données non–étiquetées pour l’ordonnancementd’instances sur les bases , -, -et 1 . . . . . . . . . . . . . . . . . . . . . . . . 116

7.3.2 Comparaison expérimentale entre S, et R117Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . 117

7.3.3 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1207.4 Discussion sur le réglage des méta–paramètres . . . . . . . . . . . . . 120

Valeurs par défaut . . . . . . . . . . . . . . . . . . . 120Minimisation de l’erreur moyenne de test . . . . . . . 121Validation croisée . . . . . . . . . . . . . . . . . . . . 121

7.4.1 Expériences sur les moyennes et grandes bases . . . . . . . . 1217.4.2 Stratégie lno pour le réglage des méta–paramètres . . . . . . . 122

Expériences sur les bases et . . . . . . . . . 123Comparaison avec la sélection aléatoire . . . . . . . . 124

7.4.3 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1247.5 Évolution des performances en fonction du nombre d’exemples étiquetés125

7.5.1 Méthode B . . . . . . . . . . . . . . . . . . . . . . . . 1257.5.2 Méthode R . . . . . . . . . . . . . . . . . . . . . . . 125

7.6 Temps d’apprentissage des méthodes semi–supervisées . . . . . . . . 1287.6.1 B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

Évolution du temps d’apprentissage avec le paramètre de pro-pagation . . . . . . . . . . . . . . . . . . . . . . . 128

7.6.2 Évolution du temps d’apprentissage de R en fonction dunombre d’exemples étiquetés . . . . . . . . . . . . . . . . . . 129

7.6.3 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1297.7 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

8 Application de l’ordonnancement actif au routage et au résumé automa-tique 1338.1 Ordonnancement actif pour le routage d’information . . . . . . . . . 134

8.1.1 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . 134Mise en œuvre . . . . . . . . . . . . . . . . . . . . . 135

8.1.2 Performances sur les bases image . . . . . . . . . . . . . . . 136Performances après quelques étiquetages . . . . . . . . . . . 136Évolution des mesures de performances . . . . . . . . . . . . 137Temps d’exécution . . . . . . . . . . . . . . . . . . . . . . . 140

8.1.3 Performance sur les bases texte . . . . . . . . . . . . . . . . 141Performances après quelques étiquetages . . . . . . . . . . . 141

8.1.4 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1438.2 Résumé automatique . . . . . . . . . . . . . . . . . . . . . . . . . . 144

8.2.1 Présentation de l’application . . . . . . . . . . . . . . . . . . 144Forme de résumés . . . . . . . . . . . . . . . . . . . . . . . 145

8.2.2 Résumé automatique et apprentissage . . . . . . . . . . . . . 1468.3 Expériences en ordonnancement actif . . . . . . . . . . . . . . . . . 147

Table des matières 13

8.3.1 Base utilisée . . . . . . . . . . . . . . . . . . . . . . . . . . 1478.3.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . 148

Mise en œuvre . . . . . . . . . . . . . . . . . . . . . 1488.3.3 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . 149

8.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

9 Représentation manquante et application au filtrage collaboratif 1539.1 Le filtrage collaboratif . . . . . . . . . . . . . . . . . . . . . . . . . 154

9.1.1 Présentation de l’application . . . . . . . . . . . . . . . . . . 1549.1.2 Différents cadres pour le filtrage collaboratif . . . . . . . . . 1559.1.3 Filtrage collaboratif et apprentissage . . . . . . . . . . . . . . 1569.1.4 Caractéristiques des algorithmes . . . . . . . . . . . . . . . . 157

Complexité de la prédiction. . . . . . . . . . . . . . . 157Autres caractéristiques . . . . . . . . . . . . . . . . . 157

9.1.5 Exemple d’algorithme : la pondérée . . . . . . . . . . . . 157La décomposition en valeurs singulières . . . . . . . . . . 158Application au filtrage collaboratif . . . . . . . . . . . . . . . 158Prise en compte des nouveaux utilisateurs . . . . . . . . . . . 159

9.2 Lien avec l’ordonnancement . . . . . . . . . . . . . . . . . . . . . . 1609.2.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

9.3 Factorisation matricielle pour l’ordonnancement collaboratif . . . . . 1619.3.1 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

Majorant convexe . . . . . . . . . . . . . . . . . . . . 161Régularisation . . . . . . . . . . . . . . . . . . . . . 162Lien avec l’apprentissage multi–tâches . . . . . . . . 162

9.3.2 Algorithme général . . . . . . . . . . . . . . . . . . . . . . . 1629.3.3 Ordonnancement collaboratif avec la borne exponentielle . . . 163

Approche générale . . . . . . . . . . . . . . . . . . . . . . . 163Complexité algorithmique . . . . . . . . . . . . . . . 163

Cas où les notes sont discrètes et bornées . . . . . . . . . . . 164Complexité algorithmique . . . . . . . . . . . . . . . 165

9.3.4 Complexité de la recommandation . . . . . . . . . . . . . . . 1669.3.5 Apprentissage en–ligne . . . . . . . . . . . . . . . . . . . . . 166

9.4 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . 1669.4.1 Description et prétraitements de la base initiale . . . . . . . . 1679.4.2 Bases pour l’apprentissage hors–ligne et en–ligne . . . . . . . 167

Apprentissage hors–ligne et généralisation faible . . . . . . . 167Apprentissage en ligne et généralisation forte . . . . . . . . . 168

9.4.3 Mesures d’erreurs . . . . . . . . . . . . . . . . . . . . . . . . 169Erreur pour la prédiction de notes . . . . . . . . . . . . . . . 169Erreur pour la prédiction d’ordre . . . . . . . . . . . . . . . . 170

9.4.4 Critique du protocole expérimental . . . . . . . . . . . . . . 1719.5 Performances en généralisation faible . . . . . . . . . . . . . . . . . 171

9.5.1 Méthodes et . . . . . . . . . . . . . . . . . . . . . 1719.5.2 Ordonnancement collaboratif avec . . . . . . . . . . . . 172

Évolution de l’erreur MRE en fonction des paramètres . . . . 172Comparaison des modèles avec base de validation . . . . . . . 173

9.6 Performances en généralisation forte . . . . . . . . . . . . . . . . . . 1759.6.1 Erreur NMAE et MRE pour 2 notes de test . . . . . . . . . . 176


9.6.2 Erreur NMAE et MRE en fonction du nombre de notes en ap-prentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

9.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

10 Conclusion 18110.1 Résumé de notre travail . . . . . . . . . . . . . . . . . . . . . . . . . 18110.2 Discussion et perspectives . . . . . . . . . . . . . . . . . . . . . . . 182

10.2.1 Ordonnancement semi–supervisé . . . . . . . . . . . . . . . 182Complexité et réglage de méta–paramètres ? . . . . . . . . . . 182

10.2.2 Ordonnancement actif . . . . . . . . . . . . . . . . . . . . . 18310.2.3 Ordonnancement collaboratif . . . . . . . . . . . . . . . . . . 184

Utilisation de fonctions perte alternatives ? . . . . . . . . . . 184Utilisation de fonctions coût différentes ? . . . . . . . . . . . 184

11 Bibliographie personnelle 185

A Lien entre l’AUC et l’erreur d’ordonnancement 187

B Calcul de l’erreur d’ordonnancement et du gradient 191B.0.4 Nombre de paires critiques mal ordonnées . . . . . . . . . . . 191B.0.5 Erreur d’ordonnancement avec la fonction perte hinge . . . . 191

C Annexe : Factorisation de matrices non négatives pour le filtrage collabo-ratif 195C.1 La factorisation en matrices non négatives . . . . . . . . . . . . . . . 195

C.1.1 Formalisme de la . . . . . . . . . . . . . . . . . . . . . . 197C.1.2 Algorithmes pour la . . . . . . . . . . . . . . . . . . . . 197

C.2 Extension au filtrage collaboratif . . . . . . . . . . . . . . . . . . . . 198C.2.1 Algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . 198C.2.2 Formalisme avec les données manquantes et procédure EM . . 199

Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . 200C.3 Résultats complémentaires : interprétation et visualisation . . . . . . . 201

Bibliographie 205

Table des figures

2.1 Ordonnancement avec une fonction score . . . . . . . . . . . . . . . 332.2 Ordonnancement vu comme de la classification de paires . . . . . . . 352.3 Exemples de fonctions convexes majorants la fonction indicatrice. . . 352.4 Exemple jouet illustrant la différence entre l’erreur de classification et

celle d’ordonnancement. . . . . . . . . . . . . . . . . . . . . . . . . 372.5 Exemple de courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . 392.6 Ordonnancement dans le cadre de la régression ordinale. . . . . . . . 422.7 Exemple de fonction de décision en régression ordinale. . . . . . . . . 43

3.1 Figure montrant l’évolution du nombre de paires critiques par rapportau taux de pertinents dans la base. . . . . . . . . . . . . . . . . . . . 46

3.2 Construction de la borne inférieure (en vert) de la fonction coût (enrouge) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.1 Illustration de l’approche sélective en apprentissage actif . . . . . . . 69

7.1 Illustration d’un système de routage d’information. . . . . . . . . . . 1117.2 Évolution de l’AUC en fonction du nombre d’exemples étiquetés des

méthodes B et B sur les bases (à droite) et (à gauche). . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

7.3 Évolution des mesures de performance AUC (à gauche) et de la préci-sion moyenne (à droite) des méthodes R et du pour l’ordon-nancement sur la base -. . . . . . . . . . . . . . . . . . . . . . 126

7.4 Évolution des mesures de performance AUC (à gauche) et de la préci-sion moyenne (à droite) des méthodes R et du pour l’ordon-nancement sur la base -. . . . . . . . . . . . . . . . . . . . . . 126

7.5 Évolution des mesures de performance AUC (à gauche) et de la préci-sion moyenne (à droite) des méthodes R et du pour l’ordon-nancement sur la base . . . . . . . . . . . . . . . . . . . . . . . . 127



7.8 Temps d’apprentissage de B en fonction du paramètre de propa-gation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

16 Table des figures

7.9 Temps d’apprentissage en fonction du nombre d’exemples étiquetéspour - (à gauche) et - (à droite). . . . . . . . . . . . . . 129

7.10 Temps d’apprentissage en fonction du nombre d’exemples étiquetéspour (à gauche) et (à droite). . . . . . . . . . . . . . . . . . 130

7.11 Temps d’apprentissage en fonction du nombre d’exemples étiquetéspour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

8.1 Apprentissage actif : évolution de l’AUC et de la précision moyennepour la base -1 en fonction du nombre d’itérations. . . . . . . . . 138

8.2 Évolution de l’AUC et de la précision moyenne pour la base -3. . 1388.3 Évolution de l’AUC et de la précision moyenne pour la base -4. . 1388.4 Évolution de l’AUC et de la précision moyenne pour la base -5. . 1398.5 Évolution de l’AUC et de la précision moyenne pour la base -1. . 1398.6 Évolution de l’AUC et de la précision moyenne pour la base -2. . 1398.7 Évolution de l’AUC et de la précision moyenne pour la base -3. . 1408.8 Évolution de l’AUC et de la précision moyenne pour la base -4. . 1408.9 Évolution de l’AUC et de la précision moyenne pour la base -5. . 1408.10 Le Gettysburg Address, retranscription du discours de A. Lincoln, le

19 novembre 1863. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1458.11 Exemple de résumé automatique du Gettysburg Address en utilisant

25% du texte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1458.12 Exemple de résumé automatique du Gettysburg Address en utilisant

15% du texte en enlevant des mots courants non informatifs. . . . . . 1458.13 Exemple de résumé critique du Gettysburg Address. . . . . . . . . . . 1468.14 Évolution de la précision moyenne en fonction du nombre d’entrées

étiquetées avec une base d’apprentissage initiale de taille 30. . . . . . 1498.15 Évolution de la précision moyenne en fonction du nombre d’entrées

étiquetées avec une base d’apprentissage initiale de taille 60. . . . . . 150

9.1 Exemple de matrice utilisateur–article pour le filtrage collaboratif. . . 1569.2 Évolution des erreurs NMAE et MRE par rapport au rang pour les

et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1719.3 Évolution de l’erreur MRE pour les méthodes , et . . . 1739.4 Évolution de l’erreur MRE pour la méthode en fonction du rang

et du paramètre de régularisation. . . . . . . . . . . . . . . . . . . . . 1759.5 Erreur NMAE en généralisation forte pour un nombre de notes infé-

rieur à 40 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1779.6 Erreur MRE en généralisation forte pour un nombre de notes inférieur

à 40 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1779.7 Erreur NMAE en généralisation forte, pour un nombre de notes entre

20 et 500 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1799.8 Erreur MRE en généralisation forte, pour un nombre de notes entre

20 ≤ mapp ≤ 500 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1799.9 Nombre d’utilisateurs utilisés pour calculer les erreurs NMAE et MRE,

pour un nombre de notes entre 20 et 500 . . . . . . . . . . . . . . . . 180

C.1 Application de la pour la reconnaissance de visage. L’algorithmeapprend une représentation en utilisant des parties de visages (nez, oeil,. . .). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

Table des figures 17

C.2 Visualisation pour des notes moyennes par genre pour les com-portements types 0 (à gauche) et 3 (à droite). . . . . . . . . . . . . . . 202

C.3 Visualisation pour des notes moyennes par période pour les com-portements types 1 et 7 . . . . . . . . . . . . . . . . . . . . . . . . . 202

18 Table des figures

Liste des tableaux

2.1 Exemples de fonction de perte adaptées à l’ordonnancement . . . . . 35

3.1 Récapitulatif de la complexité algorithmique des méthodes d’ordon-nancement supervisées . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.1 Tableau récapitulatif des mesures de certitude pour l’ordonnancementactif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.1 Caractéristiques des méthodes R et . . . . . . . . . . . 885.2 Résumé des caractéristiques de R et B . . . . . . . . . . 89

7.1 Détails de la base . . . . . . . . . . . . . . . . . . . . . . . . 1137.2 Propriétés des bases utilisées pour évaluer les méthodes d’ordonnance-

ment semi–supervisé . . . . . . . . . . . . . . . . . . . . . . . . . . 1147.3 Performance en (mAUC) et en (mPrec) sur les bases et 1157.4 Performances AUC sur la base pour B et B . 1167.5 Performance AUC sur les bases -, - et 1 . . . . . . . 1167.6 Précision moyenne sur les bases -, - et 1 . . . . . . . 1177.7 Valeurs des hyperparamètres utilisées en apprentissage pour les mé-

thodes S, R et . . . . . . . . . . . . . . . . . . 1187.8 Performance AUC de R et de sur la base . . . . . . 1187.9 Performance AUC de R et de sur la base . . . . . . 1187.10 Erreur de classification de paires critiques pour et . . . . . . . 1197.11 Précision moyenne de R et de sur la base . . . . . 1197.12 Précision moyenne de R et de sur la base . . . . . 1197.13 Performance AUC de R et de sur les bases -,

- et 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1207.14 Précision moyenne de R et de sur les bases -,

- et 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1207.15 Performance AUC des différents modèles semi–supervisés sur les

bases -, - et 1. . . . . . . . . . . . . . . . . . . . . 1227.16 Précision moyenne des différents modèles semi–supervisés sur les

bases -, - et 1. . . . . . . . . . . . . . . . . . . . . 1227.17 Performance AUC des différents modèles semi–supervisés sur la base

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1237.18 Performance AUC des différents modèles semi–supervisés sur la base

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

20 Liste des tableaux

7.19 Précision moyenne des différents modèles semi–supervisés sur la base. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

7.20 Précision moyenne des différents modèles semi–supervisés sur la base. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

7.21 Comparaison entre la sélection des paramètres lno et la sélection aléa-toire sur et . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

7.22 Temps consacré à l’apprentissage (en secondes) pour n = 100. . . . . 128

8.1 Structure de la base 20 . . . . . . . . . . . . . . . . . . . . 1348.2 Propriétés des bases utilisées en apprentissage actif . . . . . . . . . . 1358.3 Performance AUC sur la base après 10 étiquetages. . . . . . . . . 1368.4 Précision moyenne sur la base après 10 étiquetages. . . . . . . . 1368.5 Performance AUC sur la base après 5 étiquetages. . . . . . . . . 1378.6 Précision moyenne sur la base après 5 étiquetages. . . . . . . . . 1378.7 Temps d’exécution sur la base après 50 étiquetages. . . . . . . . 1418.8 Temps d’exécution sur la base après 50 étiquetages. . . . . . . . 1418.10 Résultats pour la précision moyenne pour les 5 premiers groupes de la

base 20 après 10 itérations. . . . . . . . . . . . . . . . . . 1418.9 Résultats pour la mesure AUC pour les 5 premiers groupes de la base

20 après 10 itérations. . . . . . . . . . . . . . . . . . . . 1428.11 Résultats pour la mesure AUC pour les 5 premiers groupes de la base

20 après 50 itérations. . . . . . . . . . . . . . . . . . . . 1428.12 Résultats pour la mesure AUC pour les 5 premiers groupes de la base

20 après 100 itérations. . . . . . . . . . . . . . . . . . . . 1428.13 Résultats pour la précision moyenne pour les 5 premiers groupes de la

base 20 après 50 itérations. . . . . . . . . . . . . . . . . . 1438.14 Résultats pour la précision moyenne pour les 5 premiers groupes de la

base 20 après 100 itérations. . . . . . . . . . . . . . . . . 1438.15 Caractéristiques de la base utilisée en ordonnancement actif d’al-

ternatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

9.1 Exemple de données pour de la recommandation de films. . . . . . . . 1559.2 Distribution des notes dans la base prétraitée. . . . . . . . . . . . . . 1679.3 Caractéristiques des bases utilisées dans nos expériences (généralisa-

tion faible). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1689.4 Caractéristiques de la base utilisée pour le filtrage collaboratif (géné-

ralisation forte) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1699.5 Tableau récapitulatif des erreurs NMAE et MRE par rapport au rang

pour les et . . . . . . . . . . . . . . . . . . . . . . . . . . 1729.6 Évolution de l’erreur MRE pour la méthode en fonction du rang

et du paramètre de régularisation. . . . . . . . . . . . . . . . . . . . . 1749.7 Erreur MRE en généralisation faible. . . . . . . . . . . . . . . . . . . 1749.8 Erreur NMAE et MRE en généralisation forte pour mtest = 2 notes de

test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

C.1 Les 5 films les mieux notés par comportement type (CT) . . . . . . . 203

Notations

d dimension de l’espace d’entréeX ⊂ IRd espace d’entréeY espace de sortiexT z produit scalaire entre les vecteurs x et z

SL base d’apprentissage étiquetéeS1 ensemble des instances pertinentes de la base d’apprentissageS−1 ensemble des instances non–pertinentes de la base d’apprentissageSU ensemble des instances non–étiquetéesT (S) ensemble des paires critiques de Sn+ nombre d’instances pertinentes dans la base étiquetéen− nombre d’instances non–pertinentes dans la base étiquetée

A ensemble des alternativesAx ensemble des alternatives associées à l’entrée xYx ensemble des étiquettes des alternatives associées à l’entrée x

A matrice‖A‖Fro norme de Frobenius de A

Abréviations

AUC aire sous la courbe ROCAvPrec précision moyenneFC filtrage collaboratifi.i.d. identiquement et indépendamment distribuéNMAE erreur moyenne absolue normalisée pour la prédiction en FCMRE erreur moyenne d’ordonnancement utilisée pour le FCprec@k précision au rang kRI recherche d’informationROC Receiver Operating Charateristic

22 Liste des tableaux

1Introduction

Sommaire1.1 Problématiques abordées . . . . . . . . . . . . . . . . . . . . . 24

1.1.1 Ordonnancement semi–supervisé . . . . . . . . . . . . . 251.1.2 Ordonnancement actif . . . . . . . . . . . . . . . . . . . 25

1.2 Plan de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

La formalisation des applications récentes issues entre autres de la Recherche d’In-formation (RI) a posé de nouvelles problématiques. Leurs résolutions dépassent les

cadres traditionnels de la classification et de la régression. C’est le cas, par exemple, duroutage d’information. Dans cette application, l’objectif est d’ordonner un flux de do-cuments entrants de façon que les documents pertinents — par rapport à une demanded’utilisateur — soient ordonnés au–dessus des documents non–pertinents.

Dans ce cas, il ne s’agit pas d’apprendre à prédire, pour chaque exemple, unevaleur en accord avec une sortie désirée1. La prédiction de la pertinence (ou de lanon–pertinence) d’un document importe peu, seul l’ordre partiel sur les documentscompte. Cette tâche est généralement appelée ordonnancement et elle suscite depuispeu un fort engouement dans les communautés d’apprentissage et de RI.

L’apprentissage d’une fonction d’ordonnancement peut être vu comme l’appren-tissage d’une fonction score : une fonction à valeurs réelles, qui prend en entrée unélément d’un ensemble à ordonner. L’ordre est ensuite prédit en triant les élémentsselon les scores croissants ou décroissants. Le score prédit pour une entrée donnéepeut être arbitraire (ayant même des valeurs négatives) : seuls les scores relatifsentre les éléments sont importants. Pour réaliser l’apprentissage de fonctions score,il est donc nécessaire de définir de nouveaux critères d’erreurs, des algorithmes pouroptimiser l’erreur et une théorie montrant que la fonction apprise sera performante surles données qu’elle observera dans le futur.

Un problème inhérent à l’apprentissage de fonctions d’ordonnancement est laconstruction d’une base étiquetée. Pour certaines applications telle que le routaged’information, elle représente un obstacle majeur à la conception réaliste de mo-dèles d’apprentissage. Pour un flux continu de données et une demande utilisateurparticulière, la constitution d’une base d’apprentissage peut même s’avérer impossible.

1C’est ce qui est généralement fait avec les cadres de la classification ou de la régression.

24 Introduction

Ce mémoire s’intéresse aux problèmes d’ordonnancement biparti comme le rou-tage d’information. Ce formalisme décrit une tâche plus particulière que le cas générald’ordonnancement, mais il permet de traiter un grand nombre d’applications réelles.De plus, ce formalisme peut facilement s’étendre pour étudier des tâches d’ordonnan-cement plus générales.

1.1 Problématiques abordéesDans cette thèse, nous allons aborder deux problématiques pour l’apprentissage des

fonctions d’ordonnancement avec des données partiellement étiquetées. D’une part,nous nous intéresserons à la conception de modèles d’ordonnancement semi–supervisé.Le but est de compenser le faible nombre d’exemples étiquetés par l’information conte-nue dans une grande base de données non–étiquetées. D’autre part, nous nous intéres-serons à l’apprentissage actif de ces fonctions. Cette fois, le but est de réduire le coûtde la formation de la base étiquetée en introduisant l’apprenant dans le processus d’éti-quetage.

Les problématiques applicatives traitées concernent (1) le routage d’information,(2) le résumé automatique et (3) le filtrage collaboratif.

1. Le routage d’information. Pour cette application, notre but est de proposer desmodèles capables d’apprendre avec très peu de données étiquetées et un grandnombre de données non–étiquetées. Cette approche permet à l’utilisateur d’éva-luer uniquement une petite quantité de données. Nous voulons aussi développerdes modèles pouvant s’adapter aux flux entrants de données non–étiquetées.

2. Le résumé automatique de textes. Le résumé automatique de textes a pour butd’extraire des segments du texte (par exemple des phrases) qui décrivent le mieuxson contenu. Ces systèmes décomposent généralement le texte en segments, puisordonnent ces segments selon leur score de pertinence. Le résumé produit estconstitué des segments obtenant les meilleurs scores.En général, le score de pertinence des segments est une combinaison d’un en-semble de critères particuliers : à quel endroit dans le document apparaît lesegment considéré (début de paragraphe, fin de paragraphe, ...) ? le segmentcontient-il des mots qui apparaissent fréquemment dans le document ?. . . Chaquecritère fournit un score réel, la fonction finale est une combinaison de ces scores.Dans l’état de l’art, ces combinaisons sont obtenues soit manuellement, soit parapprentissage dans le cadre de la classification. Dans ce cas, les segments d’undocument sont étiquetés selon leur appartenance ou non au résumé. Une fonc-tion score est alors apprise avec un critère de discrimination : étant donné unsegment, elle doit renvoyer un score positif si le segment est pertinent, un scorenégatif sinon.Nous proposons d’apprendre des fonctions d’ordonnancement pour cette tâcheet nous préconisons l’apprentissage actif. Dans ce cas, nous voulons développerune méthode capable de sélectionner les documents dont l’étiquetage des seg-ments2 et l’inclusion dans la base d’apprentissage permettent d’apprendre unefonction score plus performante.

3. Le filtrage collaboratif. La dernière application concerne le filtrage collaboratif.Dans ce cas, nous considérons un ensemble d’utilisateurs et un ensemble d’ar-

2L’étiquetage des segments revient à faire un résumé du document

1.1 Problématiques abordées 25

ticles. Chaque utilisateur a exprimé ses préférences pour un faible nombre d’ar-ticles, en général sous la forme de notes entières. Le but est de déterminer pourchaque utilisateur une liste d’articles correspondant à ses goûts. Elle correspondaux articles que le système recommande à l’utilisateur. La recommandation pourun utilisateur se base sur les notes fournies par les utilisateurs ayant des goûts si-milaires. Pour générer les recommandations, l’approche la plus étudiée se fondesur la prédiction des notes.Dans ce mémoire, nous considérons que chaque utilisateur définit un problèmed’ordonnancement où il s’agit d’apprendre à ordonner les articles selon sesgoûts. Contrairement aux applications précédentes, le filtrage collaboratif nedispose que des notes. L’aspect collaboratif permet de palier aux quantités res-treintes de notes fournies par les utilisateurs et à la représentation manquante desarticles. Notre but est de proposer, dans ce cadre, un modèle d’ordonnancementde faible complexité. Pour l’évaluer, nous allons proposer un protocole d’évalua-tion adapté à l’ordonnancement.

Dans les sections suivantes nous allons introduire plus spécifiquement les deuxcadres d’apprentissage de fonctions d’ordonnancement semi–supervisé et actif.

1.1.1 Ordonnancement semi–superviséDans le cadre semi–supervisé, l’apprenant dispose d’une quantité restreinte d’en-

trées étiquetées et d’un grand nombre d’entrées non–étiquetées. Le but est d’améliorerle modèle d’ordonnancement appris uniquement sur les entrées étiquetées. En appren-tissage semi–supervisé, les méthodes cherchent à exploiter les données non–étiquetéesdans l’apprentissage. Même sans étiquette, ces données comportent de l’information.Elles nous renseignent, par exemple, sur le domaine auxquels appartiennent ces don-nées.

À ses débuts, l’apprentissage semi–supervisé était essentiellement développé dansle cadre de la classification. Mais depuis peu, des travaux dans ce domaine ont été me-nés dans le cadre de l’ordonnancement. Ils suivent le même objectif : ordonner les don-nées non–étiquetées de la base d’apprentissage et uniquement ces données. Ce cadre neconvient pas au routage d’information, où des données non vues arrivent constamment.De plus, ces modèles souffrent aussi d’une trop grande complexité pour pouvoir traiterefficacement une grande quantité de données non–étiquetées.

Dans ce mémoire, nous proposons deux nouvelles méthodes apportant des solu-tions à ces deux problèmes. La première est un modèle de boosting, qui exploite levoisinage local de la base d’apprentissage. La deuxième est un modèle original quiexploite les données non–étiquetées à la volée. Pour ce faire, nous avons défini unenouvelle approche semi–supervisée basée sur l’auto–apprentissage en–ligne.

1.1.2 Ordonnancement actifNous avons exploré une deuxième approche pour exploiter les données non–

étiquetées : l’apprentissage actif. Le principe est de sélectionner des données et dedemander à l’utilisateur de les étiqueter. Dans notre cas, l’étiquetage consiste à donner

26 Introduction

un jugement de préférence. Intuitivement, l’approche permet de réduire le nombre dedonnées à étiqueter en sélectionnant uniquement celles qui sont les plus informatives.

Nous avons considéré dans un premier temps le routage d’information. En nous ins-pirant des travaux effectués en classification, nous avons proposé trois approches pourl’ordonnancement actif. La première consiste à sélectionner l’entrée dont la positiondans la liste ordonnée est la moins sûre. La deuxième se concentre sur les entrées quiparticipent le plus à une erreur d’ordonnancement. Et enfin, la dernière cherche l’entréequi modifierait le plus le modèle courant. Nous montrons la validité de nos méthodessur des bases réelles en comparant avec une sélection aléatoire ainsi qu’une sélectionproposée dans la littérature.

Nous avons ensuite considéré le résumé automatique. Cette application a pour butd’extraire des segments du texte comme des phrases qui représentent le mieux soncontenu. Un système de résumé automatique décompose dans un premier temps letexte en segments puis ordonne les segments en fonction de leur appartenance. L’ap-prentissage consiste à apprendre à ordonner les segments en fonction d’un document.Dans ce cadre, nous avons établi une borne de l’erreur en généralisation en utilisant lesdonnées non étiquetées. Sa définition nous a conduit à un nouveau critère de sélectionpour l’ordonnancement actif.

1.2 Plan de la thèseCette thèse est organisée en trois parties principales. La première partie présente

l’apprentissage de fonctions d’ordonnancement. C’est essentiellement une partie desynthèse. La seconde partie présente nos contributions en ordonnancement semi–supervisé et en ordonnancement actif. Nous détaillerons les méthodes que nous avonsproposées. La troisième partie décrit les applications de Recherche d’Information, lesexpériences et les résultats obtenus. Les publications personnelles sont résumées auchapitre 11.

– La première partie Présentation de l’ordonnancement est composée de trois cha-pitres. Dans le chapitre 2, nous présentons de façon générale les deux tâchesd’ordonnancement qui sont : l’ordonnancement d’instances et l’ordonnancementd’alternatives. Nous présentons l’approche communément appelée classificationde paires critiques. Dans le chapitre 3, nous exposons un état de l’art des mé-thodes d’ordonnancement supervisé. Ce survol concerne uniquement l’approchede la classification de paires critiques dans le cas biparti (c’est–à–dire lorsqueles jugements de préférence sont binaires). Nous montrons notamment que lesméthodes proposées apportent avant tout une solution au problème de la com-plexité inhérent à cette approche. Enfin dans le chapitre 4, nous introduisonsles études existantes en apprentissage semi–supervisé et en apprentissage ac-tif. Nous présentons les principes généraux et les concepts importants des deuxtâches uniquement avec l’ordonnancement. Nous décrirons aussi les algorithmesphares de ce domaine.

– La seconde partie Apprentissage de fonctions d’ordonnancement avec des don-nées non–étiquetées, est composée de deux chapitres. Dans le chapitre 5, nousdécrivons les deux méthodes que nous avons mises en œuvre pour l’ordonnan-cement semi–supervisé : un modèle à base de boosting et un modèle d’auto–apprentissage capable de traiter les données non–étiquetées à la volée. Dans

1.2 Plan de la thèse 27

le chapitre 6, nous présentons ensuite notre contribution en apprentissage ac-tif. D’une part, nous décrivons les méthodes proposées pour l’ordonnancementd’instances. D’autre part, nous proposons une étude théorique dans le cadre del’ordonnancement d’alternatives et la méthode d’ordonnancement actif qui endécoule.

– La troisième partie, Applications à la recherche d’information, présente les ap-plications que nous avons considérées et nos résultats expérimentaux. Le cha-pitre 7, présente l’application de nos modèles semi–supervisées pour le routaged’information. Nous utilisons pour cela des bases de taille moyenne et des basespouvant contenir jusqu’à 800 000 exemples. Nous testons de ce fait la capa-cité à passer à l’échelle. Dans le chapitre 8, nous appliquons ensuite nos mo-dèles actifs pour le routage d’information et pour le résumé automatique. Nousdétaillons l’application du résumé automatique ainsi que l’ensemble des expé-riences conduites. Le chapitre 9 est consacré à l’application du filtrage collabo-ratif et à l’extension de l’ordonnancement. Nous décrirons le cadre pour l’ordon-nancement collaboratif et le modèle proposé.

– En annexe A, nous explicitons le lien entre l’AUC et l’erreur de classificationdes paires critiques dans le cas biparti.

– En annexe B, nous donnons les algorithmes pour calculer efficacement l’erreurde classification des paires critiques dans le cas d’une fonction perte.

– L’annexe C est consacrée au filtrage collaboratif. Nous donnons les détails d’uneméthode de factorisation matricielle que nous avons proposée pour la prédictionde notes. Elle est basée sur l’algorithme de factorisation en matrices non néga-tives.

28 Introduction

Première partie

Apprentissage de fonctionsd’ordonnancement

2Présentation de l’ordonnancement en

apprentissage statistique

Sommaire2.1 Ordonnancement d’instances . . . . . . . . . . . . . . . . . . . 32

2.1.1 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . 322.1.2 Classification de paires critiques . . . . . . . . . . . . . . 332.1.3 Ordonnancement induit par la sortie d’un classifieur . . . 362.1.4 Autres critères . . . . . . . . . . . . . . . . . . . . . . . 372.1.5 Ordonnancement biparti . . . . . . . . . . . . . . . . . . 38

2.2 Ordonnancement d’alternatives . . . . . . . . . . . . . . . . . 392.2.1 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . 392.2.2 Modèle linéaire pour l’ordonnancement d’alternatives . . 40

2.3 Relation avec les cadres existants . . . . . . . . . . . . . . . . . 422.3.1 Régression ordinale . . . . . . . . . . . . . . . . . . . . . 422.3.2 Apprentissage de relations de préférence . . . . . . . . . 43

2.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

La plupart des travaux en apprentissage se sont focalisés sur des problèmes issus descadres de la classification et de la régression. Le but est d’apprendre une fonction

de prédiction, qui va induire, pour chaque entrée, une valeur en accord avec une sortiedésirée. Depuis la fin des années 2000, un troisième cadre suscite un intérêt croissantdans la communauté : l’apprentissage de fonctions d’ordonnancement. Ces fonctionsconsidèrent plusieurs entrées, les comparent, et les renvoient sous la forme d’une listeordonnée. L’ordre prédit doit être en accord avec une notion de préférence, spécifiqueau problème traité. Dans la littérature, on distingue deux problèmes d’ordonnancement.

– L’ordonnancement d’alternatives concerne les problèmes où il faut ordonnerles éléments d’une collection donnée (appelés alternatives) en fonction d’unexemple d’entrée. Un problème typique est celui du résumé automatique detextes. Dans ce cas, un exemple d’entrée représente un document et les alter-natives les phrases des documents. Formellement, les exemples d’entrée sontsupposés être indépendamment et identiquement distribués (i.i.d.) et le but est deretourner pour chaque exemple une liste ordonnée d’alternatives, de sorte que lesalternatives pertinentes par rapport à l’exemple soient mieux ordonnées que lesalternatives non–pertinentes.

32 Présentation de l’ordonnancement en apprentissage statistique

– L’ordonnancement d’instances concerne l’ordonnancement d’un ensembled’exemples d’entrée. Ces exemples sont aussi supposés être i.i.d., mais il s’agitmaintenant de les ordonner entre eux. Ce cadre formalise par exemple l’appli-cation du routage de documents, où un utilisateur cherche une information defaçon stable, et le système dispose d’un certain nombre de documents pertinentset non–pertinents par rapport à sa demande. Le but est de trier les nouveaux do-cuments entrants et de les insérer dans la liste des documents existants, de sorteque les documents pertinents se retrouvent ordonnés au–dessus des documentsnon–pertinents.

La différence majeure entre ces deux cadres d’ordonnancement porte ainsi surles entités à ordonner. Dans le cas d’ordonnancement d’instances, il s’agit desexemples d’entrées et dans le cas d’ordonnancement d’alternatives, sont concernéesles alternatives associées à chaque exemple d’entrée.

Dans ce chapitre, nous allons présenter ces deux formalismes. Nous allons intro-duire les notions importantes sur lesquelles les principaux travaux développés en or-donnancement se sont construits. Nous éviterons néanmoins une description détailléedes méthodes : seul le cadre et les principes de résolution seront abordés. Un survol desméthodes d’ordonnancement sera présenté au chapitre 3.

2.1 Ordonnancement d’instancesNous traitons en premier l’ordonnancement d’instances. Nous introduisons le for-

malisme adopté par une majorité de travaux et nous montrons que ce problème peutêtre reformulé dans le cadre plus classique de la classification binaire. Cette formu-lation s’inscrit ainsi dans un raisonnement dit de réduction, qui permet de traiter unetache compliquée (l’ordonnancement) par des tâches plus simples et mieux maîtrisées(la classification).

2.1.1 FormalismePar analogie avec le cadre de classification, nous supposons que les observations

à ordonner entre elles et leur scores souhaités sont générées selon une distributioninconnueD. Nous noterons X l’espace des observations et Y ⊂ R l’espace des scores.

Ainsi pour un ensemble S = {xi,yi}ni=1 d’instances étiquetées échantillonnées i.i.d.

suivantD, nous considérons un ordre � sur les étiquettesY, qui permet d’exprimer unerelation de préférence entre instances. Soient (xi,yi) et (x j,y j) deux instances étiquetées,yi � y j signifie que xi doit être ordonnée au–dessus de x j.

Fonction score

L’apprentissage consiste à trouver une fonction h : X → R qui permet d’ordonnercorrectement les instances. La sortie de la fonction permet d’induire un ordre sur unensemble d’exemples. La figure 2.1 illustre son utilisation.

Fonction d’erreur

L’apprentissage de la fonction score h passe par la définition d’une erreur d’or-donnancement. Pour un ensemble donné d’instances, cette erreur permet de comparer

2.1 Ordonnancement d’instances 33

F. 2.1 – Ordonnancement avec une fonction score

l’ordre induit par la fonction score et celui souhaité1. Elle mesure ainsi à quel degré lepremier ordre diffère du deuxième. Comme nous l’avons souligné plus haut, en ordon-nancement, la sortie de la fonction score permet uniquement de comparer les instancesentre elles et n’a ainsi qu’une valeur relative. Les fonctions d’erreur d’ordonnance-ment considèrent ainsi un ensemble de scores et non plus des scores individuellement.La définition de fonction d’erreur que nous considérons dans cette thèse est la suivante :

Pour un ensemble de n d’entrées noté S, la fonction est de la forme suivante :

Lo : Rn × Rn → R+

Autrement dit, la fonction d’erreur va mesurer l’accord entre l’ordre induit par lesscores renvoyés par la fonction apprise et les jugements de pertinence.

Précisons un peu plus les fonctions d’erreur utilisées en ordonnancement. Nouscommençons par un formalisme particulier de l’ordonnancement d’instances : la clas-sification de paires critiques.

2.1.2 Classification de paires critiquesIdéalement, la fonction score recherchée permet d’ordonner correctement les ins-

tances de X :

∀(xi,yi),(x j,y j) ∈ (X ×Y)2, yi � y j ⇒ h(xi) > h(x j)

Dans ce cas, l’erreur peut se définir sur les paires d’entrées (xi,x j) telles que yi � y j,appelées paires critiques. Cette erreur notée Lcp estime la proportion de paires critiquessur lesquelles l’ordre prédit par h n’est pas l’ordre souhaité [Cohen et al., 1997].

Lcp(f (X),Y

)=

1∑i, j [[yi � y j]]

∑yi�y j

[[h(xi) ≤ h(x j)]]

Où f (X) = (h(x1),...,h(xn)) et Y = (y1,...,yn).Notons que cette erreur a une relation intéressante avec la classification binaire.

En considérant une paire critique (xi,x j), nous pouvons définir une relation binaireavec signe(h(xi) − h(x j)). Cette relation peut être interprétée comme un classifieur de

1c–à–d l’ordre induit par la valeur des étiquettes.


paires d’entrée et l’erreur Lcp peut être vue comme l’erreur de classification des pairescritiques2 commise par la relation binaire.

Dans ce cas, il est facile de définir une erreur de généralisation définie sur une pairecritique aléatoire :

L( f ) = E(xi,yi)∼D,(x j,y j)∼D

{[[h(xi) > h(x j)]]

∣∣∣yi � y j

}Lcp en est un estimateur non–biaisé, c’est–à–dire. L( f ) = E(X,Y)∼Dn

{Lcp

(f (X),Y

)}avec (X,Y) = (x1,y1), . . . (xn,yn).

Notons enfin que dans ce cadre, l’ensemble d’apprentissage, l’ensemble de test etles exemples ont la même forme qu’en classification ou en régression (selon la naturede l’espace Y). La différence vient de la définition de l’erreur de généralisation, quiprend en compte les scores relatifs entre deux observations, et non plus l’accord entrela valeur prédite et la valeur souhaitée.

Modèle linéaire

Nous considérons maintenant la classe des fonctions linéaires. Nous avons utiliséuniquement cette classe dans ce mémoire. La fonction score se met sous la forme h(x) =

w.x avec w un vecteur de dimension d. La propriété du produit scalaire permet d’écrireautrement l’erreur sur une paire critique :

[[h(xi) ≤ h(x j)]] = [[wT xi ≤ wT x j]]= [[wT (xi − x j) ≤ 0]]= [[h(xi − x j) ≤ 0]]

Sous cette forme, la ressemblance avec l’erreur de classification est triviale. Elle per-met d’illustrer la relation binaire que nous venons d’évoquer plus haut. Dans ce cas, lapaire est ainsi représentée par la différence des représentations : xi − x j et l’ordonnan-cement interprété comme de la classification de paires critiques peut se résoudre endeux étapes :

1. Former l’ensemble des paires critiques T (S) = {(xi − x j,1)|xi,x j ∈ S, yi � y j}

2. Apprendre une fonction de classification sur l’ensemble obtenu T (S)

Notons que la classification de paires critiques se place dans un formalisme différentde la classification classique. D’une part, les paires d’instances ne sont pas indépen-dantes. Une instance peut en effet intervenir dans plusieurs paires critiques. D’autrepart, la nouvelle base d’apprentissage est constituée uniquement d’exemples positifs.Les exemples négatifs sont obtenus par symétrie par rapport à l’origine. Autrement dit,ce sont les opposés des éléments de T (S) soit −(xi − x j), qui représente l’inverse d’unepaire critique. Le méta–algorithme proposé initialement dans [Har-Peled et al., 2002]est illustré par la figure 2.2, où les ronds verts doivent être ordonnés au–dessus destriangles rouges.

Cette approche a l’avantage d’adapter n’importe quel algorithme de classificationen méthode d’ordonnancement. L’utilisation d’un majorant convexe de la fonction in-dicatrice [[x]] permet de définir des erreurs d’ordonnancement optimisables. Les plusconnues sont résumées dans le tableau 2.1 avec (xi,x j), une paire critique et par la figure2.3.

2en étiquetant les paires critiques avec 1.


F. 2.2 – Ordonnancement vu comme de la classification de paires

nom fonctionsexponentiel exp

(β(x j − xi)

)régression logistique log

(1 + exp(β(x j − xi)

)hinge [[1 − w.(x j − xi)]]+

T. 2.1 – Exemples de fonction de perte adaptées à l’ordonnancement

0

1

2

3

-2 -1 0 1 2

0-1hinge

log binomialexponentiel

F. 2.3 – Exemples de fonctions convexes majorants la fonction indicatrice.

Néanmoins, elle viole l’hypothèse i.i.d. des exemples d’apprentissage de T (S).La justification théorique de cette méthode s’est naturellement posée. Des bornessur l’erreur en apprentissage ont ainsi été proposées en premier dans un cadreplus restreint : l’ordonnancement biparti où les étiquettes ne prennent que deux va-leurs [Agarwal et al., 2005; Agarwal and Niyogi, 2005; Agarwal and Roth, 2005;Usunier et al., 2005a]. Récemment, des travaux ont concerné un cadre plus général[Usunier et al., 2005c; Usunier, 2007]. Notons enfin les travaux de [Balcan et al., 2008;Ailon and Mohri, 2008] réalisés dans un cadre proche mais facilement adaptable pour


l’apprentissage de fonctions score. Ainsi, ces travaux permettent de valider l’approchedes paires critiques.

Complexité d’apprentissage et d’inférence La forme naïve de la classification depaires critiques consiste à former les paires critiques et à appliquer une méthode declassification. D’un point de vue algorithmique, la formation de paires est coûteuse.Dans le cas biparti, elle nécessite O(n+n−d) opérations. Cette étape induit un grandnombre de paires critiques soit (n+n−). Dans le cas général, il peut en avoir O(n2). Cecireprésente un inconvénient algorithmique majeur pour l’apprentissage du classifieurbinaire. Nous verrons dans le chapitre 3 les solutions préconisées pour pallier à ce pro-blème. En particulier, l’ensemble de ces méthodes évitent de former explicitement lespaires critiques.

Une fois la fonction d’ordonnancement apprise, elle peut être utilisée pour ordon-ner n’importe quel ensemble. Elle se décompose ainsi en deux étapes : calculer lesscores de chaque instance et ordonner les ensembles en fonction du score. En notantn le nombre d’instances, la première étape nécessite O(n.d) calcule et la deuxième estréalisée avec un algorithme de tri efficace comme [Hoare, 1962], qui a unecomplexité moyenne de O(n. log(n)). La complexité totale est ainsi de :

complexité d’inférence = O(d.n + n log(n))

2.1.3 Ordonnancement induit par la sortie d’un classifieurLes fonctions apprises en classification sont des fonctions réelles h : X → R dont

le signe permet de classer les exemples. Ces fonctions peuvent ainsi s’apparenter àune fonction score et servir à ordonner les instances. Or, la minimisation de l’erreur declassification n’est pas généralement équivalente à la minimisation de l’erreur d’ordon-nancement.

La figure 2.4 montre un exemple jouet permettant d’illustrer la différence entre lesdeux types d’erreur : h1 et h2 sont deux fonctions scores renvoyant des scores différentspour 7 instances (3 pertinentes et 4 non–pertinentes). En terme de classification, ellesse trompent sur la classe d’une seule instance, ce qui implique la même erreur de clas-sification pour les deux fonctions. Or, contrairement à h2, h1 donne un score plus élevéà une instance non–pertinente qu’aux instances pertinentes. Ainsi les deux fonctionsinduisent des erreurs de classification identiques mais des erreurs d’ordonnancementdifférentes.

L’exemple illustre ainsi la corrélation faible entre l’erreur de classification et l’er-reur d’ordonnancement. À travers une analyse théorique, les travaux de [Cortes andMohri, 2003] mettent en exergue ces différences lorsque les jugements de préférencesont binaires. Les auteurs considèrent un ensemble donné d’instances ainsi que tous lesordres possibles sur cet ensemble avec une erreur de classification fixée. Ils montrentalors que la moyenne de l’erreur d’ordonnancement est une fonction croissante parrapport à l’erreur de classification. Ceci illustre le lien global entre ces deux erreurs.Cependant, ils montrent aussi que la variance peut être importante pour des bases dés-équilibrées. Ainsi une même erreur d’ordonnancement peut mener à des erreurs de


F. 2.4 – Exemple jouet illustrant la différence entre l’erreur de classification et celled’ordonnancement.

classification très différentes.

On peut aussi noter les travaux de [Caruana and Niculescu-Mizil, 2004; Caruanaet al., 2008] qui montrent empiriquement la décorrélation entre les erreurs basées sur dela prédiction (classification, régression) et celles qui mesurent l’accord entre un ordreprédit et un ordre souhaité. Les résultats se basent sur une analyse des performances demilliers de modèles appris sur plusieurs bases.

Notons cependant, que ces conclusions se basent sur une comparaison des fonc-tions d’erreurs et non sur la performance des modèles. Ainsi, dans certains cas parti-culiers, les méthodes B et son analogue en ordonnancement, B, ren-voient des solutions identiques [Rudin et al., 2005]. De plus, les résultats dans [Caruanaand Niculescu-Mizil, 2004] montrent que les algorithmes de type obtiennent desbonnes performances en terme d’ordonnancement. L’analyse présentée dans [Caruanaet al., 2008] montre néanmoins que l’adaptation des linéaires pour l’ordonnance-ment obtient des résultats significativement supérieurs aux linéaires pour des basesde moyenne dimension.

2.1.4 Autres critèresEn recherche et en filtrage d’information, il existe une panoplie de mesures de

performances pour l’évaluation des systèmes. Il y a, par exemple, des mesures qui sefocalisent sur les instances placées en tête de liste. Ces mesures sont généralementutilisées dans des moteurs de recherche. Pour des applications Internet, les utilisateursont aussi tendance à regarder les premiers liens retournés.

Le choix de la mesure dépend naturellement de l’application, mais minimiser lenombre de paires critiques mal ordonnées est loin d’être optimal pour l’ensemble deces mesures. Les mesures les plus utilisées en Recherche d’Information sont ;

Précision au rang k Cette mesure est utilisée lorsque les jugements de préférencesont binaires : Y ⊂ {−1,1}. Elle retourne la proportion d’instances positives parmi lesk instances les mieux ordonnées :

prec@k =1k

n∑i=1

[[y[i] = 1]]

(x[i],y[i]) est l’instance ordonnée au rang i par la fonction score évaluée.


Précision moyenne La précision moyenne (average precision) est aussi utiliséelorsque les jugements de préférence sont binaires. Elle est définie par :

AvPrec =

n∑i=1

[email protected](k)

avec rel(k) valant 1 si l’instance au rang k est positif soit y[k] > 0. Autrement dit, c’estla moyenne des précisions calculées au rang de chaque instance pertinente.

DGC et sa version normalisée NDGC (Discount Cumulative Gain) Contrairementà la précision au rang k, cette mesure est utilisable dans le cas général et prend encompte le rang des instances. Nous supposons que Y = {1, . . . ,N}. La DCG utilisedeux fonctions :

– un gain croissant en fonction de la valeur de l’étiquette D(y), elle permet detraiter différemment les degrés de pertinence des instances,

– et un facteur décroissant en fonction du rang r de l’instance φ(r) pour tenircompte des différentes étiquettes.

La mesure est alors définie comme :

DGC@k =∑i=1

D(y[i]) φ(x[i])

Généralement, φ(r) = 1log2(1+r) et D est la fonction D(r) = 2r − 1 La NDGC est une

version normalisée de la DGC.

L’optimisation de ces mesures est difficile mais elle a fait récemment l’objet deplusieurs travaux. L’un des premiers est certainement ceux de [Metzler et al., 2005],mais les résultats ne semblent pas probants. Il faudra attendre les travaux de [Joachims,2005] et [Teo et al., 2007] pour trouver de nouvelles approches en apprentissage pourl’optimisation directe de ces mesures. Les principes de cette optimisation seront dé-taillés dans le chapitre suivant.

2.1.5 Ordonnancement bipartiL’ordonnancement biparti est le cas particulier d’ordonnancement lorsque les ju-

gements de préférence sont binaires c’est–à–dire Y = {−1,1}. Réduit ainsi, la based’apprentissage est similaire à celle utilisé en classification. Rappelons que les deuxtâches diffèrent fondamentalement dans leur objectif. Dans notre cas, elle se résumeà ordonner les instances positives au–dessus des instances négatives, ce qui revient àinduire un ordre partiel sur les exemples.

L’ordonnancement biparti représente ainsi la forme la plus simple de l’ordonnan-cement d’instances. Mais, elle permet de traiter des applications existantes comme leroutage d’information [Iyer et al., 2000]. Sa similitude avec la classification aidant, ellea fait l’objet de quelques études théoriques [Agarwal et al., 2005; Agarwal and Niyogi,2005; Agarwal and Roth, 2005; Usunier et al., 2005c; Usunier et al., 2005a]. De plus,son cadre peut être étendu facilement à l’ordonnancement d’instances en utilisant lecadre de l’apprentissage multi–tâches. En effet, pour chaque valeur de l’étiquette, nouspouvons définir une tâche d’ordonnancement biparti. L’ordonnancement d’instancesrevient à les résoudre en même temps.


Aire sous la courbe ROC et ordonnancement

La courbe ROC (Receiver Operating Characteristic) [Fawcett, 2003] a été intro-duite pour la première fois dans l’analyse des signaux radars. Elle est maintenant cou-ramment utilisée en médecine pour les tests diagnostiques ou en apprentissage statis-tique pour la sélection de modèle.

Cette courbe permet de visualiser l’évolution du taux des faux pertinents (FP) parrapport aux taux des vrais pertinents (TP). Pour une fonction score h(x), la pertinenced’une instance peut être estimée en comparant son score à un seuil b. Le classifieurobtenu a ainsi la forme f (x) = signe (h(x) + b). Pour un échantillon donné,

T P =pertinents bien classés

total pertinents

FP =non–pertinents mal classés

total non–pertinents

La courbe est obtenue en faisant varier le seuil b. La figure 2.1.5 illustre deux courbesROC : la courbe verte dans le cas d’une décision aléatoire et en rouge un exemple decourbe obtenue par une fonction score déterministe.

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

sens

ibili

té (

taux

de

vrai

pos

itifs

)

1−spécificité (taux de faux positifs)

F. 2.5 – Exemple de courbe ROC

Une méthode courante pour résumer cette information est de calculer l’aire sous lacourbe ROC, appelée AUC. Nous pouvons remarquer que sa valeur est comprise entre0 et 1 et que pour une fonction score aléatoire (courbe verte) elle vaut 0.5. Une fonctionscore réaliste devrait donc avoir un AUC supérieur à 0.5.

D’un point de vue statistique, l’AUC a une propriété importante : elle est équiva-lente à la probabilité qu’une fonction score ordonne une instance pertinente choisiealéatoirement au–dessus d’une instance négative choisie aléatoirement. Ceci est équi-valent au test de Wilcoxon sur les rangs. Dans l’annexe A, nous donnons une démons-tration dans le cas où nous considérons uniquement un ensemble fini à ordonner.


2.2 Ordonnancement d’alternatives

2.2.1 FormalismeL’ordonnancement d’alternatives (object ranking) [Har-Peled et al., 2002; Dekel

et al., 2003; Aiolli and Sperduti, 2004] fait référence à un formalisme d’ordonnance-ment où les entrées ne sont plus les éléments à ordonner. L’ensemble à ordonner est unautre ensemble prédéfini, celui des alternatives. Pour chaque entrée, il existe ainsi unordre prédéfini sur les alternatives.

Formellement, nous notons X l’ensemble des entrées et A l’ensemble des alter-natives. Chaque entrée x ∈ X est associée à un sous–ensemble d’alternatives validesAx ⊂ A. Nous notons mx, le nombre d’alternatives contenues dans Ax. Cet ensembleest aussi muni d’un ordre �x, qui peut être exprimé comme précédemment par des éti-quettes Yx = {y1, . . . ,ymx }. yi exprime le degré de pertinence de la ième alternative.

Nous supposons que l’apprenant dispose d’un certain nombre d’exemples xi avecleurs alternatives associées Ax et leurs étiquettes Yx. Nous notons SL cet ensembled’apprentissage. Les exemples sont ainsi supposés être générés de façon i.i.d. selonune distribution fixe et inconnue sur l’ensemble ∪x∈X × Yx. Le but de l’ordonnance-ment d’alternatives consiste à apprendre une fonction qui, pour un exemple donné, doitretrouver l’ordre souhaité sur l’ensemble des alternatives qui lui sont associées.

2.2.2 Modèle linéaire pour l’ordonnancement d’alternativesDans cette section, nous allons présenter un modèle linéaire pour l’ordonnancement

d’alternative présenté dans [Aiolli and Sperduti, 2008] qui permet de généraliser lesprécédents travaux dans le domaine [Har-Peled et al., 2002; Dekel et al., 2003; Aiolliand Sperduti, 2004; Singer et al., 2006]. Ce modèle permet d’apprendre une fonction h :X×A → R qui permet de donner un score à chaque alternative valide pour un exempledonné. Cette fonction est très similaire à la fonction score vue pour l’ordonnancementd’instances (cf. section 2.1.1). Idéalement, elle devrait vérifier la propriété suivante :

∀x ∈ X, ∀(a,y),(a′,y′) ∈ (Ax × Yx)2, y �x y′ ⇔ h(x,a) > h(x′,a′)

Représentation jointe

En ordonnancement d’alternatives, il est rare de disposer d’un côté, une représenta-tion des exemples d’entrée et de l’autre, une représentation des alternatives. L’ensembledes travaux se base plutôt sur une représentation jointe d’une entrée et d’une alternativenotée Ψ : X ×A → Rd, avec d ∈ N. Elle permet de représenter l’exemple et l’alterna-tive par un vecteur de caractéristiques.

Cette représentation est liée à l’application traitée et peut en découler naturellement.Par exemple, dans le cas de la recherche documentaire, les travaux utilisent comme ca-ractéristiques des mesures de similarité entre la requête et le document (mesure cosinus,coefficient de Jacard ou de Dice, . . .). Les bases de Microsoft utilisent une tellereprésentation. Dans ce cas, Ψ se met sous la forme suivante :

Ψ(x,a) = [s1(x,a),s2(x,a), . . . ,sd(x,a)]T avec si une mesure de similarité

2.2 Ordonnancement d’alternatives 41

Dans certaines applications, l’alternative n’est qu’un concept sans réelle représen-tation. C’est le cas de l’ordonnancement de catégories (category ranking), qui est unevariante de la classification multi–classes [Aiolli et al., 2007]. La tâche consiste àtrouver les catégories auxquelles appartient le document. Le résultat est présenté sousforme de liste ordonnée selon le degré d’appartenance. Les catégories sont indexées par{1,2, . . . ,m} et la représentation jointe est construite en projetant le vecteur représentatifdu document x dans un espace de plus grande dimension :

∀(x,a) ∈ X ×A, Ψ(x,a) = (0, . . . ,0︸︷︷︸ia−1

,φ(x),0, . . . ,0)

avec ia l’indice de a.

Apprentissage et fonctions d’erreur

Du point de vue apprentissage statistique, cette représentation est intéressante puis-qu’elle permet de travailler avec des fonctions prenant uniquement la représentationjointe en entrée. Dans le cas linéaire, les modèles recherchés sont de la forme :

h(x,a) = wTψ(x,a)

Pour une entrée x fixée, cette fonction permet de donner un score à l’ensemble des al-ternatives. Comme pour l’ordonnancement d’instances, les scores vont induire un ordresurA. L’apprentissage cherche à minimiser une fonction d’erreur qui mesure l’inéqua-tion entre l’ordre retourné par h et l’ordre souhaité, pour l’ensemble des entrées. Dansla section 2.1.2, nous avons vu les erreurs (ou mesures de performance) utilisées pourmesurer cette différence. Nous pouvons les utiliser à nouveau en prenant la moyennesur les entrées disponibles.

Soit une fonction d’erreur d’ordonnancement L sur un ensemble donné. Nous pou-vons définir l’erreur en ordonnancement d’alternatives par :

ROA(h,SL) =1n

n∑i=1

L({h(xi,ai)}ai∈Axi

,Yxi

)Par exemple, nous pouvons prendre l’erreur de classification de paires :

ROA(h,SL) =1n

n∑i=1

[1∑

y,y′ [[y > y′]]

∑y,y′∈Yx:y>y′

[[h(x,y) > h(x,y′)]]]

L’erreur de généralisation se définit alors de façon analogue que précédemment :

ROA = E[L(h(x,a),Yx)

]Classification de paires critiques

Avec une représentation jointe, nous pouvons former des paires critiques et appli-quer une méthode de classification pour apprendre la fonction score. Notons toutefoisune différence théorique majeure entre l’ordonnancement d’instances et l’ordonnance-ment d’alternatives. En effet, les éléments de la base d’apprentissage initiale de l’or-donnancement d’alternatives ne sont pas i.i.d.. Une alternative peut intervenir dans plu-sieurs représentations jointes ψ(x,a) et ψ(x,a′). Dans la pratique, que l’hypothèse i.i.d.


est rarement vérifiée voire invalide comme ici. Les travaux de [Usunier et al., 2005c;Usunier, 2007] donnent des garanties théoriques pour des bases formées d’élémentsqui sont dépendants entre eux.

Enfin, nous pouvons remarquer aussi que les paires (entrée,alternative) sont pon-dérées selon le nombre de paires critiques formées pour cette entrée. La méthode declassification doit ainsi gérer les poids. Dans l’ensemble des travaux, la formulation del’ordonnancement d’alternatives enlève cette pondération et donne ainsi plus de poidsaux entrées qui génèrent un grand nombre de paires critiques.

Complexité algorithmique

Cette approche peut s’avérer extrêmement coûteuse pour deux raisons. En premier,nous retrouvons la même limite en terme de complexité algorithmique qu’en ordonnan-cement d’instances : un grand nombre de paires critiques est en effet généré. Deuxiè-mement, dans le cas de l’ordonnancement de catégories, la représentation jointe peutaugmenter considérablement la dimension. Mais dans certaines applications [Liu et al.,2007], le nombre d’alternatives pour chaque entrée est restreint, ce qui permet de ré-duire considérablement la complexité de l’approche.

2.3 Relation avec les cadres existantsDans cette section, nous allons présenter la régression ordinale et l’apprentissage

de relations de préférence. Ces deux formalismes permettent aussi de traiter l’ordon-nancement mais sous d’autres angles.

2.3.1 Régression ordinaleDans la littérature, on rencontre un cadre très similaire à celui de l’ordonnancement

d’instances : la régression ordinale. Dans les deux cas, les données sont des instancesétiquetées. Les étiquettes prennent des valeurs dans un espace Y où il existe un ordretotal. Sans perte de généralité, nous supposons Y = {1, . . . ,K}. L’objectif de la régres-sion ordinale est de prédire l’étiquette mais en cas d’erreur, l’étiquette prédite doit êtrela plus proche3 possible de la vraie étiquette. Par exemple, pour une étiquette valant 5,il est préférable de prédire 4 au lieu de 3.

F. 2.6 – Ordonnancement dans le cadre de la régression ordinale.

3L’ordre total permet en effet de définir une distance entre étiquettes par la différence entre les rangs desétiquettes

2.4 Bilan 43

La régression ordinale peut être ainsi vue comme de la classification multi–classesavec un ordre total sur les étiquettes. Une approche courante est d’apprendre une fonc-tion réelle ainsi que K − 1 seuils θ1, . . . ,θK−1 pour déterminer l’étiquette. Cela revientà partitionner l’ensemble des réels et à associer à chaque partition une étiquette (cf.figure 2.7). La prédiction se fait alors en deux étapes : on attribue un score h(x) à uneinstance x et on lui donne ensuite l’étiquette associée à la partition dans laquelle lescore se trouve.

h(x)

θ11

θ22

θ3 3

θ4

4

5

F. 2.7 – Exemple de fonction de décision en régression ordinale.

Plusieurs algorithmes de classification ont été étendus dans ce cadre. Citons parexemple le perceptron [Crammer and Singer, 2001], les [Chu and Keerthi, 2007;Chu and Keerthi, 2005; Shashua and Levin, 2002] ou les processus gaussiens [Chu andGhahramani, 2005a].

Notons que dans le cas binaire la régression ordinale revient simplement à faire dela classification. Enfin, nous pouvons remarquer que, dans certains articles, le terme derégression ordinale correspond à notre définition de l’ordonnancement d’instances. Ladifférence n’est donc pas toujours claire.

2.3.2 Apprentissage de relations de préférencePour l’instant, nous avons uniquement considéré le cas où l’ordre peut être induit

à partir des étiquettes. Ce cadre permet d’exprimer facilement et simplement un ordre.Sa similitude avec la classification et l’ordonnancement lui confère un atout certain.Cependant, il ne permet pas de représenter une relation qui n’est pas forcément transi-tive. Pour le faire, des travaux ont considéré une relation binaire indiquant simplementqu’une entrée (ou une alternative) est préférée à une autre. Cette relation induit aussiun ordre sur un ensemble d’instances. En pratique, elle s’exprime à travers un graphede préférence. C’est un graphe orienté. Un arc (x,x′) signifie que x est préféré à x′. Labase d’apprentissage est constituée d’exemples et d’un graphe de préférence.

2.4 BilanDans ce chapitre, nous avons présenté les formalismes d’ordonnancement d’ins-

tances et d’alternatives. Nous avons supposé que l’ordre sur un ensemble était induitpar des jugements de préférences. Des approches plus générales ont été abordées dans


la littérature mais le cadre restreint que nous avons présenté permet d’exprimer simple-ment les relations de préférence.

L’ordonnancement d’instances consiste à ordonner les entrées entre elles alorsque l’ordonnancement d’alternatives a pour objectif d’ordonner des alternatives pourchaque entrée. La finalité de ces deux cadres est différente de celle de la classificationou de la régression, justifiant de ce fait leurs utilisations.

D’un point de vue théorique, les deux formalismes sont très différents. Au premierabord, l’ordonnancement d’instances semblent être plus proche de la classification. Eneffet, les bases d’apprentissage sont constituées d’exemples étiquetés par un réel ouun entier. Mais finalement, l’erreur en ordonnancement ne peut être définie que sur unensemble d’entrées. Ceci diffère des erreurs en ordonnancement d’alternatives ou enclassification. Elles peuvent être vues comme une somme d’erreurs définies indépen-damment pour chaque entrée.

D’un point de vue pratique, la résolution des deux tâches est relativement similaire.L’ordonnancement d’instances peut simplement être considéré comme de la classifica-tion de paires critiques. Pour l’ordonnancement d’alternatives, un choix adéquat d’unereprésentation jointe entre les entrées et les alternatives permet d’utiliser l’approcheavec les paires critiques. Au final, cela revient à apprendre un classifieur dans un nou-vel espace d’entrées.

3Algorithmes d’apprentissage pour

l’ordonnancement biparti

Sommaire3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2 Machine à vecteurs de support pour optimiser l’AUC . . . . . 473.3 Résolution de la forme primale . . . . . . . . . . . . . . . . . . 48

3.3.1 Méthode des sous–gradients . . . . . . . . . . . . . . . . 483.3.2 Méthode des plans sécants et bundle . . . . . . . . . . . . 493.3.3 Méthode en ligne . . . . . . . . . . . . . . . . . . . . . . 51

3.4 Algorithme de boosting pour l’ordonnancement B . . 523.4.1 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . 523.4.2 Cas biparti . . . . . . . . . . . . . . . . . . . . . . . . . 543.4.3 Algorithme d’ apprentissage peu performant pour l’ordon-

nancement biparti . . . . . . . . . . . . . . . . . . . . . . 553.4.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.5 Autres Approches . . . . . . . . . . . . . . . . . . . . . . . . . 583.5.1 Optimisation de l’AUC . . . . . . . . . . . . . . . . . . . 583.5.2 Fonction objectif non liée à l’AUC . . . . . . . . . . . . . 583.5.3 Algorithmes pour l’ordonnancement d’alternatives . . . . 58

3.6 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.1 Introduction

D dans le chapitre précédent, nous avons présenté les cadres de l’ordonnancementd’instances et de l’ordonnancement d’alternatives. Nous avons vu que ces deux

problématiques peuvent être traitées comme de la classification de paires critiques.Cette approche peut sembler simpliste au premier abord mais elle est loin d’être facileà mettre en oeuvre. Travailler dans l’espace des paires critiques pose en effet deuxdifficultés majeures :

– La première concerne l’épineux problème d’indépendance entre les exemples.En effet, comme nous l’avons vu, deux paires contenant la même instance sontdépendantes entre elles. Cette difficulté rend l’application des méthodes issues

46 Algorithmes d’apprentissage pour l’ordonnancement biparti

du cadre de la classification caduque pour l’ordonnancement. Des travaux théo-riques sont en effet nécessaires pour le développement de méthodes de classifi-cation de paires appropriées dans ces cas. Cette problématique a été étudiée dans[Usunier et al., 2005b; Usunier et al., 2005a; Usunier, 2007].

– La seconde difficulté est purement pratique, et elle concerne le grand nombrede paires critiques à prendre en compte par l’algorithme d’apprentissage pourl’entraînement du modèle. Pour illustrer ce problème, la figure 3.1 montre l’évo-lution du nombre de paires critiques pour l’ordonnancement biparti en fonctiondu taux d’instances pertinentes dans une base à 1 000 exemples étiquetés.

0

50000

100000

150000

200000

250000

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

Nom

bre

de p

aire

s cr

itiqu

es

taux d’instances pertinentes

F. 3.1 – Figure montrant l’évolution du nombre de paires critiques par rapport au tauxde pertinents dans la base.

Le problème du passage à l’échelle est ainsi un problème plus fondamental en or-donnancement qu’en classification. C’est surtout le cas pour l’extension de certainsalgorithmes développés en classification (comme ) qui étaient déjà limités par lataille de la base d’apprentissage. Depuis quelques années, ce facteur est devenu demoins en moins limitant surtout pour l’apprentissage de fonctions linéaires. Les tra-vaux pour l’ordonnancement se sont largement inspirés des études sur l’optimisationconvexe non différentiable [Shor et al., 1985], de l’apprentissage sur des grandes basesde données et de l’apprentissage structuré pour remédier à ce problème.

Dans ce chapitre, nous allons nous intéresser au cadre de l’ordonnancement bipartid’instances en présentant les deux algorithmes de référence développés dans ce cadre.Le premier algorithme est une extension de l’approche et le deuxième est affilié àl’algorithme de boosting B [Freund and Schapire, 1995]. À la fin de ce chaptire,nous introduisons aussi des algorithmes stochastiques et en–ligne directement inspirésdes méthodes de classification.

NotationDans la suite, nous allons noter l’ensemble d’apprentissage contenant n instances

étiquetées par SL :SL = {(xi,yi)}ni=1

3.2 Machine à vecteurs de support pour optimiser l’AUC 47

avec yi ∈ {−1,1}. Nous supposons qu’il y a n+ instances positives et n− instances né-gatives. Nous notons aussi S−1 l’ensemble des instances négatives et S1 l’ensembledes instances positives. Et enfin, nous désignons par EAUC(h,S) la proportion de pairescritiques de S mal ordonnées par h.

3.2 Machine à vecteurs de support pour optimiser l’AUCPlusieurs travaux ont proposé d’adapter les pour l’ordonnancement [Herbrich

et al., 2000; Joachims, 2002; Rakotomamonjy, 2004; Brefeld and Scheffer, 2005]. Dansle cas linéaire, la forme primale se met sous la forme suivante :

minw∈Rd

12‖w‖2 + C

∑x∈S1

∑x′∈S−1

[[1 − wT (x′ − x)]]+ (3.1)

De façon équivalente, elle peut se formuler avec des contraintes et des variablesressort ξi j :

minw∈Rd

12‖w‖2 + C

∑i:xi∈S1

∑j:x j∈S−1

ξi j

sc. ξi j ≥ 0wT (x j − xi) ≥ 1 − ξi j

Dans le cas biparti, le problème d’optimisation possède ainsi n+n− contraintes, cequi correspond au nombre de paires critiques dans SL. En introduisant une variablede Lagrange pour chaque contrainte d’inégalité, nous pouvons former le Lagrangienet obtenir ainsi la formule duale du problème d’optimisation [Vapnik, 1995; Burges,1998; Schölkopf and Smola, 2001; Boyd and Vandenberghe, 2004] :

maxαi j

∑i, j

αi j −12

∑(i, j)(k,l)

αi jαkl

(xT

i x j + xTl xk − xT

i xk − xTl x j

)(3.2)

sc. 0 ≤ αi j ≤ C

avec C une constante réelle positive entre 0 et 1.

Les méthodes de résolution du problème dual ont une complexité au minimum qua-dratique en nombre de contraintes. En classification, cette approche n’est pas adaptéepour un grand nombre d’instances (problème du passage à l’échelle). Pour l’ordonnan-cement biparti, la taille de la base d’apprentissage est encore plus critique et constitueun facteur clairement limitant. Cette limite est d’autant plus forte, que la base est équi-librée (cf. figure 3.1).

Pour contourner cette limitation, les premiers travaux [Rakotomamonjy, 2004;Brefeld and Scheffer, 2005] ont proposé de sélectionner en premier un sous–ensemblede SL et ensuite d’apprendre une fonction score à partir de ces instances. Cette sélec-tion est souvent faite de façon empirique et peut influencer fortement les performancesdu modèle appris. Dans le cas linéaire, la résolution peut éviter de passer par la formeduale et par les méthodes d’optimisation de type quadratic programming. En d’autrestermes, la forme primale est directement minimisée par des méthodes d’optimisation


convexe non différentiable1. Nous présentons les deux principales approches dans ledomaine : les méthodes à base de sous–gradient et celles à base de plans sécants. Nousprésentons ensuite une extension simple pour résoudre en ligne le problème d’ordon-nancement.

3.3 Résolution de la forme primaleCes méthodes utilisent la notion de sous–gradient, l’extension du gradient pour les

problèmes convexes et non–différentiables. Commençons par les définitions de base.

Définition 1 (Sous–gradient au point w). Soit R : Rd → R, une fonction convexe. Unsous–gradient au point w est un vecteur g ∈ Rd, qui vérifie la propriété suivante :

∀w′ ∈ Rd,R(w) ≥ R(w′) + gT (w′ − w)

Pour une fonction différentiable, il n’existe qu’un seul sous–gradient qui se confondavec le gradient. Dans le cas contraire, l’ensemble des sous–gradients au point w s’ap-pelle le sous–différentiel au point w et il est noté par ∂R(w).

3.3.1 Méthode des sous–gradientsCette méthode a été introduite dans la communauté d’apprentissage avec l’algo-

rithme [Shalev-Shwartz et al., 2007] puis adaptée à l’apprentissage structuré[Ratliff et al., 2007]. C’est une adaptation directe de la descente de gradient : la mé-thode choisit aléatoirement un point de départ puis calcule itérativement une suite depoints wt convergeant vers une solution optimale telle que :

wt+1 = wt − ρtgt

avec gt ∈ ∂R(wt), un sous–gradient de R(w) au point wt et {ρt}t une suite de pas.

La convergence est assurée pour des suites {ρt}t particulières. C’est le cas parexemple lorsque αt tend vers 0 (lim ρt = 0) et que la série associée est divergente(∑

t ρt = +∞). L’algorithme a été spécialement développé pour minimiser laforme primale du . Notons que l’algorithme contient une étape de normalisationpour que le vecteur courant wt ait une norme inférieure ou égale à 1

λ. Cette étape est

nécessaire pour déterminer théoriquement la vitesse de convergence de l’algorithme.

L’algorithme 1 décrit l’adaptation de pour l’ordonnancement biparti dansla version mini–batch. La méthode résout un problème d’optimisation légèrement dif-férent du problème d’optimisation (équation 3.1) :

minw∈Rd

λ

2‖w‖2 +

1|S1||S−1|

∑x∈S1

∑x′∈S−1

[[1 − wT (x′ − x)]]+ (3.3)

Les deux formulations sont équivalentes et différemment essentiellement sur la valeurdu paramètre de régularisation.

Dans la version stochastique, les auteurs donnent une vitesse de convergence pouratteindre le minimum à ε près avec une probabilité d’au moins 1 − δ. La complexité

1Contrairement aux fonctions perte exponentielle ou log–binomiale, la fonction hinge n’est pas différen-tiable.

3.3 Résolution de la forme primale 49

Algorithme 1 pour l’ordonnancement bipartiE: Une base étiquetée SL = S1 ∪ S−1

1: Initialisation : Soit w0 tel que ‖w0‖ ≤ 1/√λ

2: pour t=1,. . .,T faire3: Choisir un sous–ensemble At ⊆ SL avec k instances pertinentes et k′ instances

non pertinentes4: Soit A+

t ⊂ At, A−t ⊂ At tel que : ∀(x,x′) ∈ A+t × A−t , wT

t (x − x′) ≤ 15: αt ←

1λ.t

6: Mise à jour du modèle wt+1 = wt − αtgt avec gt un sous–gradient de l’erreurd’ordonnancement régularisée sur A+

t ∪ A−t7: Normaliser le vecteur wt+1 pour que ‖wt+1‖ ≤ 1/

√λ

8: fin pourS: argmin

wt

R(wt)

algorithmique peut se mettre sous la forme suivante :

complexité[RP] = O(

dδλε

)(avec une probabilité de 1 − δ)

Notons que l’algorithme a besoin de faire plusieurs passes sur la base d’apprentissageet que sa vitesse de convergence ne dépend pas du nombre d’exemples étiquetés de SL,représentant un avantage certain pour les bases de grande taille.

3.3.2 Méthode des plans sécants et bundleLes méthodes de plans sécants (voir par exemple [Goffin and Vial, 1999]) sont

des méthodes itératives qui construisent une suite de points wt convergeant vers unminimum global de la fonction coût R(w). Considérons le problème de minimisationd’une fonction convexe réelle f : Rd :→ R :

minw∈Rd

f (w)

L’objectif des méthodes des plans sécants est de résoudre à chaque itération uneapproximation de la fonction objectif :

minw∈Rd

ft(w)

avec ft une approximation de la fonction f , qui devient de plus en plus précise au furet à mesure que le nombre d’itérations croît. L’approximation utilisée est une fonctionlinéaire par morceaux (approximation polyhédrale) constituée des points wt trouvés àl’étape t et d’un sous–gradient gt :

ft(w) = max{

f (w0) + (w − w0)T g0︸︷︷︸équation d’un hyperplan passant par f (w0)

, . . . , f (wt−1) + (w − wt−1)T gt−1

}

avec wt ∈ argmax ft et gt ∈ ∂ f (wt).


Ainsi à chaque itération t, un problème de minimisation intermédiaire est résoluet un nouvel hyperplan f (wt) + (w − wt)T gt est ajouté à l’approximation. Nous pou-vons remarquer que l’approximation est une borne inférieure de la fonction à optimiserc’est–à–dire :

∀t, ∀w ∈ Rd, ft(w) ≤ f (w)

La méthode est illustrée par la figure 3.2 où hi est l’hyperplan d’équation f (wi) + (w −wi)T gi. La fonction objectif est représentée en rouge et elle est approchée par la courbeen verte qui représente le maximum des 3 hyperplans. Cette fonction approchée estminimisée pour trouver le point suivant.

F. 3.2 – Construction de la borne inférieure (en vert) de la fonction coût (en rouge)

Cependant, la suite des points peut s’éloigner de la solution optimale (phénomèned’instabilité). Pour limiter cet effet d’instabilité, les méthodes bundle ajoute un termede régularisation à l’approximation pour pénaliser les grandes variations entre le pointcourant wt et le point suivant wt+1. wt+1 s’obtient de la façon suivante :

wt+1 ∈ argmaxw∈Rd

{f (t+1)(w) + µt‖w − wt‖

2}

Méthode pour les fonctions coût régularisées et P

Les travaux de [Teo et al., 2007; Smola et al., 2007] ont adopté les méthodes detype bundle pour l’apprentissage statistique. Que ce soit en régression, en classificationou en ordonnancement, le problème d’apprentissage peut se réduire à un problèmed’optimisation d’une fonction coût régularisée par la norme L2 :

minw∈Rd

L(w) + λ‖w‖2

La fonction coût caractérise ainsi le problème d’apprentissage. Dans le cas de l’ordon-nancement d’instances, il peut s’agir de l’erreur de classification de paires critiques ouun majorant convexe de cette fonction. L’approche est légèrement différente de celleprésentée plus haut. Ainsi, l’approximation utilisée à l’étape t est l’approximation po-lyhédrale de l’erreur régularisée par la norme L2. Le problème de minimisation à cetteétape est donc le suivant :

minw∈Rd

Rt(w) = Lt(wt) + λ‖w‖2

3.3 Résolution de la forme primale 51

avec Lt(wt) = max{L(w0) + (w − w0)T g0, . . . , L(wt−1) + (w − wt−1)T gt−1

}Algorithme 2 Méthode bundle pour la minimisation des fonctions coût régulariséesE: Une base étiquetée S = {(xi,yi}

ni=1

1: Initialisation : w0 ← 0, t ← 02: répéter3: Soit gt ∈ ∂L(wt) un sous–gradient de L au point wt

4: Ajouter l’hyperplan à l’approximation Lt(w)5: wt+1 ← argmin

{Lt(w) + λ‖w‖2

}6: t ← t + 17: jusqu’à convergence

S: argminw(t)

R(w(t))

L’avantage de l’approche est de proposer une méthode flexible qui permet d’op-timiser n’importe quelle fonction coût convexe pouvant ne pas être différentiable. Sinous utilisons l’erreur de classification de paires critiques ainsi que le régulariseur L2,la méthode coïncide avec la méthode P développée auparavant par T. Joachims[Joachims, 2005; Joachims, 2006].

Les auteurs de [Teo et al., 2007; Smola et al., 2007] montrent que le nombre d’ité-rations nécessaires pour atteindre un minimum avec une précision ε est de O

(1λε

). À

chaque itération, il est nécessaire de calculer la fonction coût et le gradient au point w.Dans le cas du , ils peuvent être estimés respectivement en O

(nd + n log n

)et O(n)

opérations (cf. annexe B). Nous en déduisons la complexité générale de l’algorithme :

complexité[,P] = O(

nd+n log(n)λε

)Notons qu’à chaque itération l’algorithme utilise une méthode d’optimisation dont

la complexité n’a pas été prise en compte. L’optimisation est rapide surtout lorsqu’il ya peu de points pour calculer l’approximation. Dans la pratique, l’algorithme nécessitepeu d’itérations, rendant ces étapes négligeables dans le calcul de la complexité.

3.3.3 Méthode en ligneLes algorithmes introduits précédemment nécessitent le stockage de la base d’ap-

prentissage (fonctionnement hors–ligne ou batch). Lorsque la capacité de stockage estlimitée, ces algorithmes ne sont plus adaptés. Dans la littérature, les méthodes en–ligneproposent une alternative pour l’apprentissage : les données sont traitées à la volée etle modèle est mis à jour régulièrement.

Dans ce cadre, l’algorithme prend en entrée une série d’exemples étiquetés(x1,y1),(x2,y2), . . . , (xm,ym) un par un. L’algorithme reçoit en premier un exemple éti-queté et met à jour le modèle si nécessaire. En classification, ces modèles [Bordes et al.,2005; Crammer et al., 2006; Bordes et al., 2007] sont utilisés pour traiter des flux d’in-formation ou des très grandes bases de données.

Nous introduisons une adaptation de ces modèles pour l’ordonnancement biparti.Le principe est le suivant : si l’exemple traité est pertinent, nous le gardons en mémoire.


Dans le cas contraire, nous formons l’ensemble des paires critiques avec les exemplesde la base et nous fournissons la paire critique qui viole le plus la contrainte de margeau classifieur en–ligne.

Algorithme 3 Principe de l’apprentissage en–ligne pour l’ordonnancement biparti.E: une base étiquetée SL = {(xi,yi}

ni=1

1: Z ← {}2: pour chaque exemple étiqueté (x,y) dans S faire3: si x est exemple pertinent c’est–à–dire y = 1 alors4: Mettre à jour la base des exemples positifs :Z ← Z

⋃{x}

5: sinon // Former les paires critiques et donner au solveur en–ligne6: pour chaque exemple x+ inZ faire7: w← OnLineSolver.train

((x+ − x,1)

)8: fin pour9: finsi

10: fin pourS: le modèle

Notons que la différence entre l’apprentissage en–ligne et les méthodes à base d’op-timisation stochastique est mince. Cependant, l’apprentissage en–ligne devrait ne voirqu’une seule fois chaque exemple alors que l’optimisation stochastique nécessite defaire plusieurs passes sur la base d’apprentissage. Typiquement, l’algorithme 2

développé par A. Bordes peut être réellement considéré comme un algorithme en–ligne. Il nécessite en effet une seule passe sur la base pour trouver une solution appro-chée, ce qui est assez différent des travaux de [Crammer et al., 2006].

3.4 Algorithme de boosting pour l’ordonnancement -B

Nous avons vu différentes approches possibles pour étendre les à l’ordonnan-cement biparti. Nous allons présenter maintenant l’algorithme B développépar [Freund et al., 2003].

3.4.1 Cas généralB [Freund et al., 2003] est un algorithme de boosting [Freund and Scha-

pire, 1995; Schapire, 1999] adapté à l’ordonnancement d’instances. Il permet de com-biner plusieurs modèles « peu performants » ht(x) en une règle d’ordonnancement fi-nale h(x) =

∑t αtht(x) qui est très performante. Comme pour tous les algorithmes de

boosting, B suit une procédure itérative et utilise une routine pour générer lesmodèles ht. Le pseudo–code 4 décrit la forme basique de cette méthode, qui revient àfaire du boosting avec les paires critiques. Dans la section 3.4.2, nous verrons une miseen œuvre efficace de cet algorithme pour l’ordonnancement biparti.

A chaque itération, B attribue des poids à chacune des paires en modifiantla distribution Dt sur l’espace des paires d’instances X × X. Cette étape permet de

2Attention pour éviter toute confusion, nous avons renommé l’algorithme proposé dans [Bordes et al.,2007] par .

3.4 Algorithme de boosting pour l’ordonnancement B 53

renforcer l’importance de certaines paires à être ordonnées correctement. Un modèlepeu performant est alors appris sur la base étiquetée avec la nouvelle distribution etajoutée à la solution h.

Algorithme 4 BE: Une base étiquetée SL = {(xi,yi}

ni=1

1: D1 = D2: pour t = 1, . . . ,T faire3: Apprendre un modèle peu performant ht avec la distribution Dt,4: Estimer le poids αt,5: Mettre à jour la distribution :

∀(x,x′) paire critique Dt+1(x,x′) =Dt(x,x′) exp

(αt(ht(x) − ht(x′))

)Zt

avec Zt un facteur de normalisation.6: fin pour

S: h(x) =∑T

i=1 αtht(x)

Zt est un facteur de normalisation permettant de rendre la somme des poids égale à1 et d’interpréter ainsi Dt comme une distribution :

Zt =∑(x,x′)

Dt(x,x′) exp(αt(ht(x′) − ht(x)

)En remplaçant récursivement la définition de Dt dans la formule et en remarquant

que∑

x,x′ D0(x,x′) = 1, on démontre que l’erreur empirique est bornée par le produitdes facteurs de normalisation

∏t Zt :

EAUC(SL) ≤T∏

t=1

Zt

Détermination du poids αt

À chaque itération, αt est choisie en minimisant la fonction Zt. Dans [Freund et al.,2003], les auteurs proposent plusieurs stratégies, dont celle que nous allons décrire parla suite. Celle–ci se base sur l’inégalité de Jensen (dûe à la convexité de la fonctionexponentielle) :

∀(x,α) ∈ R × R, eαx ≤1 + x

2eα +

1 − x2

e−α (3.4)

Ce qui donne la majoration suivante

Zt ≤∑(x,x′)

Dt(x,x′)[1 + ht(x′) − ht(x)

2.eαt +

1 − ht(x′) + ht(x)2

.e−αt

]︸︷︷︸

=(

1−rt2

)eαt +

(1+rt

2

)e−αt

(3.5)

avec rt =∑

(x,x′) Dt(x,x′) (ht(x) − ht(x′))

Le second terme de l’équation 3.5 est alors minimisé pour :


αt =12

ln(

1 + rt

1 − rt

)Notons que cette méthode de résolution est valide si la borne peut être minimisée c’est–à–dire ∀t, rt ∈] − 1,1[. Cette condition est vérifiée lorsque les fonctions d’ordonnance-ment ht retournent des scores non triviaux dans l’intervalle [0,1].

Complexité

La minimisation passe ainsi par le calcul de rt, qui nécessite de voir l’ensembledes paires critiques. La complexité de l’algorithme est donc linéaire en nombre d’ité-rations T et en nombre de paires critiques n−n+. Ce coût est problématique pour destrès grandes bases de données. Dans le cas biparti, la complexité peut se ramener àune complexité linéaire en nombre d’instances, comme nous allons le voir à la sectionsuivante.

3.4.2 Cas bipartiPour améliorer la complexité de l’algorithme, l’idée principale est de maintenir

une distribution sur les instances et non plus sur les paires critiques. Le principe estde définir une distribution ν sur les exemples et de la maintenir différemment pour lesinstances positives et négatives. On peut montrer grâce à la propriété d’homéomor-phisme de la fonction exponentielle que l’expression suivante de D définit en effet unedistribution.

∀(x,x′) ∈ T (SL), Dt(x,x′) = νt(x)νt(x′) (3.6)

En effet de l’égalité exp(a + b) = exp(a). exp(b), nous pouvons voir que Zt = Z+t .Z

−t .

Ce qui nous donne après une itération :

Dt+1(x,x′) =Dt(x,x′). exp(αt(ht(x′) − ht(x)))

Zt

=νt(x) exp(−αtht(x))

Z+t

.νt(−x) exp(ht(x))

Z−t

= νt+1(x).νt+1(x′)

Le pseudo–code de B dans le cas biparti est décrit dans l’algorithme 5.

Complexité

Contrairement à la formulation précédente, la règle de mise à jour et le calcul despoids αt optimaux sont linéaires en nombre d’instances. Par conséquent, la complexitéalgorithmique ne dépend que du nombre d’itérations, du nombre d’instances, ainsi quela complexité de l’algorithme d’apprentissage peu performant (apprenant faible – weaklearner).

complexité[B-] = O (d.n.T ) + T.complexité[apprenant faible]


Algorithme 5 B pour l’ordonnancement bipartiE: une base étiquetée SL = S1 ∪ S−1

1: Initialisation :

ν0(x) =

{1/n+ si x ∈ S11/n− si x ∈ S−1

2: pour t=1,. . .,T faire3: Apprendre un modèle peu performant ht avec la distribution Dt

4: Déterminer le poids αt

5: Mettre à jour la distribution :

νt+1(x) =

νt(x) exp(−αtht(x))Z+

tsi x ∈ S1

νt(x) exp(αtht(x))Z−t

si x ∈ S−1

avec Z+t et Z−t des facteurs de normalisation de νt sur S1 et S−1 :

Z+t =

∑x∈S1

νt(x) exp(− αtht(x)

)Z−t =

∑x∈S−1

νt(x) exp(αtht(x)

)6: fin pour

S: h(x) =∑T

i=1 αtht(x)

3.4.3 Algorithme d’ apprentissage peu performant pour l’ordon-nancement biparti

L’algorithme d’apprentissage peu performant consiste à trouver une fonction scoreht(x) parmi un ensemble fonctionnel Fh, qui minimise Zt càd :

∀t, ht =argminh∈Fh

∑(x,x′)∈T (S)

Dt(x,x′) exp(αt(h(x′) − h(x)))

Cette étape peut être coûteuse mais les auteurs de [Freund et al., 2003] ont pré-

senté un algorithme efficace (linéaire en nombre d’exemples) pour apprendre des fonc-tions score ht à valeurs booléennes. En introduisant la définition de αt dans l’équation3.5, l’inégalité suivante peut être facilement démontrée pour des fonctions donnant desscores dans [0,1] :

Zt ≤

√1 − r2

t

Pour générer les fonctions ht, nous pouvons maximiser rt, ce qui revient à minimiserun majorant de Zt. Par conséquent, l’apprenant suit la politique suivante :

∀t, ht =argmaxh∈Fh

∑(x,x′)∈T (S)

Dt(x,x′)(h(x′) − h(x)))

Cependant, rt peut ne pas être une fonction concave, ce qui rend son optimisation

difficile. Elle peut être faite par une recherche exhaustive comme préconisée par les au-teurs de [Freund et al., 2003]. Pour des fonctions de base particulières, cette recherchepeut s’effectuer en une seule passe sur la base d’apprentissage.


Fonctions de base

Nous supposons que les instances x sont représentées par un ensemble de compo-santes fi(x), dont la valeur peut être inconnue. Dans ce cas, fi(x) =⊥. Un des moyensle plus simple et le plus flexible pour obtenir une fonction d’ordonnancement est d’engénérer par rapport à ces fonctions composante :

hi,θ,qnd (x) =

1 si fi(x) > θ0 si fi(x) ≤ θqnd si fi(x) =⊥

avec θ ∈ R et qnd ∈ {0,1}. Ils sont obtenus en comparant la valeur de la composanteavec un seuil θ.

La fonction est caractérisée par i, qui indexe la fonction composante, par θ unevaleur de seuil et par qnd. Dans la pratique, l’apprenant est muni d’un ensemble fini deseuils {θk} dépendant des valeurs prises par fi avec θ1 > θ2 · · · > θK . Ces valeurs ne sontpas les mêmes pour toutes les fonctions caractéristiques mais pour éviter de surchargerles notations, nous n’avons pas mis l’indice i.

Apprentissage de fonctions d’ordonnancement peu performantes

Nous pouvons maintenant présenter le pseudo–code décrit par l’algorithme 6. L’ob-jectif est de trouver les valeurs de i, θk et de qnd qui permet de maximiser le majorant rt.

Nous pouvons remarquer que rt peut s’écrire comme une somme sur les instances(et non plus sur les paires critiques).

rt =∑x,x′

νt(x)νt(x′)(h(x) − h(x′))

=∑x,x′

νt(x)νt(x′)h(x) −∑x,x′

νt(x)νt(x′)h(x′)

=∑

x

νt(x)h(x)∑

x′νt(x′) −

∑x′νt(x′)h(x′)

∑x

νt(x)

=∑xi∈S1

yih(xi)

ν(xi)∑

x j:y j,yi

ν(x j)

+∑

xi∈S−1

yih(xi)

ν(xi)∑

x j:y j,yi

ν(x j)

=

∑(xi,yi)∈SL

h(x)

yi

∑x j:y j,yi

ν(x j).h(x j)

︸︷︷︸π(xi)

Cette équation est valable pour des fonctions score quelconques. Mais en introdui-sant les fonctions définies précédemment, nous obtenons :

rt =∑

x:h j(x)>θ

f (x)π(x) +∑

x:h j(x)<θ

f (x)π(x) +∑

x:h j(x)=⊥

f (x)π(x)

=∑

x:h j(x)>θ

π(x) + qnd.∑

x:h j(x)=⊥

π(x)

=∑

x:h j(x)>θ

π(x)︸︷︷︸L

− qnd.∑

x:h j(x),⊥

π(x)︸︷︷︸R


La dernière égalité s’obtient en remarquant que∑

x π(x) vaut 0 et qu’il peut aussise mettre sous la forme suivante

∑x:h j(x)=⊥ π(x) +

∑x:h j(x),⊥ π(x).

Sous cette forme, nous pouvons remarquer que pour chaque fonction score, on peutcalculer la valeur de rt en faisant uniquement un passage sur la base d’apprentissage parsimple mise à jour des termes L et R. Pour trouver la bonne fonction d’ordonnancement,il suffit de calculer pour toutes les fonctions la quantité rr et de retourner celle qui lamaximise. La complexité totale en découle naturellement :

complexité[B] = O (d.n.T.K)

Algorithme 6 Apprentissage de fonctions score peu performantes pour l’ordonnance-ment bipartiE: une base étiquetée SL = S1 ∪ S−1, une distribution D sur X × X

un ensemble de caractéristiques { fi}Ki=1pour chaque fonction fi un ensemble de seuils {θk}

Kk=1 tel que θ1 ≥ · · · ≥ θK

1: Initialisation : ∀x, π(x)← yν(x)∑

x′:(x,x′)∈T (S) ν(x′)r∗ ← 0

2: L← 03: R←

∑x:h(x),⊥ π(x)

4: θ0 ← ∞

5: pour j=1,. . .,d faire6: L← L +

∑x:θk−1≤h j(x)<θk

π(x)7: si |L| > |L − R| alors8: qnd ← 09: sinon

10: qnd ← 111: finsi12: si |L − qnd.R| > |r∗| alors13: r∗ ← L − qnd.R14: j∗ ← j15: θ∗ ← θk

16: q∗ ← qnd

17: finsi18: fin pourS: Le modèle d’ordonnancement f j∗,θ∗,q∗

3.4.4 DiscussionL’algorithme B est une adaptation directe de B [Freund and Scha-

pire, 1995]. Il diffère toutefois des algorithmes de boosting [Meir and Rätsch, 2002] auniveau de la procédure d’apprentissage de l’apprenant faible. Pour les algorithmes deboosting classique, le modèle peu performant est généré en minimisant l’erreur clas-sique de classification pondérée :

n∑i=1

D(xi)[[ f (xi) , yi]]


Un grand nombre de méthodes de classification peuvent être utilisées comme apprenantfaible. Dans l’algorithme B, les auteurs proposent une procédure spécifique,qui minimise un majorant de l’erreur de classification de paires pondérées. Commesouligné précédemment, leur approche offre l’avantage d’être peu coûteux. Dans [Longand Servedio, 2007], les auteurs montrent l’impact théorique des apprenants faibles quifont juste un peu mieux que l’aléatoire.

Pour des bases fortement bruitées, B peut être modifié pour éviter de tropse concentrer sur les paires critiques difficiles à apprendre. Cette idée a été introduitepour le boosting en classification (cf. [Meir and Rätsch, 2002]) et a été adaptée enordonnancement dans [Moribe et al., 2008].

3.5 Autres Approches

3.5.1 Optimisation de l’AUCDans les sections précédentes, nous avons présenté les travaux qui ont étendu et

B pour l’ordonnancement. En classification, ces méthodes sont discriminatives.Elles ne modélisent pas la distribution des données avant d’apprendre un modèle, ce quiles différencie des méthodes génératives. Il est possible d’étendre ces méthodes en uti-lisant les paires critiques. Dans [Burges et al., 2005] par exemple, la probabilité a pos-teriori est modélisée avec une fonction logistique P(x,x′) = 1/

(1 + exp(h(x′) − h(x)

)et

dans [Chu and Ghahramani, 2005b] les auteurs utilisent des processus gaussiens.

Nous pouvons aussi signaler une dernière approche qui consiste à maximiser uneapproximation de l’AUC. Dans [Calders and Jaroszewicz, 2007], l’AUC est directe-ment estimée par une série polynomiale alors que dans [Raykar et al., 2008] une borneinférieure de l’AUC est estimée grâce à une série définie dans [Beaulieu, 1989]. L’ap-proximation utilisée est la somme des p premiers termes de la série. La fonction objectifsous cette forme et son gradient peuvent être estimées en une seule passe sur la based’apprentissage. La complexité des deux approches peut être estimée à O(p.n.d.T ) avecT le nombre d’itérations de l’algorithme d’optimisation. Nous ne détaillerons pas plusces méthodes puisqu’elles sortent du cadre de ce travail.

3.5.2 Fonction objectif non liée à l’AUCJusqu’à présent, nous avons uniquement utilisé l’AUC comme fonction coût d’ap-

prentissage. Cette mesure est directement liée à l’erreur de classification de paires etpeut être minimisée par des méthodes d’optimisation convexe. Ces caractéristiques ex-pliquent en grande partie son utilisation répandue dans la communauté d’apprentis-sage. Cependant, l’AUC n’est pas forcement adaptée à toutes les applications, commela recherche d’information où seuls les documents avec les plus grands scores im-portent. L’optimisation des mesures de performance comme la prec@k ou le NDGCs’est naturellement posée. Contrairement à l’AUC, ces fonctions ne sont pas simples àmaximiser. Les premières tentatives remontent sans nul doute aux travaux de [Metzleret al., 2005]. Mais il faut attendre les travaux de [Teo et al., 2007; Le and Smola, 2007;Joachims, 2005; Yue et al., 2007; Xu and Li, 2007] pour obtenir des méthodes plus

3.6 Bilan 59

performantes mais qui restent trop coûteuses.

Nous pouvons finalement noter une dernière approche qui nous parait très inté-ressante. Au lieu d’optimiser des critères complexes, les travaux de [Clémençon andVayatis, 2007; Rudin, 2006; Burges et al., 2006; Tsai et al., 2007] cherchent à optimi-ser un coût convexe qui tient compte de la position de l’exemple dans la liste ordonnée.La fonction objectif donne ainsi plus de poids aux instances les mieux ordonnées.

3.5.3 Algorithmes pour l’ordonnancement d’alternativesNous avons uniquement présenté des méthodes pour l’ordonnancement biparti

d’instances. Ce formalisme constitue en effet le principal cadre de notre thèse. Nouspouvons remarquer que les méthodes présentées se basent toutes sur l’utilisation despaires critiques. D’un point de vue algorithmique, la notion de paires critiques permetde faire le pont entre l’ordonnancement d’instances et d’alternatives. La différence ré-side essentiellement dans la manière de former les paires critiques. Citons par exempleles travaux de [Grangier and Bengio, 2008] dans ce cadre qui étendent les classifieursen–ligne de [Crammer et al., 2006].

3.6 BilanDans ce chapitre, nous avons donné un aperçu des approches possibles et des dif-

férents travaux afférents pour l’ordonnancement biparti d’instances. Nous avons prin-cipalement abordé la maximisation de l’AUC en insistant sur la complexité inhérentede ces méthodes. Outre l’optimisation des mesures plus complexes (prec@k, NDGC,. . .), les principaux travaux ont dû relever le défi d’optimiser l’AUC en présence d’unegrande quantité de paires critiques. C’est pourquoi les sources d’inspirations pro-viennent essentiellement des domaines de l’optimisation, de la classification à grandeéchelle ou de la classification structurée. Le tableau 3.1 résume les caractéristiques desdifférentes approches.

méthode complexitéS- O

((n+n−)4 log log(1/ε)

)S- O

((n+n−)2 log(1/ε)

)P O

(dδλε

)avec une probabilité de 1 − δ

O(

nd+n log nλε

)P O

(d.n log nλε

)B O (d.n.T.K)

T. 3.1 – Récapitulatif de la complexité algorithmique des méthodes d’ordonnance-ment supervisées

Nous avons présenté des approches directement liées à linéaire pour l’ordon-nancement. Comme en classification, le principal bénéfice est l’utilisation de la marge.Leur résolution classique ne passe pourtant pas à l’échelle. Les travaux se sont alorstournés vers l’optimisation de la forme primale par des méthodes de sous–gradient oude plans sécants. Nous avons proposé des adaptations de méthodes stochastiques et


en–ligne pour l’ordonnancement biparti. Nous avons aussi présenté un algorithme deboosting qui bénéficie d’une complexité linéaire en nombre d’exemples.

Nous avons fait le choix de couvrir juste une petite partie de la littérature en ordon-nancement. En effet, ce terme peut cacher plusieurs tâches différentes (ordonnancementd’instances ou d’alternatives, régression ordinale, catégorisation, apprentissage de pré-férence, . . .). Il suscite de plus un intérêt de plus en plus croissant dans la communautéd’apprentissage. Cet engouement s’explique avant tout par la perspective d’utiliserl’apprentissage pour les moteurs de recherche et par l’implication des grands groupes(Google, Yahoo, Microsoft, . . .).

4Apprentissage semi–supervisé et actifde fonctions d’ordonnancement : état

de l’art

Sommaire4.1 Méthodes d’ordonnancement transductives . . . . . . . . . . . 62

4.1.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . 624.1.2 Paradigme transductif et inductif . . . . . . . . . . . . . . 624.1.3 Intuition . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.1.4 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . 634.1.5 Protocole expérimental . . . . . . . . . . . . . . . . . . . 684.1.6 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.2 Méthodes d’apprentissage actif pour l’ordonnancement . . . . 684.2.1 Stratégie basée sur une mesure de fiabilité . . . . . . . . . 694.2.2 Stratégie basée sur l’estimation du gradient . . . . . . . . 704.2.3 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Dans les chapitres précédents, nous avons présenté un survol des principales mé-thodes en ordonnancement d’instances et d’alternatives développées suivant le

cadre supervisé. En pratique, l’étiquetage d’un large ensemble de données est une tâchedifficile, qui peut prendre énormément de temps. Cette opération est même irréalisabledans certains cas (le résumé de textes par exemple).

La communauté statistique a depuis longtemps considéré le problème d’estima-tion de modèles de mélange à partir d’ensembles de données partiellement étiquetés.Cette problématique n’a attiré que récemment l’attention de la communauté d’appren-tissage. Les données étiquetées sont en effet chères à obtenir, alors que les donnéesnon–étiquetées sont faciles à collecter et contiennent de l’information sur le problèmeà résoudre. De ce constat sont nés un certain nombre de modèles. Ils ont été développéssuivant deux axes de recherche et leur objectif est d’apprendre en présence d’une petitequantité de données étiquetées, simultanément avec une grande quantité de donnéesnon–étiquetées.

Le premier axe, appelé apprentissage semi–supervisé [Zhu, 2005; Chapelle et al.,2006; Seeger, 2001], concerne l’apprentissage d’un classifieur à partir d’un petitnombre d’exemples étiquetés et d’une grande quantité de données non–étiquetées. Ledeuxième correspond à l’apprentissage actif d’un apprenant [Settles, 2009; Tong and

62Apprentissage semi–supervisé et actif de fonctions d’ordonnancement : état de l’art

Koller, 2001; Freund et al., 1997; Roy and McCallum, 2001]. Dans ce cas, le modèleinteragit avec un oracle en lui présentant des données non–étiquetées à étiqueter et dontl’ajout (des données et de leur étiquette) permet de concevoir un modèle plus perfor-mant à l’étape suivante.

Très récemment, quelques études se sont intéressées aux développements d’algo-rithmes d’ordonnancement suivant ces deux axes. Dans le cas de l’apprentissage semi–supervisé, il s’agit essentiellement de l’ordonnancement d’instances. Nous allons pré-senter trois principales approches qui consistent à ordonner les exemples non–étiquetésde la base d’apprentissage (principe transductif). Nous aborderons par la suite l’ordon-nancement d’instances et d’alternatives suivant le principe d’apprentissage actif.

4.1 Méthodes d’ordonnancement transductives

4.1.1 ModélisationDans le cadre de l’apprentissage semi–supervisé, l’apprenant possède en plus des

exemples étiquetés SL = {(xi,yi)}ni=1 un ensemble d’instances non–étiquetées SU =

{x′i }n+mi=n+1. D’un point de vue statistique, les instances étiquetées (xi,yi) sont générées

de façon i.i.d. selon une distribution inconnue P(x,y) sur X × Y. Les exemples non–étiquetés x′i , i ∈ {n + 1,..,n + m} sont quant à eux supposés être générés de façon i.i.dselon la distribution marginale P(x).

4.1.2 Paradigme transductif et inductifDans la littérature, il existe deux paradigmes en apprentissage semi–supervisé :

l’apprentissage inductif et transductif. Le cadre transductif s’intéresse uniquement àétiqueter (ou à ordonner dans notre cas) les instances non–étiquetées de la base d’ap-prentissage. Par conséquent, l’évaluation se fait suivant l’habilité du modèle à s’acquit-ter de sa tâche (classification ou ordonnancement) sur les instances non–étiquetées dela base d’apprentissage. Le cadre inductif a un tout autre objectif : le but est de pou-voir ordonner n’importe quel ensemble de données. L’inférence est donc au cœur duparadigme inductif. Comme en apprentissage supervisé, les modèles sont évalués surun ensemble de test qui n’est pas utilisé pendant la phase d’entraînement.

4.1.3 IntuitionLes instances non–étiquetées de SU peuvent nous renseigner sur la distribution

P(x) mais elles ne peuvent en aucun cas lier cette information aux étiquettes de classe.Pour exploiter ce type d’information, nous avons besoin de formuler des hypothèses.En classification, il en existe principalement deux, que nous avons adaptées à l’ordon-nancement.

Hypothèse 1 (cluster assumption). Les instances appartenant à un même regroupe-ment ont vraisemblablement le même degré de pertinence.

Hypothèse 2 (manifold assumption). Les données se trouvent sur une variété de di-mension inférieure à celle de départ (c’est-à–dire X).

4.1 Méthodes d’ordonnancement transductives 63

L’ensemble des algorithmes semi–supervisés sont basés sur l’une des deux hypo-thèses. Ils se distinguent sur la manière de les exploiter.

Concrètement cela se traduit par la définition d’une fonction objectif exprimée surla base d’apprentissage (étiquetée et non–étiquetée). Généralement, cette fonction peutêtre vue comme une erreur calculée sur la base étiquetée à laquelle on a ajouté un termede régularisation. Ce dernier terme est l’expression concrète de l’hypothèse de départ,que l’on prend pour exploiter les données non–étiquetées.

À quelle hypothèse se fier ? La réponse dépend naturellement des caractéristiques dela base. Dans [Chapelle et al., 2006], les résultats montrent qu’il est préférable d’utiliserdes méthodes à base de variété (resp. de regroupement) pour des données présentantune structure de variété (resp. de regroupement). Mais il n’y a généralement aucunindice qui permet de choisir a priori une hypothèse plutôt qu’une autre.

Avantages et difficultés pour le semi–supervisé Nous allons illustrer l’avantage quel’on peut tirer de l’apprentissage semi–supervisé ainsi que des difficultés inhérentes àce type d’apprentissage grâce au théorème du représentant. Ce théorème est énoncéci–dessous :

Théorème 1 (Théorème du représentant). Soit X, un ensemble muni d’un noyau k etun ensemble S = {x1, . . . , xn} ⊂ X, un ensemble fini d’objets. Soit Ψ : Rn+1 → Rune fonction avec n + 1 arguments, strictement monotone et croissante en son dernierargument. Alors toutes les solutions du problème suivant :

argminf∈Hk

Ψ(h(x1), . . . ,h(xn),‖h‖Hk

)(4.1)

avec(Hk,‖.‖Hk

)l’espace RKHS associé à k, admet une représentation de la forme :

∀z ∈ X, h(z) =∑n

i=1 αik(xi,z)

L’apprentissage semi–supervisé revient ainsi à résoudre un problème d’optimisa-tion identique à l’équation 4.1. Les solutions sont des combinaisons linéaires de k(xi,.)avec xi un exemple étiqueté ou non.

∀z ∈ X, h(z) =∑x∈SL

αxk(x,z)︸︷︷︸partie concernant les exemples étiquetés

+∑

x′∈SU

αx′k(x′,z)︸︷︷︸partie concernant les exemples non–étiquetés

Ainsi, en ajoutant les données non–étiquetées, on augmente la dimension de l’es-pace fonctionnel. Ceci constitue un avantage certain par rapport à l’apprentissage su-pervisé (c’est–à–dire sur les exemples étiquetés uniquement). Pour bénéficier de cetavantage, il faut utiliser les données non–étiquetées « correctement » et se fier auxhypothèses de départ. Dans le cas où ces hypothèses ne sont pas conformes, les perfor-mances peuvent même en pâtir.

4.1.4 État de l’artLes travaux existants en apprentissage de fonctions d’ordonnancement avec des

données partiellement étiquetées se sont développés suivant le cadre transductif.


Comme nous le verrons dans la suite, nous nous sommes intéressés à l’apprentissagede fonctions d’ordonnancement semi–supervisé inductif. D’un point de vue pratiqueou théorique, les deux paradigmes sont utiles et, nous le pensons, complémentaires.Notons que la frontière entre les deux n’est pas toujours claire, par exemple en classi-fication la méthode transductive a été facilement étendue pour faire de l’inférence.Une discussion à ce sujet est présentée dans le livre [Chapelle et al., 2006]1. Malgrétout, l’ensemble des méthodes d’ordonnancement semi–supervisé proposées dans l’étatde l’art ne peut pas faire de l’inférence.

Algorithme M

La méthode M [Zhou et al., 2003] est la première méthode transduc-tive proposée pour l’ordonnancement biparti. Elle reste néanmoins une référence in-contournable dans le domaine. Les instances sont supposées se trouver à proximitéd’une variété de dimension inférieure à celle de l’espace d’entrée X. La structure estalors approchée par un graphe formé par les instances de la base d’apprentissage S.Chaque arête est pondérée par une mesure de dissimilarité.L’idée centrale de l’algorithme est d’exploiter la connaissance topologique des donnéeset de propager les scores à travers la structure. À une itération donnée, chaque exemplepropage son score à son voisin. Le processus s’arrête lorsque les scores convergent.L’algorithme est résumé ci–dessous :

Algorithme 7 Algorithme ME: un ensemble d’instances positives S1, d’instances non–étiquetées SU et une

métrique d sur X × X1: Calculer les distances d(xi,x j) entre toutes les instances (xi,x j) ∈ S × S2: Ordonner les distances de façon croissante et parcourir la liste obtenue en connec-

tant successivement les deux points concernés jusqu’à ce que le graphe soitconnexe

3: Calculer la matrice d’affinité définie par Wi j = exp(−d2(xi,x j)/2σ2

)si xi et x j sont

connectés (0 sinon). Notons que Wii = 0 pour éviter les boucles.4: Normaliser la matrice W par S = D−1/2WD−1/2, où D est la matrice diagonale avec

l’élément (i,i) égal à la somme des éléments de la iième colonne de W.5: Initialiser les scores à 1 si l’exemple est pertinent et à 0 dans le cas contraire.6: Répéter f (t+1) = αS f (t) + (1 − α)y jusqu’à ce que f ne varie plus.7: Soit f ∗i la limite de la séquence { f (t)

i }. Ordonner chaque exemple xi en fonction desscores obtenues f ∗i .

Les deux premières étapes permettent de construire le graphe approchant la struc-ture intrinsèque des données. L’étape de normalisation est nécessaire pour démontrerla convergence de l’algorithme général. À l’étape 6, les scores sont propagés aux voi-sins. Le paramètre α permet de pondérer cette contribution. Le vecteur f (t) regroupeles scores f (t)

i de chaque exemple xi de la base. Ils sont initialisés à 1 pour les exemplespertinents et à 0 sinon. L’algorithme exploite uniquement les exemples pertinents de labase étiquetée. En effet, il a été initialement proposé dans le cas où la base ne contientque des données pertinentes et des données non étiquetées. Nous pouvons facilementétendre cet algorithme au cas biparti en considérant les exemples non–pertinent comme

1http ://www.kyb.tuebingen.mpg.de/ssl-book/discussion.pdf


non–étiquetés. Notons que des travaux ont essayé d’exploiter plus efficacement les don-nées non–pertinentes (cf. par exemple [He et al., 2004]).

Complexité L’algorithme a l’avantage d’être à la fois intuitif et facile à mettre enœuvre. La méthode nécessite de calculer la distance entre chaque paire d’instances, cequi nécessite O((n+m)2) opérations. Ensuite, chaque itération induit une multiplicationmatricielle. Comme la matrice S est une matrice creuse par construction, l’étape estpeu coûteuse. Finalement, nous pouvons retenir que la complexité algorithmique deM est quadratique en nombre d’instances, étiquetées ou non.

complexité[M] = O((n + m)2)

Soulignons que cette complexité ne prend pas totalement en compte la constructiondu graphe (l’étape 2 notamment).

S sur une structure de variété

Récemment, S. Agarwal a étendu les pour l’ordonnancement transductif [Agar-wal, 2006]. Cette méthode peut être vue comme une extension des méthodes de classi-fication semi–supervisée proposées dans les articles de M. Belkin [Belkin et al., 2006]et de D. Zhou [Zhou and Schölkopf, 2005; Zhou and Schölkopf, 2004]. Notons quele cadre utilisé concerne plus généralement l’ordonnancement d’instances, mais nousallons présenter la méthode uniquement pour le cas biparti.

L’auteur suppose l’existence d’un graphe dont les sommets représentent les ins-tances et les arêtes sont pondérées par une mesure de dissimilarité entre instances.Comme vu précédemment, cette représentation découle de l’hypothèse de variété. Elleintervient aussi naturellement dans certains domaines comme la bio–informatique oùil est plus facile de caractériser les similarités entre objets que l’objet lui–même.

Formalisation Le principe est de trouver des scores qui minimisent l’erreur d’ordon-nancement sur l’ensemble étiqueté tout en étant lisses sur le graphe. Autrement dit, lesscores entre deux instances connectées ne doivent pas subir de forte variation. Pouratteindre cet objectif, l’auteur [Agarwal, 2006] propose de régulariser l’erreur super-visée avec un terme qui pénalise les fortes variations du score entre deux instancesconnectées.

minf :S→R

∑x∈S1

∑x′∈S−1

[[1 − f (x) + f (x′)]]+ + λS( f )

(4.2)

Notons que l’étude se consacre uniquement au cadre transductif. La fonction est ainsidéfinie sur l’ensemble d’apprentissage et non sur l’ensemble des instances X.

En classification semi–supervisée, la définition du régulariseur a été étudiée pour laclassification semi–supervisée [Zhou and Schölkopf, 2004; Belkin and Niyogi, 2007] etpeut être utilisée en ordonnancement. Ainsi la fonction de coût définie sur les instancesétiquetées permet de caractériser la tâche traitée (classification ou ordonnancement).


Un régulariseur possible est le Laplacien non normalisé, L = D−W, les matrices D etW sont définies comme dans la section précédente :

S( f ) =∑xi∼x j

ωi j

(fi − f j

)2

= fT Lf

avec fi le score de l’exemple xi, ωi j la dissimilarité entre xi et x j et xi ∼ x j signifiantque les deux exemples sont connectés.

Sous cette forme, si deux exemples sont dissimilaires alors ωi j prend une valeurrelativement importante. Ainsi lors de l’optimisation de la fonction coût (cf. équation4.2), la contrainte ( fi − f j)2 est renforcée. Les scores ainsi trouvés tendent à être lissessur le graphe.

Dans la littérature, on trouve aussi une autre version du régulariseur utilisant leLaplacien normalisé Ln = D− 1

2 LD− 12 , ce qui conduit à la définition suivante :

S( f ) =∑xi∼x j

ωi j

fi√

di−

f j√d j

2

Optimisation Le problème d’optimisation peut se résoudre en introduisant descontraintes (forme primale) et en notant C = 1

2λ :

minf∈Rn+m

12

fT Lf + C∑

i:xi∈S1

∑j:x j∈S−1

ξi j

(4.3)

sc ∀(i, j) , ξi j ≥ 1 − ( fi − f j)∀(i, j) , ξi j ≥ 0

En passant par les multiplicateurs de Lagrange, on obtient sa forme duale (cf. équa-tion 4.4). Pour plus de clarté, la notation dans les sommes est incomplète : elles se fontsur les paires critiques. L+

i j est (i, j) élément du pseudo–inverse de Ln

minαi j

12

∑(i, j)

∑(k,l)

αi jαkl.φ(i, j,k,l) −∑(i, j)

αi j

(4.4)

sc 0 ≤ αi j ≤ Cφ(i, j,k,l) = L+

ik − L+jk − L+

il + L+jl

Complexité Cette méthode est ainsi plus complexe que la précédente mais elle peuttraiter le cadre plus général de l’ordonnancement d’instances. Elle nécessite de calculerl’ensemble des dissimilarités entre paires d’instances et l’inversion d’une matrice, quiest une opération très coûteuse. Sa complexité est pratiquement cubique en nombred’instances étiquetées ou non (ou plus exactement par rapport au rang de la matrice Ln).L’optimisation peut ensuite être faite avec un solveur quadratique dont la complexitéest au moins quadratique en nombre de contraintes.


complexité[S] = O((n + m)3)

Changement de représentation

Une autre piste, couramment explorée en apprentissage semi–supervisé est dechanger la représentation initiale des données en tenant en compte des données non–étiquetées [Chapelle et al., 2002]. Au lieu d’optimiser en même temps l’erreur sur labase étiquetée et le terme de régularisation, on peut décomposer la stratégie en deuxétapes distinctes :

1. Estimer une nouvelle représentation des données étiquetées en utilisant les don-nées non–étiquetées.

2. Apprendre une fonction d’ordonnancement sur la base étiquetée avec la nouvellereprésentation.

L’idée est de trouver une nouvelle représentation telle que les distances entre les don-nées (nouvellement représentées) respectent l’hypothèse de variété ou de cluster. Parexemple, la distance entre deux exemples dans un même cluster devrait être petiteavec la nouvelle représentation. Notons que pour des méthodes telles que les , l’ap-prentissage ne nécessite pas explicitement la nouvelle représentation des données maisseulement le produit scalaire entre elles. Le produit scalaire fait alors référence à desnoyaux. Plusieurs nouvelles représentations ou noyaux ont été proposés :

– Noyau basé sur les marches aléatoires. Dans ce cas, l’algorithme définit uneprobabilité de passer d’une instance xi à x j par pi j =

ωi j∑j ωi j

.ωi j définit une mesurede dissimilarité comme dans la section précédente. On peut ainsi définir unesimilarité entre deux instances xi et x j par la probabilité de partir de xi et d’arriverau second point x j en t étapes 2. Le principe est alors d’en définir un noyau.

– Représentation basée sur une réduction dimensionnelle. Une autre idée est d’uti-liser simplement un algorithme de réduction dimensionnelle sur l’ensemble dela base d’apprentissage comme dans [Duh and Kirchhoff, 2008].

– Noyau à base de l’algorithme de partitionnement –. Le but est ici de chan-ger le noyau ou la similarité k(xi,x j) entre deux exemples étiquetés. Nous pou-vons pondérer la valeur du noyau par la probabilité que xi et x j appartiennent àune même partition. Un algorithme3 de propagation est alors appliqué pour trou-ver les scores.

Remarquons que seuls les travaux de [Duh and Kirchhoff, 2008] concernent uncadre proche de l’ordonnancement biparti, mais ces algorithmes peuvent être facile-ment adaptés au cadre de l’ordonnancement d’instances en général. L’ensemble de cesméthodes est néanmoins coûteux puisque le calcul de ces approches a une complexitéau moins quadratique voire cubique en nombre d’exemples. Dans certains cas, une mé-thode approchée peut être utilisée pour réduire la complexité. Sans approximation, ellereste néanmoins quadratique.

complexité[NR] = O((n + m)2)

2t est un paramètre de l’algorithme3Notons que cet algorithme est légèrement différent puisqu’on n’utilise pas, à la fin, un algorithme super-

visé mais un algorithme transductif.


4.1.5 Protocole expérimentalNous pouvons noter que le protocole expérimental [Chapelle et al., 2006] générale-

ment utilisé en apprentissage semi–supervisé mérite quelques commentaires. En effet,le réglage des méta–paramètres se fait en minimisant l’erreur de test. Cette erreur estmoyennée sur plusieurs partitions – ensemble étiqueté/ ensemble non–étiqueté – for-mées de façon aléatoire. Cette procédure reste justifiée, mais les résultats permettentde jauger uniquement le potentiel d’un algorithme.

En effet, la plupart des travaux cherchent principalement à exploiter efficacementles données non–étiquetées. Le réglage des hyper–paramètres est difficile en soi, puis-qu’elle repose sur un nombre très faible de données étiquetées. Pour tester les algo-rithmes, les principaux travaux suivent principalement ce protocole ou fixent les para-mètres par défaut. Dans les deux cas, c’est bien le potentiel des méthodes qui est évaluéet non leur utilisation réelle.

4.1.6 RésuméLes travaux proposés en ordonnancement semi–supervisé ont tous été réalisés sous

le paradigme transductif, et ne peuvent qu’ordonner les instances observées pendantl’apprentissage. De plus, les algorithmes proposés ont une complexité au moins qua-dratique et au plus cubique en nombre d’instances de la base d’apprentissage. Il estclair, qu’ils ne peuvent pas passer à l’échelle. Comme souligné dans [Weston, 2007],l’information contenue dans un exemple non–étiqueté est moindre que dans un exempleétiqueté. Par conséquent, pour avoir un impact important, il faut une grande quantitéde données non–étiquetées.

Notons aussi que la majorité des méthodes semi–supervisées ont des paramètressupplémentaires par rapport aux méthodes supervisées. En général, nous avons un co-efficient qui pondère l’apport des données non–étiquetées. Ces paramètres induisentmalheureusement des expériences supplémentaires. D’un point de vue pratique, il peutêtre intéressant d’avoir des méthodes semi–supervisées « rapides » pour accélérer laphase d’apprentissage et celui du réglage des méta–paramètres.

4.2 Méthodes d’apprentissage actif pour l’ordonnance-ment

À présent, nous allons aborder l’apprentissage actif. Rappelons que ce paradigmevise à réduire le coût d’étiquetage en sélectionnant de façon intelligente les exemplesà étiqueter. L’objectif est d’obtenir des bonnes performances avec le moins possibled’exemples d’apprentissage. En classification, il existe deux scénarios différents : (i)les approches constructives (membership query synthesis) et (ii) les approches sélec-tives (selective sampling) (cf. l’état de l’art proposé par B. Settles [Settles, 2009]).

Les approches constructives consistent à demander des étiquettes pour n’importequelles données de l’espace de départ. En particulier, l’algorithme peut construire defaçon synthétique des exemples. Ce cadre présenté dans [Angluin, 1988] permet d’ex-plorer n’importe quel recoin de l’espace de départ. Il est particulièrement bien adaptépour des espaces finis. Par contre, il l’est beaucoup moins pour des espaces infinis ou

4.2 Méthodes d’apprentissage actif pour l’ordonnancement 69

lorsque l’ensemble des données ne recouvre pas l’espace de départ. Pour les applica-tions de recherche ou de filtrage d’information, les exemples appartiennent générale-ment à un sous espace vectoriel X strictement inclus dans Rd. L’algorithme peut ainsicréer des exemples n’appartenant pas à X. Pour des applications de reconnaissances decaractères, les exemples synthétiques produits peuvent contenir des caractères illisibles.

La deuxième approche [Cohn et al., 1994] permet de résoudre ce problème en sefocalisant uniquement sur les données non–étiquetées disponibles. Ces exemples sontsupposés provenir de la même source que les exemples étiquetés. Cette approche estillustrée par la figure 4.1 et peut se résumer de la manière suivante : l’algorithme d’ap-prentissage dispose au départ d’un petit nombre d’exemples étiquetés, puis (a) demandeune étiquette pour quelques exemples choisis judicieusement et (b) incorpore les infor-mations obtenues pour choisir des nouveaux exemples (étape (a)) et ainsi de suite.

SL + méthode d’apprentissage module de sélection

SU

étiquetage

x

(x,y)

étape (b)

étape (a)

F. 4.1 – Illustration de l’approche sélective en apprentissage actif

Nous allons présenter les méthodes d’apprentissage actif développées pour la tâched’ordonnancement. Elles utilisent uniquement l’approche sélective et se différencientsur la manière de sélectionner les exemples à étiqueter. Comme pour l’apprentissagesemi–supervisé, elles s’inspirent directement de ce qui a été fait en classification. Iln’est donc pas étonnant de retrouver les principales familles de classification active :les stratégies basées sur une mesure de fiabilité (uncertainty sampling), celles baséessur une estimation de la réduction de l’erreur (estimated error reduction) ou cellesbasées sur d’autres critères comme la diversité.

4.2.1 Stratégie basée sur une mesure de fiabilitéComme son nom l’indique, cette stratégie se base sur une quantité Q qui mesure la

fiabilité dans le score donné par le modèle pour un exemple non–étiqueté. Le principeest de sélectionner l’exemple dont la sortie est la moins sûre, c’est–à–dire celui quiminimise Q. En classification, [Tong and Koller, 2001] et [Campbell et al., 2000] pro-posent pour les de choisir les exemples se trouvant près de la frontière de décision.


La mesure de fiabilité est alors égale à la marge de l’exemple : Q(x) = | f (x)|.

Dans [Brinker, 2004] et [Yu, 2005], les auteurs ont proposé de transposer cettestratégie à l’ordonnancement d’alternatives. Notons que dans leurs études ont concernéun ordre total et non un ordre partiel sur les alternatives. La marge ne concerne plusun exemple mais une paire critique. Les auteurs étendent alors la marge d’une pairecritique pour une paire quelconque d’instances non–étiquetées.

Définition 2 (marge étendue). La marge étendue pour une entrée x et deux alternativesa et a′ est définie par :

δx(a,a′) =∣∣∣∣wTψ(x,a) − wTψ(x,a′)

∣∣∣∣avec ψ(x,a) la représentation jointe entre l’entrée x et l’alternative a.

Les travaux de [Yu, 2005] et de [Brinker, 2004] se différencient sur la sélectiondes données à étiqueter. Dans [Yu, 2005], il s’agit de sélectionner un nombre fixe decouples entrée–alternative de façon similaire à la classification. Dans [Brinker, 2004],l’auteur choisit plutôt une entrée et étiquette l’ensemble des couples entrée/alternativecorrespondants. Ces deux méthodes de sélection conduisent à définir des mesures decertitude différentes (cf. table 4.1).

type d’ordonnancement nature des entités sélectionnées mesure de certitudealternatives couple entrée/alternative Q(x,a,a′) = δx(a,a′)alternatives entrée Q(x) = mina,a′ Q(x,a,a′)instances instances Q(x,x′) = |h(x) − h(x′)|

T. 4.1 – Tableau récapitulatif des mesures de certitude pour l’ordonnancement actif

Remarques

Les travaux de [Yu, 2005] et de [Brinker, 2004] concernent exclusivement l’or-donnancement d’alternatives. Mais la définition de cette mesure peut facilement êtreétendue à l’ordonnancement d’instances en considérant simplement la différence envaleur absolue des scores entre deux exemples non–étiquetés (cf. table 4.1).

Cependant, les stratégies utilisant cette notion de marge sélectionnent en prioritéles exemples ayant des scores similaires, même si ces deux exemples ont le même ju-gement de pertinence. Intuitivement, cette approche ne semble pas être optimale pourle cas biparti. Mais elles bénéficient d’une faible complexité. Elles nécessitent le calculdes scores. La sélection se fait ensuite en faisant une passe sur les scores des exemplesnon–étiquetés, une fois ordonnés. Expérimentalement, les résultats ont montré que cesméthodes permettent de constituer des bases plus efficacement qu’une stratégie aléa-toire.

4.2.2 Stratégie basée sur l’estimation du gradientUne autre stratégie pour l’apprentissage actif est de sélectionner l’exemple, qui

provoquerait le plus grand changement du modèle courant. Ce changement dépend na-turellement de l’étiquette de l’exemple sélectionné, mais elle n’est pas connue à ce

4.2 Méthodes d’apprentissage actif pour l’ordonnancement 71

stade de l’algorithme. La sélection se base alors sur l’espérance de ce changement (parrapport à l’étiquette).

La manière la plus simple de mesurer ce changement est de prendre la norme dugradient de la fonction objectif R (majorant continu et presque partout différentiable,cf. section 2.1.2) . Pour être plus précis, le gradient correspond à celui de la fonctionobjectif calculée avec le modèle courant sur la base d’apprentissage augmentée. Lasélection se fait en prenant l’exemple qui, une fois ajouté à la base d’apprentissage,maximise l’espérance de ce terme.

x∗ = argmaxx∈SU

∑y

P(y|x; h).∥∥∥∇R

(h,SL ∪ (x,y)

∥∥∥2

Cette famille de méthodes dépend uniquement du gradient de la fonction objec-tif utilisée. Elle peut donc facilement être adaptée à l’ordonnancement en considérantl’erreur de classification sur les paires critiques. Récemment, [Donmez and Carbonell,2008] a adapté cette approche pour l’ordonnancement d’alternatives dans le cas biparti.Dans [Donmez and Carbonell, 2009], les auteurs ont proposé une variante de cettestratégie : l’exemple choisi est celui qui permet de diminuer une fonction approchéede l’erreur d’ordonnancement. Pour un exemple non–étiqueté, l’erreur est mesurée surla base d’apprentissage auquel on ajoute l’exemple non–étiqueté muni d’un degré depertinence.

Remarques

Ces stratégies nécessitent l’estimation des probabilités a posteriori P(y|x). Cetteestimation n’est pas toujours évidente, d’autant plus que le nombre de données étique-tées est censé être limité. Les auteurs de [Donmez and Carbonell, 2008] proposent del’estimer avec une fonction sigmoïde :

P(y|x) =1

1 + exp (−y. f (x) + C)

La valeur de C est alors apprise sur une autre base de données. Dans la pratique, cettebase n’est pas disponible, ce qui rend cette approche peu réaliste. Dans [Donmez andCarbonell, 2009], ils proposent d’utiliser une heuristique mais introduisent dans le cri-tère de sélection un paramètre supplémentaire. De plus, les modèles utilisant cette stra-tégie peuvent être coûteux pour des espaces de grande dimension.

4.2.3 RésuméNous avons présenté plusieurs méthodes pour l’ordonnancement actif. Contraire-

ment au cadre semi–supervisé, ces méthodes ont été développées pour l’ordonnance-ment d’alternatives. Pour cette tâche, il existe deux types d’étiquetage : le premierconcerne uniquement une entrée et une alternative alors que le deuxième concernetoutes les alternatives par rapport à une entrée donnée. Les premières méthodes uti-lisent une mesure d’incertitude tandis que les plus récentes sélectionnent les exemplesqui semblent changer le plus le modèle courant. Expérimentalement, ces dernières mé-thodes semblent être plus compétitives mais souffrent d’une plus grande complexité.


4.3 BilanDans ce chapitre, nous avons fait un survol des méthodes proposées en ordonnan-

cement actif et semi–supervisé. Comme en classification, la majorité des méthodes enordonnancement semi–supervisé formulent des hypothèses fortes sur la distributionmarginale pour exploiter les données non–étiquetées. Une autre approche consiste àapprendre une nouvelle représentation des données étiquetées à l’aide de celles quine le sont pas. Dans le premier cas, les études se sont limitées à l’ordonnancementd’instances. Elles peuvent être généralisées à l’ordonnancement d’alternatives maisau risque de rajouter des paramètres4. De plus, les alternatives par requête ne sontgénéralement pas assez nombreuses pour avoir une bonne estimation des différentesdistributions. La deuxième approche ne souffre pas de cette inconvénience. Cependantl’ensemble de ces méthodes sont transductives et ne passent pas facilement à l’échelle.

L’apprentissage actif concerne essentiellement l’ordonnancement d’alternatives.Ces méthodes ont été motivées par les moteurs de recherche. Nous trouvons dans lalittérature deux déclinaisons de l’ordonnancement actif. La première consiste à sélec-tionner une entrée et à étiqueter l’ensemble des alternatives associées. Elle convient parexemple au résumé automatique, où une entrée représente un document et les alterna-tives les passages qui le composent. L’étiquetage consiste à résumer un document. Ladeuxième déclinaison cherche à sélectionner uniquement une paire entrée–alternative.L’utilisateur indique si l’alternative est pertinente ou non par rapport à cette entrée.Cette formulation peut facilement être adaptée à l’ordonnancement d’instances. Quelleque soit la déclinaison, les méthodes de base sélectionnent les entités à étiqueter avecune notion de marge étendue. Mais elle est définie sur une paire d’exemples non–étiquetés, ce qui n’est pas optimal pour l’apprentissage actif.

4pour chaque terme de régularisation associé à une requête

Deuxième partie

Apprentissage de fonctionsd’ordonnancement avec des

données partiellement étiquetées

5Ordonnancement semi–supervisé

Sommaire5.1 Algorithme de boosting : B . . . . . . . . . . . . . . . . . 76

5.1.1 Exploitation du voisinage local des données étiquetées . . 765.1.2 Modèle proposé . . . . . . . . . . . . . . . . . . . . . . . 775.1.3 Complexité . . . . . . . . . . . . . . . . . . . . . . . . . 815.1.4 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.2 Modèles auto–apprenants : R et . . . . . . . . . 825.2.1 Principe de l’auto–apprentissage en–ligne . . . . . . . . . 825.2.2 Algorithme R pour l’ordonnancement semi–supervisé 835.2.3 Variante batch de R : la méthode . . . . . 865.2.4 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

Nous avons vu dans le chapitre I que l’ensemble des techniques d’apprentissagesemi–supervisé de fonctions d’ordonnancement a été développé suivant le cadre

transductif. En pratique, deux difficultés majeures freinent leur utilisation en Recherched’Information. D’une part, elles sont toutes transductives et ne peuvent pas traiter desexemples non vus en apprentissage. Ce fonctionnement est particulièrement probléma-tique pour les systèmes soumis à un flux constant de données en entrée. D’autre part,ces applications sont souvent amenées à traiter de très grandes quantités de données.Or, elles ne peuvent pas passer à l’échelle à cause d’une complexité algorithmiquetrop élevée. Elle est généralement quadratique voire cubique par rapport au nombred’exemples étiquetés et non étiquetés. Cette limitation est en contradiction avec la mo-tivation première des méthodes semi–supervisées : l’exploitation d’une grande quantitéde données non étiquetées pendant la phase l’apprentissage.

Dans ce chapitre, nous décrirons nos approches pour paliler ces deux problèmesdans le cas de l’ordonnancement biparti. Nous supposons ainsi que l’utilisateur évalueles entrées comme ou – par rapport à une thématique donnée.En premier, nous avons étendu l’algorithme B pour prendre en compte desdonnées non–étiquetées additionnelles en leur donnant une étiquette a priori à l’ap-prentissage. Pour ce faire, nous nous remettons à une méthode non–supervisée (section5.1). Cette technique construit ainsi une fonction de score inductive comme dans le cassupervisé mais travaille uniquement sur les données non–étiquetées qui ont été étique-tées à l’avance. Nous présentons ensuite une autre méthode, R, capable de traiter

76 Ordonnancement semi–supervisé

les données non étiquetées à la volée. Elle sera décrite à la section 5.2. Son principalatout est sa capacité à prendre en compte les données non–étiquetées qui arrivent enflux continu. Ce type d’apprentissage semi-supervisé en–ligne pour l’ordonnancementest particulièrement adapté pour des applications en RI comme le routage d’informa-tion (que nous présenterons à la partie III de ce manuscrit).

5.1 Algorithme de boosting : BNotre extension de B est basée sur l’exploitation du voisinage local des

données étiquetées [Amini et al., 2008b]. Ce dernier se traduit par la formation d’unebase étiquetée par un algorithme non–supervisé. L’algorithme sélectionne les exemplesnon–étiquetés se trouvant au voisinage d’un exemple étiqueté et leur donne la mêmeétiquette de pertinence.

La méthode proposée minimise alors le nombre moyen d’instances non–pertinentesordonnées au–dessus d’instances pertinentes séparément dans ces deux bases. Contrai-rement aux méthodes à base de graphe, nous ne cherchons pas à régulariser la fonctionobjectif avec un terme de lissage. Cette régularisation peut en effet aboutir dans le caslinéaire à une solution dégradée (w ≈ 0) [Truong et al., 2008].

Dans la suite de cette section, nous définissons dans un premier temps la fonctionobjectif en tenant compte des données non–étiquetées rajoutées par cette exploitationdu voisinage local. Nous présentons ensuite une extension de l’algorithme Bpour minimiser cette fonction objectif.

5.1.1 Exploitation du voisinage local des données étiquetéesNotre but est de chercher une fonction, qui donne des scores divergents aux

exemples qui « semblent » avoir des degrés de pertinence différentes. Pour cela, nousreformulons l’hypothèse cluster assumption localement autour des exemples étiquetés :

Hypothèse 3 (local cluster assumption). Les données étiquetées similaires à unexemple étiqueté de la base ont vraisemblablement le même degré de préférence.

En suivant cette hypothèse, nous propageons dans un premier temps le degré depertinence des exemples étiquetés sur la base d’apprentissage. Nous apprenons ensuiteune nouvelle fonction sur la base étiquetée et sur les exemples de SU munis de leurnouvelle étiquette. Notons que le modèle résultant peut pâtir des erreurs d’étiquetage.Pour limiter leurs effets, nous proposons de minimiser l’erreur d’ordonnancement surles deux bases séparément.

En notant, A, l’algorithme de propagation des étiquettes, la fonction objectif àminimiser prend la forme suivante :

R(h,SL ∪ SU) =1

|T (SL)|

∑(x,x′)∈T (SL)

[[h(x) ≤ h(x′)]]︸︷︷︸erreur supervisée d’ordonnancement

+λ∣∣∣T (S′L)

∣∣∣ ∑(x,x′)∈T (S′L)

[[h(x) ≤ h(x′)]]

︸︷︷︸erreur sur des exemples non–étiquetés

avec S′L = A(SL), la base étiquetée obtenue par propagation des degrés de pertinence,T (S) l’ensemble des paires critiques contenues dans S et λ un réel qui pondère l’apport

5.1 Algorithme de boosting : B 77

des données non–étiquetées. Pour une valeur nulle, nous retrouvons le cadre superviséde l’ordonnancement. Notons que la fonction objectif a une forme similaire à cellesdes fonctions rencontrées en classification semi–supervisée [Weston, 2007].

5.1.2 Modèle proposéComme en apprentissage supervisé, la résolution du problème d’apprentissage

passe par l’utilisation d’une fonction perte convexe qui majore la fonction indicatrice[[x]]. Avec une fonction exponentielle, l’erreur induite sur la base d’apprentissage semet sous la forme suivante :

R(h,SL ∪ SU) =1

n+n−

∑(x,x′)∈T (SL)

eh(x′)−h(x) +λ∣∣∣T (S′L)

∣∣∣ ∑(x,x′)∈T (S′L)

eh(x′)−h(x)

Dans ce cas, nous allons maintenir deux distributions Dt et D′t sur les paires cri-tiques de SL et S′L. Au commencement, les distributions sont supposées uniformes :

∀(x,x′) ∈ T (SL), D(x,x′) =1|SL|

∀(x,x′) ∈ T (S′L), D′(x,x′) =1|S′L|

À chaque itération t, les distributions sont alors modifiées pour donner plus de poidsaux paires critiques difficiles à ordonner. Le poids de chaque paire critique dépend ainside ht : Si ht arrive à ordonner correctement la paire, le poids diminue. Dans le cascontraire, il augmente. Les équations suivantes résument les règles de modification desdeux distributions :

∀(x,x′) ∈ T (SL), Dt+1(x,x′) =Dt(x,x′) exp

(αt(ht(x) − ht(x′)

)Zt

(5.1)

∀(x,x′) ∈ T (S′L), Dt+1(x,x′) =Dt(x,x′) exp

(αt(ht(x) − ht(x′)

)Zt

(5.2)

Le pseudo–code de cette méthode de boosting est décrit par l’algorithme 8. Dansle cas biparti, la complexité de l’algorithme peut être réduite en maintenant des poidssur chaque exemple étiqueté :

∀(x,x′) ∈ T (SL), Dt(x,x′) = νt(x)νt(x′) (5.3)∀(x,x′) ∈ T (S′L), Dt(x,x′) = νt(x)νt(x′) (5.4)

En utilisant la propriété d’homéomorphisme de la fonction exponentielle, nous pou-vons montrer facilement que Zt = Z+

t .Z−t avec

Z+t =

∑x′∈S−1

νt(x′).e−αtht

Z−t =∑x∈S1

νt(x).eα′t ht


Algorithme 8 B semi–superviséE: une base étiquetée SL

une base étiquetée S′L1: D1 = D2: D1 = D3: pour t=1,. . .,T faire4: Apprendre un modèle faible ht avec les distributions Dt et Dt


6: Mettre à jour les distributions sur SL et sur S′L :

∀(x,x′) ∈ T (SL), Dt+1(x,x′) =Dt(x,x′) exp


)Zt

∀(x,x′) ∈ T (S′L), Dt+1(x,x′) =Dt(x,x′) exp


)Zt

avec Zt et Zt des facteurs de normalisation.7: fin pour

S: h(x) =∑T

i=1 αtht(x)

Nous avons une égalité similaire avec le facteur de normalisation correspondant auxexemples non–étiquetés Zt. Nous en déduisons que les égalités dans les équations 5.3et 5.4 sont préservées lors de la mise à jour des distributions (équations 5.1 et 5.2)et sont aussi vraies à l’itération t + 1. Par conséquent, les poids νt et νt permettent deconsidérer les exemples et non plus les paires critiques. L’algorithme 9 décrit la versionde notre méthode spécifique à l’ordonnancement biparti.

Détermination du poids αt

Nous pouvons remarquer qu’à l’itération t, l’erreur exponentielle s’exprime enfonction des facteurs de normalisation :

R(Ht,SL,S′L)t =

t∏u=1

Zu + λ

t∏u=1

Zu

avec Ht =∑t

u=1 αuhu.

Le poids αt est donc choisi en minimisant cette erreur. Elle peut se décomposer endes termes dépendant des itérations précédentes et des termes qui dépendent unique-ment de l’étape t :

R(h,SL,S′L)t = At−1.Zt + λBt−1.Zt

avec At−1 =∏t−1

u=1 Zu et Bt−1 =∏t−1

u=1 Zu.

D’après l’inégalité de Jensen et comme dans le cas supervisé (cf. équation 3.4),nous pouvons majorer l’erreur par :

R(h,SL,S′L) ≤ At−1

[(1 − rt

2

)eαt +

(1 + rt

2

)e−αt

](5.5)


+λBt−1

[(1 − rt

2

)eαt +

(1 + rt

2

)e−αt

]avec :

rt =∑

(x,x′)∈T (SL)

Dt(x,x′)(ht(x′) − ht(x)

rt =∑

(x,x′)∈T (S′L)

Dt(x,x′)(ht(x′) − ht(x)

Cette borne peut être minimisée de façon exacte et la solution est donnée par l’équa-tion suivante :

α∗t =12

lnAt−1(1 + rt) + λBt−1(1 + rt)At−1(1 − rt) + λBt−1(1 − rt)

(5.6)

La solution est ainsi plus compliquée pour l’apprentissage semi–supervisé que su-pervisé. αt ne dépendait que des termes indexés à l’itération t. Dans notre cas, il dépendaussi de At−1 et de Bt−1. Pour λ = 0 (cas supervisé), nous retrouvons bien la mise à jourdu poids utilisée par B.

Notons que cette démarche est valide si les termes rt et rt ont des valeurs entre −1et 1. Cette condition est vérifiée pour des fonctions non triviales retournant des scoresentre 0 et 1. Dans la section suivante, nous allons présenter l’apprentissage de cesfonctions sur la base d’apprentissage en considérant des apprenants peu performants(comme au chapitre 3).

Apprentissage d’une fonction d’ordonnancement peu performante

Nous allons maintenant étendre l’apprentissage de fonctions score peu perfor-mantes au cadre semi–supervisé. Nous utilisons les fonctions de base introduite dans[Freund et al., 2003]. Mais contrairement au cas supervisé, nous supposons que toutesles composantes sont connues. Ces fonctions sont définies par rapport aux composantesdu vecteur x. Nous gardons la même notation que dans la section 3.4 : f j(x) représentela jième composante ou caractéristique de x. Les fonctions de base sont définies par :

h j,θ =

{1 si f j(x) ≥ θ0 sinon

avec θ une valeur dans l’ensemble des seuils {θk}Kk=1, ordonnés dans l’ordre décroissant.

L’apprentissage consiste à faire une recherche exhaustive sur les fonctions de basepour minimiser l’erreur d’ordonnancement pondérée par Dt et Dt. En introduisant ladéfinition de α (équation 5.6) dans l’équation 5.5, nous obtenons une nouvelle bornede l’erreur exponentielle commise par la fonction score h(x) =

∑tu=1 hu(x) :

R(h,SL,S′L) ≤

√(At−1 +λBt−1)2− (At−1rt +λBt−1rt)2

La minimisation de la borne revient à maximiser∣∣∣At−1rt + λBt−1rt

∣∣∣.Bien qu’exhaustive, la recherche de la solution peut se faire efficacement. Pour cela,

nous utilisons la stratégie utilisée par B. Par soucis de clarté, nous enlevons


Algorithme 9 B semi–supervisé pour l’ordonnancement bipartiE: une base étiquetée SL = S1 ∪ S−1

une base étiquetée S′L = S′1 ∪ S′−1 obtenue parA

1: Initialisation :

ν0(x) =

{1/ |S1| si x ∈ S11/ |S−1| si x ∈ S−1

ν0(x) =

{1/

∣∣∣S′1∣∣∣ si x ∈ S′11/

∣∣∣S′−1

∣∣∣ si x ∈ S′−1

2: pour t=1,. . .,T faire3: Apprendre un modèle faible ht en utilisant νt et νt


5: Mettre à jour la distribution sur SL :

νt+1(x) =

νt(x) exp(−αtht(x))Z+

tsi x ∈ S1

νt(x) exp(αtht(x))Z−t

si x ∈ S−1

avec Z+t et Z−t des facteurs de normalisation de νt sur S1 et S−1 :

6: Mettre à jour la distribution sur S′L :

νt+1(x) =

νt(x) exp(−αtht(x))

Zt+ si x ∈ S′1

νt(x) exp(αtht(x))Zt− si x ∈ S′

−1

avec Zt+

et Zt−

des facteurs de normalisation de νt sur S′1 et S′−1 :

7: Mettre à jour les facteurs de normalisation :

Z+t =

∑x∈S1


)Z−t =

∑x∈S−1

νt(x) exp(αtht(x)

)Zt

+=

∑x∈S′1


)Zt−

=∑

x∈S′−1νt(x) exp

(αtht(x)

)8: fin pour

l’indice t dans la notation.

Ar + λBr peut s’écrire en fonction de ν, ν et h :

Ar + λBr = A∑

(x,x′)∈SL

ν(x)ν(x′(h(x) − h(x′))

+ λB∑

(x,x′)∈T (S′L)

ν(x)ν(x′)(h(x′) − h(x′))

Comme h est une fonction dans {0,1} et que la somme des poids de ν (resp. ν) surS1 (resp. S′1) et sur S−1 (resp. S′

−1), l’équation peut s’écrire sous la forme suivante :

Ar + λBr = A∑

x| f j(x)>θ

yν(x) + λB∑

x′ | f j(x′)>θ

y′ν(x′)


La méthode de recherche est décrite par l’algorithme 10. Pour chaque composantej ∈ {1, . . . ,d}, l’algorithme évalue |Ar +λBr| pour chaque seuil θk (dans l’ordre décrois-sant) et garde en mémoire les valeurs j∗ et θ∗, qui le maximisent.

Algorithme 10 Apprentissage d’une fonction score peu performante semi–superviséeE: Un ensemble de poids ν sur SL

Un ensemble de poids ν sur S′LUn ensemble de fonctions caractéristiques f j

Pour chaque f j, un ensemble de seuils {θk}Kk=1 ordonné de façon croissante :

θ1 ≥ . . . θK

A,B et λ1: r∗ ← 02: pour j=1,. . .,d faire3: L← 04: pour k=1,. . .,K faire5: L← L + A

∑x| f j(x)∈[θk−1,θk[ yν(x) + B

∑x| f j(x)∈[θk−1,θk[ yν(x)

6: si |L| > r∗ alors7: r∗ ← L8: j∗ ← j9: θ∗ ← θk

10: finsi11: fin pour12: fin pourS: h j∗,θ∗

5.1.3 ComplexitéÀ chaque itération, l’algorithme B apprend une fonction score peu perfor-

mante, met à jour les poids ν et ν et calcule les termes At et Bt pour estimer α. D’aprèsla section précédente, la recherche exhaustive de la fonction de base optimale peut sefaire seulement en O (K.d.(n + n′)) opérations, avec n′ le nombre d’exemples étiquetésparA. Cette étape est la plus coûteuse à chaque itération.

Nous en déduisons la complexité totale de l’algorithme :

complexité[B] = O (d.K.(n + n′)) + complexité[A]

Si nous utilisons les k plus proches voisins pour étiqueter, l’algorithme doit calculerla distance entre chaque exemple non–étiqueté et chaque exemple étiqueté (O(d.n.m))et doit maintenir pour chaque exemple étiqueté les k plus proches (O(k.log.k)). La com-plexité totale est dominée par l’étape de recherche exhaustive et le calcul des produitsscalaires lorsque k est faible, soit :

complexité[-B] = O (d.K.k.n + d.n.m)

La complexité est ainsi linéaire par rapport à l’ensemble des paramètres du modèle.


5.1.4 RésuméNous avons proposé une méthode à base de boosting capable d’exploiter avan-

tageusement les données non–étiquetées. Les expériences que nous avons conduites(chapitre 7) montrent clairement l’apport des données non–étiquetées dans l’appren-tissage. Techniquement, l’algorithme parvient à exploiter à son avantage les donnéesnon–étiquetées et à limiter les erreurs d’étiquetage. Signalons aussi que les algorithmesB et B font implicitement de la sélection de caractéristiques. Cettepropriété peut représenter un avantage certain pour ces algorithmes et peut expliqueraussi l’avantage de B à la méthode supervisée. Enfin, nous pouvons rappeler quecontrairement à la grande majorité de méthodes semi–supervisées, B est linéairepar rapport à l’ensemble des paramètres.

5.2 Modèles auto–apprenants : R et Dans cette section, nous avons suivi une autre direction pour l’apprentissage semi–

supervisé. À notre connaissance, les méthodes semi–supervisées, que ce soit en clas-sification ou en ordonnancement, nécessitent de stocker l’ensemble de la base non–étiquetée. Dans cette section, nous voulons développer une méthode semi–superviséeefficace capable de traiter à la volée les données non–étiquetées.

Un cadre proche a été récemment proposé en classification semi–supervisée [Gold-berg et al., 2008] : les données arrivent de façon séquentielle et ont une probabilitéfaible d’être étiquetées. L’approche proposée est basée sur les graphes et permet de ré-soudre le problème en utilisant une descente de gradient stochastique. Cependant leurméthode stocke aussi régulièrement les données non–étiquetées et doit maintenir legraphe à jour (ou le voisinage de chaque point). Cette approche est similaire à [Karlenet al., 2008] qui utilisent un terme de régularisation différent.

Contrairement aux méthodes précédentes, nous allons développer une approche gé-nérale pour traiter un flux de données non–étiquetées et cela sans stocker ces exemplesen mémoire. Seule la base étiquetée l’est. Cette approche s’appuie essentiellement surdeux principes : l’apprentissage en–ligne [Bordes et al., 2007] et les modèles auto–apprenants [Zhu, 2005]. De plus, nous proposons un algorithme spécifique à l’ordon-nancement d’instances pour les applications de routage d’information. Nous présentonsaussi une variante batch de l’algorithme.

5.2.1 Principe de l’auto–apprentissage en–ligneLes méthodes d’apprentissage en–ligne pour la classification suivent généralement

le schéma suivant : L’algorithme reçoit les exemples étiquetés un à un puis, aprèschaque observation, il estime sa classe et met à jour le modèle en fonction de l’erreurproduite par cette prédiction. À chaque étape, la mise à jour peut être vue comme uncompromis par rapport à ce qu’il a appris (état courant) et l’information contenue dansl’exemple étiqueté. Nous proposons d’adapter ce schéma pour l’apprentissage semi–supervisé et pour la tâche d’ordonnancement.

Pour exploiter les données non–étiquetées, nous utilisons les fondements des mo-dèles auto–apprenants [Zhu, 2005]. Ces modèles proposés pour la classification semi–

5.2 Modèles auto–apprenants : R et 83

supervisée sont en premier initialisés sur la base étiquetée. Ils étiquettent les donnéesnon–étiquetées puis apprennent un modèle sur la base étiquetée et l’ensemble obtenu.Malgré sa simplicité, ce principe est appliqué avec succès pour les parseurs syntaxiques[McClosky et al., 2006], la classification du degré de subjectivité de phrases [Wanget al., 2008] ou en robotique [Wellington and Stentz, 2004].

Pour combiner ces deux principes, nous nous donnons une procédure d’étiquetageA. Dans le cas de la classification, cette procédure est simple puisqu’elle utilise sim-plement la sortie du modèle. Pour l’ordonnancement, elle est moins naturelle mais nousen définissons une dans la section 5.2.2.

Nous pouvons énoncer le principe général de l’auto–apprentissage en–ligne : aprèschaque exemple non–étiqueté, la procédure d’étiquetage A est appliquée puis le mo-dèle est mis à jour en fonction de l’erreur induite. Contrairement au cadre supervisé,l’étiquetage n’est malheureusement pas parfait et les erreurs commises peuvent s’am-plifier pendant l’apprentissage. Pour limiter cette propagation, nous assurons que lemodèle mis à jour reste cohérent avec la base étiquetée. L’erreur induite à chaque ité-ration doit ainsi tenir compte des exemples étiquetés. Les étapes suivantes permettentde résumer le fonctionnement général :

1. Initialisation sur la base d’apprentissage2. A l’étape t, l’algorithme reçoit un exemple non–étiqueté zt

3. L’exemple reçoit l’étiquette par la procédureA4. Le modèle peut être mis à jour en tenant en compte de (zt,A(zt)) suivant une

erreur spécifique surD∪ {zt,A(zt)}.– Et ainsi de suite.Pour l’ordonnancement biparti, l’erreur spécifique peut être l’erreur d’ordonnance-

ment sur D ∪ {zt,A(zt)} ou toute autre variante. Nous proposons par la suite une miseen œuvre efficace du principe énoncé ci–dessus.

5.2.2 Algorithme R pour l’ordonnancement semi–superviséMise en œuvre avec un solveur en–ligne

Cette mise en œuvre repose sur une méthode de classification en–ligne. Commedans [Grangier and Bengio, 2008]1, l’ordonnancement en–ligne est traité comme de laclassification de paires en–ligne : au lieu de fournir des exemples étiquetés, nous four-nissons au classifieur des paires critiques. Nous utilisons dans ce mémoire le solveurdéveloppé par [Bordes et al., 2007], qui permet en une seule passe sur la base d’ap-prentissage d’obtenir une bonne approximation de la solution.

Par conséquent, lorsqu’un exemple non–étiqueté zt arrive, nous estimons le degréde pertinence de zt. Nous considérons alors l’ensemble des paires critiques mal ordon-nées et nous fournissons au solveur en–ligne la paire dont la contrainte de marge estla plus violée (cf. algorithme 12). Formellement, cela revient à sélectionner l’exemple

1cas supervisé dans le mémoire.


par :

∆(zt,w,D) =

argmax

x∈D1

[[ρ − wT (zt − x)]] si yt > 0

argmaxx′∈D−1

[[ρ − wT (x′ − zt)]] sinon

en notant ρ la marge. Elle est généralement égale à 1.

Après la mise à jour, nous vérifions la cohérence sur la base d’apprentissage, enfournissant les paires critiques de la base étiquetée mal ordonnées (cf. algorithme 13).Le pseudo–code de notre méthode est décrit par l’algorithme 11. Notons que dansl’algorithme, la mise à jour n’est pas faite à toutes les étapes mais uniquement quand lesconditions de mise à jour sont remplies. Cette mise à jour est faite lorsque l’estimationdu degré de pertinence est considérée comme sûre (cf. section suivante).

Algorithme 11 squelette de l’algorithme R.E: Un ensemble d’exemples étiquetés L et un ensemble d’exemples non–

étiquetésU1: Apprendre une fonction score sur L :2: pour t=1,2,. . . faire3: Recevoir un exemple non–étiqueté zt

4: Calculer son score h(zt) = w.zt

5: Estimer son degré de pertinence : yt = A(zt)6: si les conditions sont réunies alors7: MAJ (w,(zt,yt),L)8: finsi9: pour (x,y) ∈ L faire

10: MAJ (w,(x,y),L)11: fin pour12: fin pourS: le modèle

Algorithme 12 Processus de mise à jour 1.E: un modèle wt, une instance étiquetée (zt,yt) et un ensemble étiqueté L

1: ρmin ← +∞

2: pour (xi,yi) ∈ L faire3: si yi , yt et yt.wT

t (zt − xi) ≤ ρmin alors4: imin ← i5: ρmin ← yt.wT

t (zt − xi)6: finsi7: fin pour8: si ρmin ≤ 0 alors9: Ajouter (yt.(zt − ximin ,1) au solveur svm en–ligne

10: finsiS: wt+1


Algorithme 13 Processus de mise à jour 2.E: un modèle wt, une instance étiquetée (zt,yt) et un ensemble étiqueté L

1: pour (xi,yi) ∈ L faire2: si yi , yt et yi.wT

t (xi − xt) ≤ ρ alors3: Former la paire critique p : p = sign(yi − yt).(xi − zt)4: Ajouter (p,1) au solveur svm en–ligne5: finsi6: fin pour

S: wt+1

Estimation du degré de pertinence et conditions d’utilisation

Un point crucial de l’algorithme est l’estimation du degré de pertinence d’unexemple. Comme l’objectif de l’ordonnancement n’est pas la classification, cette es-timation n’est pas naturelle. Pour contourner cette difficulté, nous supposons dans cemémoire que plus le score d’un exemple non–étiqueté est élevé par rapport à ceux desexemples non–pertinents, plus cet exemple est vraisemblablement pertinent. L’écartdes scores permet alors de mesurer à quel point l’exemple peut être considéré commepertinent. Nous pouvons déduire une relation similaire pour estimer la non–pertinenced’un exemple. Ainsi, notre algorithme étiquette l’exemple comme pertinent (resp. non–pertinent), s’il est plus vraisemblablement pertinent (resp. non–pertinent).

Soit une fonction dh(S ,S ′), qui mesure la différence relative des scores entre lesexemples de S et de S ′ telle que le signe de cette fonction indique que les élémentsde S sont globalement au–dessus de S ′ et que sa valeur absolue mesure à quel pointles scores sont distants. En particulier, nous utilisons dans ce mémoire simplement lamoyenne de la différence des scores : dh(S ,S ′) = 1

|S ||S ′ |

∑x∈S

∑x′∈S ′

h(x) − h(x′). Sur cette

base, nous définissons alors les critères suivants :

– δ+h (x) = dh({x},S−) , (mesure relative de pertinence)

– δ−h (x) = dh(S+,{x}) , (mesure relative de non–pertinence)

– δh(x) =min{δ−h (x) , δ+

h (x)}dh(S1,S−1) , (mesure de confiance)

Une mesure relative de pertinence positive (resp. négative) montre que le scorede l’exemple x est en moyenne au–dessus (resp. au–dessous) des scores des exemplesnon–pertinents de la base d’apprentissage. Ainsi en se basant sur l’hypothèse de départ,plus cette valeur est grande, plus cet exemple sera considéré comme pertinent. Parconséquence, x est supposé pertinent lorsque δ+

h (x) > δ−h (x). Dans le cas contraire,l’exemple est supposé non–pertinent.

A(x) =

{1 si δ+

h (x) > δ−h (x)−1 sinon

Finalement, δh(x) permet de résumer ces deux valeurs et peut être utilisée en tantque mesure de confiance dans l’estimation du degré de pertinence. Notons que lesexemples tels que δ+

h (x) < 0 ou δ+h (x) < 0 sont peu informatifs puisque, après étique-

tage, la marge des paires critiques obtenues est en moyenne supérieure à ρ. Dans la


pratique, il n’est donc pas nécessaire d’étiqueter ces exemples.

En classification, les transductives peuvent trouver une solution dégradée enétiquetant tous les exemples dans la même classe [Collobert et al., 2006; Chapelle et al.,2008]. Pour éviter ce problème, ces méthodes s’assurent que le taux de positifs trouvésdans la base non–étiquetée est la même que le taux de positifs dans la base étiquetée.Comme nous avons observé un comportement similaire, nous adaptons cette approchepour l’optimisation en–ligne. Après chaque étiquetage, nous tirons aléatoirement ledegré de pertinence à attribuer avec une probabilité égale à ce taux. Si la décisionconcorde, alors la mise à jour est effective.

remarque : Il existe naturellement d’autres heuristiques d’étiquetage en ordonnan-cement. Une des premières a été développée dans [Vittaut and Gallinari, 2006] pourla recherche d’information. Mais les résultats obtenus ne permettent pas d’améliorer lemodèle supervisé. Récemment, toujours pour de la recherche d’information, les travauxde [Li et al., 2009] développent une stratégie différente, mais basée sur une version« probabiliste » de la différence des scores h(x) − h(x′) :

ph(x,x′) =eh(x)−h(x′)

1 + eh(x)−h(x′)

Complexité

Dans la version linéaire, le solveur en–ligne ne nécessite que le stockage du mo-dèle initial, des exemples étiquetés de la base d’apprentissage (ou des paires critiquesen résultant) et d’un exemple non–étiqueté. La complexité spatiale de l’algorithme estdonc de O(n+n−) avec n+ et n− le nombre de données pertinentes et non–pertinentesdans la base étiquetée.

À chaque itération, l’algorithme a besoin de calculer les scores des données éti-quetées, de former la paire critique et de mettre à jour le modèle. Le solveur en–lignenécessite un nombre d’opérations proportionnel à d à chaque itération. Nous en dédui-sons que la complexité totale de R est de O (d.(n + m)), alors que les méthodessemi–supervisées en ordonnancement ont habituellement une complexité d’au moinsO

((n + m)2

)[Zhou et al., 2003].

complexité[R

]= O (d.(n + m))

5.2.3 Variante batch de R : la méthode Principe général

Dans les sections précédentes, nous avons présenté un modèle qui traite lesdonnées non–étiquetées à la volée. Nous pouvons dériver une variante batch de laméthode R. En d’autres termes, la méthode incorpore l’ensemble des donnéesnon–étiquetées dans la phase d’apprentissage. Ce fonctionnement est ainsi beaucoupplus proche des modèles classiques en apprentissage semi–supervisé que R.Nous nommerons cette méthode .


Le principe est d’alterner une étape d’étiquetage et une étape d’apprentissage jus-qu’à convergence. La première consiste à sélectionner des exemples non–étiquetés età estimer leur degré de pertinence comme le faisait R. Un modèle est ensuiteappris sur la base étiquetée initiale et sur la base nouvellement constituée V. Suivantla majorité des méthodes semi–supervisées, nous introduisons aussi un paramètre C′,qui permet de pondérer l’apport des données non–étiquetées dans l’apprentissage. Àchaque itération, notre algorithme minimise la fonction objectif suivante :

R(h,SL ∪V) =C

n+n−

∑(x,x′)∈T (SL)

[[1 + wT (x′ − x)]]+︸︷︷︸erreur supervisée d’ordonnancement

(5.7)

+C′

|T (V) |

∑(x,x′)∈T (V)

[[1 + wT (x′ − x)]]+︸︷︷︸erreur avec des exemples non–étiquetés

+12‖w‖2︸︷︷︸

terme de régularisation

avec T (V) l’ensemble des paires critiques dansV.

Pour éviter d’étiqueter les exemples les moins sûrs, nous nous sommes, de nouveau,inspirés des modèles auto–apprenants et de la classification semi–supervisée. Nousavons opté pour une stratégie, qui estime petit à petit les degrés de pertinence desdonnées non–étiquetées en commençant par les exemples les plus sûrs. Le processus desélection et la mesure de certitude étant les mêmes que ceux de R, nous faisonscroître le paramètre d’étiquetage ζ au fur et à mesure des itérations. Le pseudo–codede est décrit par l’algorithme 14.

Algorithme 14 Squelette de l’algorithme .E: un ensemble d’exemples étiquetés SL et un ensemble d’exemples non–

étiquetés SU

1: V ← SL, N ← U2: Apprendre une fonction score sur L3: répéter4: pour chaque exemple x de N faire5: si δh(x) < ζ alors6: V.AJOUTER ((x,.)), N .SUPPRIMER(x)7: finsi8: fin pour9: Estimer les degrés de pertinence des données non–étiquetées deV

10: Apprendre une fonction score sur L etV11: si aucun exemple n’a été ajouté dansV alors12: ζ ← AUGMENTER(ζ)13: finsi14: jusqu’à N = {} ou ζ > ζL

S: la fonction score

Utilisation d’une méthode d’optimisation de type bundle

Pour résoudre le problème d’optimisation, nous avons utilisé une approche de typebundle (cf. section 3.3.2). Ces méthodes permettent de minimiser efficacement les fonc-


tions objectif convexes pouvant être non différentiables partout. Or, les modèles auto–apprenants génèrent une fonction de ce type à chaque itération, ce qui représente ungrand avantage par rapport à des méthodes de type – par exemple. Rappelons queles méthodes bundle nécessitent un nombre relativement restreint d’itérations pour ap-procher de la solution. Ces propriétés sont d’autant plus importantes pour les méthodesauto–apprenantes qu’elles doivent résoudre un problème d’optimisation à chaque ité-ration.

Nous avons suivi le formalisme proposé dans [Teo et al., 2007] qui est spécifique àla minimisation des fonctions de coût régularisé pour l’apprentissage supervisé. Nousavons donc étendu cette méthode d’optimisation pour prendre en compte les donnéesnon–étiquetées, c’est–à–dire le deuxième terme dans l’équation 5.7.

Comme vu dans le chapitre 3, la méthode d’optimisation nécessite O(

1Cε

)itérations

pour atteindre la solution à ε près. Chaque itération nécessite la résolution d’un pro-blème d’optimisation approchée. Pour ce faire, il faut déterminer l’AUC ainsi que songradient. Ces opérations peuvent se faire en O

(dp + p log(p)

)opérations (cf. annexe

A). En supposant que m est largement supérieur à n, la complexité de cette étape estdominée par O

(dm + m log(m)

). À cela, il faut ajouter la complexité du solveur quadra-

tique [Teo et al., 2007]. Rappelons que généralement, la résolution à chaque itérationest rapide puisqu’elle est basée sur une approximation de la fonction objectif. Ce termeest souvent négligeable par rapport au calcul du gradient et de la fonction. Finalement,nous pouvons résumer la complexité totale de l’algorithme par :

complexité[] = O(I m.d+m log(m)

Cε

)avec I le nombre d’itérations nécessaires pour l’étiquetage de la base non–étiquetée.

5.2.4 RésuméNous avons présenté dans cette section une méthode d’ordonnancement capable

de traiter les données non–étiquetées à la volée. Le modèle est mis à jour à l’arri-vée de chaque donnée. Pour exploiter l’information contenue dans les exemples non–étiquetés, nous avons adopté le principe de l’auto–apprentissage à l’ordonnancement.Cette approche garantit à notre méthode une faible complexité à la fois temporelle etspatiale. Nous avons aussi proposé une variante batch, où la base non–étiquetée estprise en compte dans sa totalité.

méthode complexité nb de paramètres liste de paramètres O

(I. d.m+m log(m)

Cε

)3 ζ, C et C′

R O(d.(n + m)) 2 ζ et C

T. 5.1 – Caractéristiques des méthodes R et .

5.3 BilanDans ce chapitre, nous avons étudié l’ordonnancement avec peu de données éti-

quetées et un grand nombre de données non–étiquetées. Jusqu’à présent, les modèles

5.3 Bilan 89

proposés ne peuvent ordonner que les données non–étiquetées de la base d’apprentis-sage. Elles ne peuvent pas ordonner naturellement les données qui n’ont pas encoreété vues. Apprendre un nouveau modèle est toujours possible mais au prix d’un coûtd’apprentissage beaucoup trop élevé. De plus, la complexité de ces modèles est géné-ralement quadratique voire cubique par rapport au nombre total d’exemples.

En premier, nous avons proposé un nouvel algorithme de boosting pour l’ordonnan-cement semi–supervisé. Cet algorithme est capable d’ordonner n’importe quel exempleet la complexité d’apprentissage est linéaire par rapport aux exemples. Comme pourB, nous pouvons remarquer que B permet de faire implicitement dela sélection de caractéristiques (feature selection), ce qui peut représenter un certainavantage pratique.

Nous avons aussi proposé dans ce cadre, un algorithme d’auto–apprentissage ap-pelé nibbling basé sur les dernières méthodes d’optimisation. Enfin, nous avons pro-posé un nouveau cadre pour l’apprentissage semi–supervisé, où les données non éti-quetées arrivent sous la forme de flux. Pour l’ordonnancement semi–supervisé, nousavons proposé un algorithme capable de les traiter à la volée : la méthode R.

méthode paramètres fonction deperte exploitation

sélection decaractéris-

tiques

passage àl’échelle

B 3 exponentielle locale implicite possible

R 2 hinge à la volée non oui

T. 5.2 – Résumé des caractéristiques de R et B : le nombre de para-mètres, la fonction perte utilisée, la manière d’exploiter les données non étiquetées, lapossibilité de sélectionner les caractéristiques et de passer à l’échelle.


6Ordonnancement Actif

Sommaire6.1 Apprentissage actif de fonctions d’ordonnancement d’instances 92

6.1.1 Sélection avec une mesure d’incertitude . . . . . . . . . . 926.1.2 Estimation de l’erreur d’ordonnancement . . . . . . . . . 936.1.3 Estimation du gradient . . . . . . . . . . . . . . . . . . . 95

6.2 Ordonnancement actif . . . . . . . . . . . . . . . . . . . . . . . 966.2.1 Approche générale . . . . . . . . . . . . . . . . . . . . . 976.2.2 Mesure de désaccord entre deux fonctions score . . . . . . 976.2.3 Lien avec l’erreur d’ordonnancement . . . . . . . . . . . 986.2.4 Lien avec le comité de modèles issus de la validation croisée 986.2.5 Démonstration de la borne transductive de l’erreur en gé-

néralisation . . . . . . . . . . . . . . . . . . . . . . . . . 1026.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

L ’apprentissage dit actif (Active Learning) est un autre cadre pour apprendre avecpeu d’exemples étiquetés. Contrairement à l’apprentissage semi–supervisé, l’ap-

prenant interagit avec l’oracle en lui présentant des exemples non–étiquetés à étiqueter.Le but est d’améliorer le plus rapidement possible les performances du modèle apprissur l’ensemble d’apprentissage initial augmenté de ces nouveaux exemples.

En classification différentes stratégies d’apprentissage actif ont été explorées. Uneméthode phare est l’échantillonnage sélectif qui consiste à choisir un ou plusieursexemples d’un ensemble non–étiqueté et à interroger l’oracle pour obtenir leur éti-quette. Ces nouveaux exemples sont ensuite ajoutés à l’ensemble d’entraînement pourapprendre un nouveau classifieur. Ces stratégies actives ont été développées autourde deux idées centrales. (a) La réduction de l’espace des versions [David A. Co-hen, 1996], qui dans le cas des , consiste à sélectionner l’exemple non–étiquetéayant la plus faible marge avec la frontière de décision en cours [Tong and Kol-ler, 2001], et (b) la sélection d’exemples non–étiquetés réduisant une approximationde l’erreur de généralisation [Schohn and Cohn, 2000; Roy and McCallum, 2001;Chapelle, 2005].

Les motivations théoriques qui ont servi au développement de ces techniques nepeuvent malheureusement pas être étendues à l’ordonnancement. Il n’y a en effet au-cune équivalence à la notion de l’espace des versions et les approximations de l’er-reur de généralisation étaient jusqu’à maintenant inexistantes. La notion de marge

92 Ordonnancement Actif

peut néanmoins être étendue dans le cas où on cherche à prédire un ordre total surles exemples avec une fonction à valeur réelle. [Brinker, 2004] a ainsi montré que lasélection des alternatives avec la plus petite différence de scores peut être assimiléeà une notion de marge (qualifiée de marge étendue). Cette méthode s’avère être uneapproche heuristique efficace en pratique.

Cependant, nous nous intéressons dans ce manuscrit à la prédiction d’ordres par-tiels. Dans ce cas, cette heuristique n’est plus pertinente. En effet, le score de deuxalternatives pertinentes ou non–pertinentes peuvent être très proches. Pour une requêtedonnée, la marge étendue peut donc être nulle sans que les alternatives pertinentes aientun score plus élevé que les alternatives non–pertinentes.

Dans ce chapitre, nous nous sommes intéressés à l’extension de cette approche auxcadres d’ordonnancement d’instances et d’alternatives. Nous aborderons en premier latâche de routage d’information à travers le prisme de la classification de paires. Nousprésenterons aussi l’apprentissage actif pour le résumé automatique, qui se formalisecette fois–ci comme de l’ordonnancement d’alternatives.

6.1 Apprentissage actif de fonctions d’ordonnancementd’instances

Dans cette section, nous allons proposer plusieurs stratégies de sélection d’ins-tances pour l’ordonnancement d’instances. Ces méthodes peuvent être vues commedes extensions des approches proposées en classification [Settles, 2009]. Elles sont detrois types : sélection de l’exemple dont le score (ou le rang) est le moins sûr, sélec-tion de l’exemple qui pourrait modifier le plus le modèle, et sélection de l’exemple quicontribuerait le plus à l’erreur moyenne sur les exemples non–étiquetés.

6.1.1 Sélection avec une mesure d’incertitudeDans [Brinker, 2004; Yu, 2005], les auteurs ont étendu la notion de marge pour

deux exemples non–étiquetés en considérant la différence en valeur absolue de leursscores. Comme souligné dans le chapitre précédent, la marge ainsi définie n’a aucunsens s’il s’agit de deux exemples qui ont le même degré de pertinence. Intuitivement,ce ne sont pas les exemples optimaux, c’est–à–dire ceux qui permettraient d’amélio-rer au mieux les performances du modèle. Il est cependant vrai que l’utilisation decette marge en apprentissage actif permet d’atteindre des performances meilleuresqu’avec une stratégie aléatoire (cf. les résultats expérimentaux de [Brinker, 2004;Yu, 2005]).

Nous proposons une méthode alternative : au lieu de comparer les scores desexemples non–étiquetés entre eux, il nous semble préférable de comparer le score dechaque exemple non–étiqueté avec ceux des exemples étiquetés. Notre méthode de sé-lection se base ainsi sur la distance entre les exemples dans l’espace des scores.

Définition 3 (Marge dans l’espace des scores pour l’ordonnancement). Soit h : X → R,une fonction score, un ensemble étiqueté SL et un exemple non–étiqueté x. La margede z est définie par :

δ(z) = min(δ−(z), δ+(z)

)

6.1 Apprentissage actif de fonctions d’ordonnancement d’instances 93

avec :δ+(z) = min

x∈S1

h(x) − h(z)

δ−(z) = minx′∈S−1

h(z) − h(x′)

Cette notion de marge étendue est très similaire à celle que nous avons utilisée pourl’ordonnancement semi–supervisé (cf. chapitre précédent). Elle permet de déterminerla proximité d’un exemple avec les exemples pertinents (ou non–pertinents) dans l’es-pace des scores. Nous avons utilisé pour cette section une distance d’un exemple parrapport à un ensemble d’exemples. En apprentissage semi–supervisé, le critère se ba-sait sur une distance moyenne. En effet, la prédiction de la pertinence est sujette à deserreurs contrairement à l’ordonnancement actif, où l’utilisateur étiquette lui–même lesexemples.

Algorithme

Notre méthode sélectionne ainsi l’exemple qui maximise la marge. L’exemplechoisi est celui qui se trouve à mi–distance entre les exemples pertinents et non–pertinents dans l’espace des scores. Le pseudo–code de notre méthode est simplementdécrit par l’algorithme 15.

Algorithme 15 Ordonnancement actif en utilisant la marge de l’espace des scoresE: une base étiquetée SL, un ensemble de données non–étiquetées SU

1: pour t = 1 . . . T faire2: Apprendre un modèle sur SL

3: Calculer les scores des exemples étiquetés4: δre f ← 05: pour z ∈ SU faire6: calculer δ(z)7: si δ(z) > δre f alors8: δre f ← δ(z)9: zre f ← z

10: finsi11: fin pour12: SU .(zre f )13: SL.(zre f )14: fin pour

À chaque itération, l’algorithme a besoin de calculer les scores de l’ensemble desexemples et de les comparer avec ceux des exemples étiquetés. Ces étapes nécessitentuniquement un nombre d’opérations proportionnel à la taille de la base d’apprentissage.Nous en déduisons la complexité algorithmique pour des fonctions score linéaires :

complexité_sélection[marge approchée] = O(d.(n + m)

)

6.1.2 Estimation de l’erreur d’ordonnancementNous proposons une autre stratégie de sélection en s’inspirant des méthodes déve-

loppées dans [Roy and McCallum, 2001; Zhu and Lafferty, 2003]. L’idée est d’esti-


mer l’espérance de la fonction objectif en classification, une fois que l’exemple non–étiqueté se trouve étiqueté puis ajouté à la base d’apprentissage SL. La fonction ob-jectif est estimée sur les exemples non–étiquetés (en prenant toujours l’espérance parrapport aux valeurs de l’étiquette). Cette approche efficace est beaucoup trop coûteuse,puisqu’elle nécessite l’apprentissage de deux nouveaux modèles pour chaque exemplenon–étiqueté.

Au lieu de déterminer l’erreur induite par l’ajout de l’exemple, nous proposons icide mesurer directement l’espérance de la fonction objectif d’un exemple non–étiquetéengendrée par le modèle courant.

Ru(z) =∑

y

P(y|x).R (SL ∪ (x,y))

Nous proposons de choisir les exemples non–étiquetés qui maximisent cette fonc-tion. Cela revient à choisir les exemples qui contribueraient le plus à la moyenne del’erreur d’ordonnancement, une fois ajoutés à l’ensemble étiqueté. Dans la suite, nousdésignerons cette méthode par 2 (maximisation de l’estimation de l’erreur).

Détermination des probabilités a posteriori

Le point délicat de cette approche est la détermination des probabilités a posterioriintervenant dans le calcul de l’erreur. En effet, la sortie d’une fonction est difficilementinterprétable en terme de probabilité. Dans [Donmez and Carbonell, 2008; Donmez andCarbonell, 2009], les auteurs proposent d’utiliser une fonction logistique pour estimerces dernières :

P(y|z) =1

1 + exp(−y.h(z) + C)La valeur de C est soit apprise à partir d’une base externe (qui est rarement disponible)soit déterminée à partir d’heuristiques. Dans nos travaux, nous nous inspirons de l’ar-ticle [Rakotomamonjy, 2004] qui étudie l’extension du à l’ordonnancement bipartiet le lien avec le classique. Un classifieur peut notamment être dérivé de la fonctionscore grâce à l’équation suivante :

f (x) =2

s+ − s−wT x −

s+ + s−

s+ − s−(6.1)

avec s+, le minimum des scores des exemples pertinents et s− le maximum des scoresdes exemples non–pertinents. Nous proposons de combiner ce classifieur avec un mo-dèle logistique pour interpréter la sortie de la fonction score en terme de probabilité :

P(y|z) =1

1 + exp(−y( 2s+−s−wT z − s++s−

s+−s− ))

Algorithme

Le pseudo–code de la méthode d’apprentissage actif est donné par l’algorithme 16.À chaque itération, l’algorithme nécessite de calculer le score des exemples qui sontétiquetés ou non, puis de former les erreurs en considérant les exemples non–étiquetéscomme pertinents puis comme non–pertinents. Au final, la complexité de l’algorithmerésultant est :

complexité_sélection[2] = O(d.(n + m + nm)

)

6.1 Apprentissage actif de fonctions d’ordonnancement d’instances 95

Algorithme 16 Ordonnancement actif avec la méthode de minimisation de l’erreurmoyenE: une base étiquetée SL, un ensemble de données non–étiquetées SU


3: Déterminer les paramètres du modèle pour les probabilités P(y|x)4: nmax ← −∞

5: pour z ∈ SU faire6: n←

∑P(y|x).R(Sy ∪ (x,y))

7: si n > nmax alors8: nmax ← n9: zre f ← z


6.1.3 Estimation du gradientCette méthode s’inspire directement des travaux récents de [Donmez and Carbo-

nell, 2008] pour l’ordonnancement d’alternatives et de [Settles, 2008; Settles and Cra-ven, 2008] pour la classification multi–instances ou structurée. Le but est de sélection-ner l’exemple qui permet de modifier le plus le modèle, dans le cas où son étiquetteserait connue. Or, en réalité, cette information est manquante et les mesures utiliséesse basent sur les espérances par rapport aux valeurs possibles de l’étiquette.

Il reste néanmoins une question cruciale : comment mesurer ce changement ? Ilpeut être estimé en se basant sur une fonction objectif R, majorant continu et presquepartout différentiable de l’erreur d’ordonnancement (cf. 2.1.2). Ainsi le changement dumodèle peut se mesurer en utilisant la norme du gradient (Expected Gradient Length –) :

x∗ =argmaxx∈SU

∑y

P(y|x).∥∥∥∇ R(SL ∪ (x,y))

∥∥∥2

Contrairement à la méthode introduite dans [Donmez and Carbonell, 2008], nousestimons directement le gradient de ce terme. Les auteurs utilisent une majoration dece terme, qui nous semble peu justifiée et qui n’apporte pas un gain supplémentaire enterme de coûts de calcul. Notons qu’à chaque itération, le gradient ∇ E(SL) est égal àzéro et par conséquent, ∇ E(SL) ' ∇ E

(Sy ∪ (x,y)

). Dans le deuxième terme, le gra-

dient ne fait intervenir que les paires d’instances formées avec l’exemple non–étiquetéx. Pour le calcul des probabilités a posteriori, nous avons opté pour la stratégie décritedans la section précédente.

Algorithme

L’approche sélectionne ainsi l’exemple qui semble pouvoir le plus influencerle modèle courant (c’est–à–dire, celui qui aura le plus d’impact sur les paramètres). Lepseudo–code de la méthode est simplement décrit par l’algorithme 17.


Algorithme 17 Ordonnancement actif avec la méthode E: une base étiquetée SL, un ensemble de données non–étiquetées SU


3: Déterminer les paramètres du modèle pour les probabilités P(y|x)4: nmax ← −∞

5: pour z ∈ SU faire6: n←

∑P(y|x).

∥∥∥∇ R(Sy ∪ (x,y))∥∥∥2

7: si n > nmax alors8: nmax ← n9: zre f ← z


À chaque itération, l’algorithme a besoin de calculer les scores de l’ensemble desexemples étiquetés et le score d’un exemple non–étiqueté pour former les erreurs d’or-donnancement. Ces étapes nécessitent uniquement un nombre d’opérations proportion-nel à la taille de la base d’apprentissage. L’étape la plus coûteuse est de former legradient correspondant, qui nécessite au pire nd opérations et de calculer sa norme.

complexité_sélection[] = O(d.(n + m + nm)

)Notons que la complexité est la même que celle de l’approche précédente. Mais lastatégie fait intervenir le calcul d’une norme d’un gradient tandis que la stratégie2E fait uniquement intervenir le calcul des scores des instances. En pratique, pourdes bases de grande dimension avec des représentations creuses, le calcul du gradientest beaucoup plus coûteux que celui d’un produit scalaire.

6.2 Ordonnancement actifDans cette section, nous nous intéressons à l’apprentissage actif de fonctions d’or-

donnancement d’alternatives. L’approche que nous préconisons est basée sur une stra-tégie d’échantillonnage sélectif issue d’une nouvelle borne de généralisation pour desfonctions d’ordonnancement d’alternatives utilisant des données non–étiquetées. Cettestratégie est similaire au résultat proposé par [Kääriäinen, 2005] pour la classification.Dans cette étude, l’erreur de généralisation d’un classifieur est bornée par celle d’unautre classifieur et un deuxième terme faisant intervenir le désaccord entre ces deuxclassifieurs sur les exemples non–étiquetés. L’extension de ce résultat au cadre d’or-donnancement a nécessité la définition d’une notion de divergence entre deux fonctionsscores.

Nous considérons l’ensemble des entrées X et un ensemble d’alternativesA. Noussupposons qu’à chaque exemple x est associé un sous–ensemble connu d’alternativesAx ⊂ A. Sans perte de généralité, nous supposons que chaque élément Ax est indexé

6.2 Ordonnancement actif 97

par 1,. . .,|Ax|. Nous nous donnons un ensemble d’apprentissage SL = {xi,yi} avec xi

une entrée et yi un ensemble d’étiquettes associées àAx. Une étiquette indique le juge-ment de préférence d’une alternative deAx par rapport à x et induit un ordre surAx.

En apprentissage actif, nous considérons de plus un ensemble d’entrées SU et l’ob-jectif est de sélectionner les entrées et d’étiqueter ses alternatives associées pour amé-liorer au mieux les performances du système d’ordonnancement. Comme nous le ver-rons dans le chapitre 8.2, cette approche est particulièrement bien adaptée à des ap-plications comme le résumé automatique. Elle diffère substantiellement des approchesproposées pour les moteurs de recherche qui cherchent à sélectionner une ou plusieurspaires entrée–alternative. Nous pouvons résumer notre approche par les étapes sui-vantes :

1. sélectionner les entrées,

2. demander à l’utilisateur d’étiqueter les alternatives en fonction,

3. apprendre une nouvelle fonction score.

Notre stratégie de sélection est basée sur un ensemble de modèles appelé comité(query–by–commitee) [Seung et al., 1992; McCallum and Nigam, 1998; Settles andCraven, 2008]. À chaque itération, les modèles sont supposés cohérents avec l’en-semble d’apprentissage SL. Nous considérons alors que l’entrée la plus informativeest celle pour laquelle l’ensemble des modèles est le plus en désaccord sur l’ordre in-duit sur l’ensemble des alternativesAx.

6.2.1 Approche généralePour générer notre comité de modèles, nous créons d’abord K partitions de la base

d’apprentissage par validation croisée et associons chaque partition à un modèle. Cemodèle est ainsi appris sur l’ensemble d’apprentissage privé de sa partition associée.Ce procédé permet de générer facilement un comité.

Pour sélectionner les exemples, nous évaluons ensuite le désaccord de ces modèlessur chaque exemple non-étiqueté de la base SU . Ici nous sommes confrontés à la ques-tion fondamentale : Comment peut–on mesurer le désaccord entre deux ordres induitssachant que l’on ne connaît pas les étiquettes d’alternatives ? Cette question est traitéeà la section suivante. Nous présentons ensuite notre approche d’apprentissage actif.

6.2.2 Mesure de désaccord entre deux fonctions scoreSoit c (h,xi,li) une fonction coût qui, pour une entrée xi, mesure l’erreur d’ordonnan-

cement entre les ordres induits par la fonction score h et par les étiquettes de pertinenceli sur ses alternatives. c peut être égal à l’erreur d’ordonnancement des paires critiquespar exemple ou encore à la précision moyenne.

Nous voulons à ce niveau mesurer le désaccord entre deux fonctions score h eth′ sur une entrée donnée x sachant que le véritable ordre sur les alternatives de x estinconnu. Pour cela, nous allons considérer tous les ordres possibles induits par desétiquettes binaires sur les alternatives puis comparer les erreurs induites par h et h′.


Définition 4 (mesure de désaccord). Soient x ∈ X une entrée , Lx l’ensemble desétiquettes possibles sur les alternatives de Ax, c une fonction de coût et h, h′ deuxfonctions score,

dc(h,h′,x) def= max

l∈Lx

{c(h,x,l) − c(h′,x,l)

}Cette mesure présente les avantages suivants.

1. dc est égale à zéro si les deux fonctions score induisent le même ordre sur lesalternatives, ce qui est cohérent avec la notion intuitive de désaccord.

2. Sa valeur est comprise entre 0 et 1 si la fonction c retourne des valeurs dans lemême intervalle.

3. De plus, nous avons l’inégalité suivante :

∀(x,l) ∈ X × L, c(h,x,l) ≤ c(h′,x,l) + dc(h,h′,x) (6.2)

4. La définition de cette mesure est finalement très générale puisqu’elle est définiepour n’importe quelle erreur associée à une entrée x et un ensemble d’étiquettesL.

Nous venons ainsi de définir une mesure de désaccord entre deux fonctions scoresur une entrée non–étiquetée donnée. Nous devons maintenant formuler un critère desélection basée sur cette mesure. Nous allons en proposer un, basé sur les bornes del’erreur en généralisation. Nous allons, dans un premier temps, spécifier le lien entreles erreurs en généralisation et la mesure de désaccord. Dans un deuxième temps, nousallons présenter ce lien en introduisant le comité de modèles basés sur les partitions dela validation croisée. Ce faisant, nous allons expliciter clairement un critère de sélectionpour l’apprentissage actif.

6.2.3 Lien avec l’erreur d’ordonnancementMunis de cette mesure de désaccord, nous pouvons maintenant définir une me-

sure probabiliste de divergence. Pour ce faire, nous nous sommes inspirés des travauxmenés en classification de [Kääriäinen, 2005; Kääriäinen and Langford, 2005]. Dansnotre cas, nous supposons que chaque paire (x,l) est générée de façon i.i.d. selon unedistribution inconnueD et nous notonsDX la distribution marginale sur les donnéesX.

Nous considérons l’inégalité à l’équation 6.2. En prenant l’espérance de chaqueexpression par rapport à x et l, nous avons :

Ex,l[c(h,x,l)]︸︷︷︸Erreur en généralisation de h

≤ Ex,l[c(h′,x,l)]︸︷︷︸erreur en généralisation de h′

+ Ex[dc(h,h′,x)]︸︷︷︸divergence entre h et h′

(6.3)

Nous reconnaissons l’erreur d’ordonnancement en généralisation des fonctions het h′. Le dernier terme est interprété comme la mesure de divergence entre ces deuxfonctions. C’est tout simplement l’espérance de la mesure de désaccord sur une entrée.

Nous avons ainsi obtenu une borne de l’erreur en généralisation de h en fonction del’erreur de h′ et de la mesure de divergence entre h et h′. Cette inégalité est intéressantesi nous pouvons estimer ces deux derniers termes plus précisément que l’erreur engénéralisation de h. Nous nous intéressons par la suite à l’ensemble des modèles apprissur chaque partition issue d’une validation croisée.


6.2.4 Lien avec le comité de modèles issus de la validation croiséeFonction aléatoire basée sur la validation croisée

Pour prendre en compte les modèles du comité, nous allons construire une fonctionscore aléatoire sur l’ensemble de ces modèles. À ce stade, nous considérons les fonc-tions aléatoires hΘ définies avec un ensemble fini de fonctions {h1, . . . , hK} et avec unedistribution Θ sur {1, . . . ,K}. Pour une entrée x, nous choisissons une valeur aléatoireθ ∈ {1, . . . ,K} selon la distribution Θ. Notons que chaque tirage se fait de manière i.i.d.

Avec cette définition, nous pouvons définir une fonction déterministe h en considé-rant l’ensemble {h1} avec h1 = h.

Définition 5 (fonction score aléatoire). Soit hcv une fonction score aléatoire définie surle comité de modèles {hcv

1 , . . . ,hcvK } obtenus en validation croisée. Chaque modèle hcv

kest appris sur la base étiquetée SL en enlevant la kième partition correspondant à cemodèle. La fonction hcv est alors obtenue en choisissant aléatoirement un modèle dansl’ensemble {hcv

1 , . . . ,hcvK } suivant la distribution uniforme.

Pour de telles fonctions, nous pouvons étendre la définition de l’erreur empiriqueet celle de l’erreur en généralisation en prenant l’espérance :

ε(hΘ) = Eθ∼Θ

1n

∑(x,l)∈SL

c(hθ,x,l)

ε(hΘ) = Eθ∼ΘE(x,l)∼D {c(hθ,x, l)}

Enfin l’inégalité donnée par l’équation 6.3 peut être étendue de la même manière enconsidérant la fonction score aléatoire :

ε(hΘ) ≤ ε(hΘ′ ) + Ex Eθ∼ΘEθ′∼Θ′ {dc(hθ,hθ′ ,x)}︸︷︷︸=dc(hΘ,hΘ′ ,x)

(6.4)

Borne transductive de l’erreur en généralisation

Grâce à ces définitions, nous allons spécifier l’erreur en généralisation d’une fonc-tion score quelconque (mais déterministe) en utilisant des fonctions provenant de lavalidation croisée (c’est–à–dire le comité de modèles). Nous allons considérer pour hΘ

la fonction déterministe h et pour hΘ′ la fonction aléatoire hcv. En reprenant l’équation6.4, nous avons

ε(h) ≤ ε(hcv) + Ex {dc(h,hcv,x)}

L’intérêt de cette inégalité est double. Tout d’abord, l’estimation de ε(hcv) est sim-plement l’estimation de l’erreur de h en validation croisée. Ensuite, la mesure de di-vergence peut être majorée par la moyenne 1

|SU |

∑x′∈SU

dc(h,hcv,x′) sur l’ensemble desdonnées non–étiquetées grâce au théorème de Hœffding (cf. Théoreme 3, p. 102) .Nous pouvons ainsi majorer l’erreur en généralisation d’une fonction score grâce auxdonnées étiquetées et non–étiquetées de notre base d’apprentissage. Cette majorationpeut être énoncée de la façon suivante :


Théorème 2. Avec une probabilité au moins égale à 1 − δ, nous avons :

ε(h) ≤ ε (hcv) +1|SU |

∑x′∈SU

dc(h,hcv,x′) +

√K2n

ln2Kδ

+

√ln 2

δ

2m(6.5)

avec n = |SL|, m = |SU | et K le nombre de partitions en validation croisée de notrebase d’apprentissage.

La démonstration du théorème est donnée à la section 6.2.5 pour une question declarté.

Critère de sélection et algorithme

Idéalement, une méthode d’apprentissage actif devrait sélectionner l’entrée qui per-met de diminuer le plus l’erreur d’ordonnancement en généralisation. Or, cette erreurest inconnue. Une manière de contourner ce problème est de minimiser une borne del’erreur. Cette approche est d’autant plus pertinente que la borne est fine.

Nous proposons ainsi de minimiser celle que l’on vient d’expliciter (cf. théorème2). En effet, la borne est définie pour une base donnée d’exemples partiellement éti-quetés. Ceci n’est nullement gênant puisque l’approche active considère justement ungrand ensemble fixe de données non–étiquetées. Nous sélectionnons ainsi l’entrée quimaximise la mesure de désaccord entre la fonction score courante h et la fonction scorealéatoire associée hcv. Le pseudo–code de notre méthode est décrit par l’algorithme 18.

Algorithme 18 Squelette de l’algorithme d’apprentissage actif pour l’ordonnancementd’alternativesE: Un algorithme d’apprentissage supervisé RL

Un ensemble d’exemples étiquetés SL,Un ensemble d’exemples non–étiquetés SU ,Un nombre K de partitions de SL,Nombre d’exemples étiquetés souhaité nb

1: Apprendre les modèles du comité et obtenir hcvk

2: nbIter ← 03: tantque nbIter ≤ nb faire4: Apprendre un nouveau modèle h sur SL avec RL5: Sélectionner les entrées qui maximisent d(h,hcv,x)6: Demander à étiqueter les alternatives en fonction de ces entrées7: Les retirer de SU et ajouter les dans SL avec les étiquettes sur les alternatives8: fin tantque

Complexité L’algorithme nécessite d’entraîner K + 1 modèles. Le coût d’apprentis-sage est ainsi multiplié par K+1. Mais le coût total reste dominé par l’étape de sélectionde l’entrée. Dans notre cas, c’est le calcul de la mesure de désaccord, qui nécessite deprendre en compte toutes les valeurs possibles des étiquettes pour une entrée donnée.Pour un faible nombre d’alternatives, cela reste possible. Mais pour un grand nombre,c’est une opération beaucoup trop coûteuse. Dans le cas de l’erreur de classification depaires critiques, nous pouvons réduire considérablement cette complexité.


Proposition 1. Soient h et h′ deux fonctions scores pour l’ordonnancement d’alterna-tives, x une entrée non–étiquetée. Dans le cas de jugements de préférence binaires surles alternatives et de l’erreur de classification de paires, nous avons :

dc(h,h′,x) = maxp,q:p+q=|Ax |

1pq

p∑k=1

δ(h,h′,x)k

avec δ(h,h′,x) la liste ordonnée de façon décroissante d’éléments h(x,a) − h′(x,a) aveca ∈ Ax.

Avec cette approximation, le calcul du critère de sélection nécessite le calcul desscores de chaque couple entrée–alternative et un algorithme de tri, ce qui dans ce casdonne une complexité de sélection :

complexité_selection[divergence] = O(m|A| log |A| + m|A|.d

)Nous pouvons aussi remarquer que la mesure de désaccord peut être plus « fine » si

on a des a priori sur les données, en particulier, sur le taux de pertinents. En effet, celaajoute des contraintes au maximum dans notre proposition. Dans le cas où le taux esta priori inférieur à un seuil, il suffit de chercher pour des valeurs de p et q telles quep/(p + q) soit aussi inférieur à ce seuil.

Démonstration de la proposition Pour démontrer la proposition 1, nous allons ré-écrire l’erreur en classification de paires. Nous considérons ainsi une entrée x et unensemble d’alternatives a1,. . .,anx avec nx = |Ax|. Nous notons yi l’étiquette associée àai ; l = {y1, . . . ,ynx }, p le nombre d’alternatives pertinentes et q le nombre d’alternativesqui ne le sont pas.

c(h,x,l) =1

p.q

∑i:yi=1

∑j:y j=−1

[[h(x,ai) < h(x,a j)]]︸︷︷︸nombre d’alternatives non–pertinentes ordonnées au dessus de ai

Nous notons rang(ai) le rang de l’alternative ai dans la liste des alternatives ordonnéespar leurs scores dans l’ordre décroissant. Nous supposons que l’élement en tête deliste a pour rang 0. Nous notons aussi rang+(ai), le nombre d’alternatives pertinentesordonnées au dessus de ai dans cette même liste. Nous pouvons constater que le nombred’alternatives non–pertinentes ordonnées au–dessus de ai est alors égal à rang(ai) −rang+(ai). Par conséquent,

c(h,x,l) =1

p.q

∑i:yi=1

rang(ai) − rang+(ai)

=1

p.q

∑i:yi=1

rang(ai) −1

p.q

∑yi=1

rang+(ai)

=1

p.q

∑i:yi=1

rang(ai) −1

p.q.(p − 1)(p − 2)

2

La dernière égalité découle du fait que∑

yi=1 rang+(ai) est égale à la somme des p − 1premiers entiers. Pour le voir, il suffit de considérer l’alternative pertinente la mieuxordonnée et dans ce cas rang+(a) = 0, puis la deuxième mieux ordonnée et dans ce cas


rang+(a) = 1 et ainsi de suite.

Nous avons de même pour c(h′,x,l) en définissant rang’(ai) de façon similaire :

c(h′,x,l) =1

p.q

∑i:yi=1

rang’(ai) −1

p.q.(p − 1)(p − 2)

2

Nous en déduisons que :

c(h,x,l) − c(h′,x,l) =1

p.q

∑i:yi=1

rang(ai) − rang’(ai) (6.6)

Nous avons jusqu’à présent considéré que les étiquettes étaient fixées. Dans la suite,nous voulons trouver la distribution des étiquettes sur les alternatives qui maximisel’équation 6.6 ou plus précisément le deuxième terme de l’équation 6.2. Pour cela,nous allons d’abord considérer une proportion d’alternatives pertinentes constante :nous fixons ainsi p et q mais pas les valeurs des étiquettes. Nous considérons le cas oùp et q varient dans une prochaine étape.

Cas où p et q sont fixées Maximiser l’équation 6.6 revient à trouver p termes dansl’ensemble {rang(ai) − rang’(ai)} tels que leur somme est maximal. Il est clair que lemaximum est atteint en prenant les p éléments les plus grands soit :

1p.q

∑i:yi=1

rang(ai) − rang’(ai) ≤1

p.q

p∑k=1

δ(h,h′,x)k (6.7)

Notons que ce maximum est atteint puisqu’il suffit de considérer comme pertinentesles p alternatives qui maximisent rang(ai) − rang’(ai) et le reste comme non–pertinent.

Cas général Considérons maintenant le cas général. Nous voulons trouver, parmitoutes les distributions possibles des étiquettes sur les alternatives, celle qui maximisentl’équation 6.6. Nous pouvons simplement considérer l’ensemble des configurations quimaximisent cette équation et chercher le maximum sur cet ensemble. Cela revient àchercher :

maxp,q:p+q−=|AX |

1p.q

p∑i=1

rang(ai) − rang’(ai)

ce qui montre que :

dc(h,h′,x) ≤ maxp,q:p+q−=|AX |

1p.q

p∑i=1

rang(ai) − rang’(ai)

Nous avons l’égalité car nous prenons le maximum sur des distributions possibles d’éti-quettes.


6.2.5 Démonstration de la borne transductive de l’erreur en géné-ralisation

Dans cette section nous allons démontrer le théorème 2. La preuve se base surl’établissement d’un intervalle de confiance des deux estimateurs : celui de la mesurede divergence et celui de l’erreur en généralisation par validation croisée. Chaque in-tervalle de confiance est établi à l’aide de l’inégalité de Hœffding. Commençons parénoncer ce théorème.

Théorème 3 (inégalité de Hœffding). Soient X1, . . . ,Xm, m variables aléatoires indé-pendantes telles que :

∀i, ∃ai,bi ∈ R ,P(xi ∈ [ai,bi]) = 1

alors,

∀ε > 0,P

E m∑i=1

Xi

− m∑i=1

Xi > ε

≤ e−2ε2/∑m

i=1 (bi−ai)2

Borne pour l’estimation de la divergence

Nous allons établir l’intervalle de confiance pour l’estimateur de la divergence.Pour ce faire, nous allons d’abord considérer la mesure de divergence entre deux fonc-tions déterministes f et g. L’estimateur de Ex {dc( f ,g,x)} est ainsi 1

m∑

x∈SUdc( f ,g,x).

Pour appliquer l’inégalité de Hœffding, nous considérons les m variables aléatoiresdc( f ,g, x) qui prennent les valeurs dans l’intervalle [0,1]. L’application est immédiateet nous conduit à l’inégalité suivante :

∀ε > 0,P

Exdc( f ,g,x) −1m

∑x∈SU

dc( f ,g,x) > ε

≤ e−2ε2/m

En prenant l’évènement complémentaire et en posant δ = 2.e−2ε2/m, nous obtenons lelemme suivant :

Lemme 1. Soient f et g deux fonctions score pour l’ordonnancement d’alternatives etSU un ensemble de m entrées alors pour tout λ > 0, nous avons l’inégalité suivanteavec une probabilité de 1 − δ

2 :

Exdc( f ,g,x) ≤1m

∑x∈SU

dc( f ,g,x) +

√1

2mln

2δ

Ce lemme permet d’avoir une partie de la borne de l’erreur en généralisation enconsidérant h à la place de f et hcv à la place de g.

Borne pour l’estimation par validation croisée

Il nous reste à établir la borne pour l’estimation de l’erreur en généralisation parvalidation croisée. La première étape est de considérer un modèle du comité à la fois.Prenons par exemple hcv

k . L’erreur en généralisation de hcvk est estimée sur la kième par-

tition que l’on notera Sktest. Nous supposons que chaque partition contient le même

nombre d’exemples, ce qui nous fait une taille de nK . L’estimation est donnée par


ˆε(hcvk )

∑(x,l)∈Sk

testc(hcv

k (x),l).

En suivant la même démarche que précedemment, nous pouvons appliquer le théo-rème de Hœffding, prendre l’évènement complémentaire et poser δ = 2K.e−2ε2/m pourobtenir l’inégalité suivante :

∀δ > 0,P

ε(hcvk ,x) − ε(hcv

k ) ≤

√K2n

ln2Kδ

≥ 1 −2Kδ

Cette inégalité est vraie pour tous les modèles du comité. Pour combiner le tout,nous utilisons la borne de l’union :

P(⋃

Ak

)≤

∑P(Ak)

avec Ak l’évènement ε(hcvk ) ≤ ε(hcv

k ) +

√1

2n ln(

Kδ

)Lemme 2. Soit hcv la fonction score aléatoire obtenue par validation croisée sur Kpartitions de taille 1

K . Pour tout λ > 0, nous avons alors l’inégalité suivante avec uneprobabilité de 1 − δ

2

ε(hcv) ≤1K

K∑k=1

ε(hcvk ) +

√K2n

ln(

2Kδ

)La démonstration du théorème se termine en appliquant de nouveau la borne de

l’union pour combiner les deux lemmes.

6.3 BilanDans ce chapitre, nous avons considéré l’apprentissage actif pour l’ordonnance-

ment d’instances et pour l’ordonnancement d’alternatives. Dans la littérature, il existepeu de travaux allant dans ce sens. L’étude la plus notable est celle de [Brinker,2004] qui consiste à sélectionner les exemples non–étiquetés ayant obtenu les scoresles plus proches. Mais elle considère uniquement un ordre total. Très récemment,d’autres travaux ont considéré des approches différentes [Donmez and Carbonell, 2008;Donmez and Carbonell, 2009] pour l’ordonnancement d’alternatives.

Nous avons décrit trois nouvelles approches pour l’ordonnancement actif d’ins-tances. La première utilise une mesure de certitude fondée sur la comparaison desscores. Contrairement aux méthodes similaires de la littérature, elle concerne unique-ment une instance non–étiquetée et non une paire d’instances non–étiquetées. Nouspensons que cela confère à notre méthode un réel avantage par rapport à ces méthodes.

Cette approche souffre néanmoins d’un défaut : elle n’est pas réellement liée àl’erreur d’ordonnancement, la quantité que l’on désire diminuer le plus rapidement.Nous avons présenté une nouvelle approche qui consiste à sélectionner l’instance quiinduit l’erreur moyenne d’ordonnancement la plus élevée. En s’inspirant des travauxrécents en classification, nous mesurons l’erreur avec le modèle courant et non avecun nouveau modèle appris en ajoutant l’instance dans la base d’apprentissage. Cetteformulation permet une réelle économie en terme de temps et de ressources.

6.3 Bilan 105

Nous avons aussi proposé une troisième méthode beaucoup plus coûteuse dans lesespaces à grande dimension, qui consiste à sélectionner l’exemple qui semble changerle plus le modèle. Ce changement est mesuré grâce à la norme d’un gradient. Cette ap-proche a été explorée en classification et en ordonnancement d’alternatives de manièrespécifique aux moteurs de recherche. Nous l’avons formalisé pour l’ordonnancementbiparti. Pour les deux dernières approches, nous avons suggéré une simple heuristiquepour déterminer les probabilités a posteriori de l’étiquette sachant l’instance.

Nous avons proposé une nouvelle méthode d’apprentissage actif pour l’ordonnan-cement d’alternatives. Pour ce faire, nous avons spécifié une nouvelle mesure de désac-cord entre deux fonctions. Pour un comité de modèles générés par validation croisée,nous avons explicité un critère de sélection qui a l’avantage d’être lié à l’erreur en gé-néralisation. Dans sa forme la plus générale, la procédure de sélection est très coûteusemais dans des cas particuliers, nous pouvons réduire grandement sa complexité. C’estle cas pour l’ordonnancement biparti.

Notons que la mesure de désaccord se fonde uniquement sur une fonction d’erreur,ce qui lui permet d’être générique. L’approche peut s’étendre à d’autres tâches commela classification multi–classes ou multi–étiquettes, la classification multi–instances[Dietterich et al., 1997; Settles et al., 2007] ou bien la régression ordinale.


Troisième partie

Applications

7Application au Routage d’Information

Sommaire7.1 Routage d’information . . . . . . . . . . . . . . . . . . . . . . 110

7.1.1 Présentation de l’application . . . . . . . . . . . . . . . . 1107.1.2 Lien avec l’ordonnancement . . . . . . . . . . . . . . . . 111

7.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . 1117.2.1 Description générale . . . . . . . . . . . . . . . . . . . . 1117.2.2 Mesures de performances utilisées . . . . . . . . . . . . . 1127.2.3 Bases utilisées . . . . . . . . . . . . . . . . . . . . . . . 1127.2.4 Choix de l’algorithme de propagation pour B . . . 114

7.3 Validation des approches : semi–supervisé versus supervisé . . 1147.3.1 Comparaison expérimentale entre B et B . 1157.3.2 Comparaison expérimentale entre S, et

R . . . . . . . . . . . . . . . . . . . . . . . . . . . 1177.3.3 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

7.4 Discussion sur le réglage des méta–paramètres . . . . . . . . . 1207.4.1 Expériences sur les moyennes et grandes bases . . . . . . 1217.4.2 Stratégie lno pour le réglage des méta–paramètres . . . . . 1227.4.3 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

7.5 Évolution des performances en fonction du nombre d’exemplesétiquetés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1257.5.1 Méthode B . . . . . . . . . . . . . . . . . . . . . . 1257.5.2 Méthode R . . . . . . . . . . . . . . . . . . . . . 125

7.6 Temps d’apprentissage des méthodes semi–supervisées . . . . 1287.6.1 B . . . . . . . . . . . . . . . . . . . . . . . . . . . 1287.6.2 Évolution du temps d’apprentissage de R en fonc-

tion du nombre d’exemples étiquetés . . . . . . . . . . . . 1297.6.3 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

7.7 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

Dans ce chapitre, nous appliquons les modèles, que nous avons développéspour l’ordonnancement biparti semi–supervisé (cf. chapitre 5), au problème du

routage d’information. Cette application est définie par un système, qui reçoit lesdonnées sous forme d’un flux et doit les ordonner par rapport aux préférences d’unutilisateur. Elle définit en fait une tâche d’ordonnancement biparti, où les utilisateurs

110 Application au Routage d’Information

doivent constituer la base d’apprentissage. Cette approche oblige les utilisateursà examiner manuellement les données et à les évaluer, ce qui limite automatique-ment la taille de la base. De ce fait, l’approche semi–supervisée est pleinement justifiée.

Dans un premier temps, nous allons présenter la tâche du routage d’information(section 7.1). Elle nous permet de définir un cadre expérimental pratique pour éva-luer nos méthodes d’apprentissage. Nous allons ensuite estimer empiriquement tout lepotentiel de nos méthodes et les valider en comparant avec les méthodes superviséesauxquelles elles sont directement affiliées (cf. section 7.3). Nous nous intéresserons en-suite au réglage des méta–paramètres pour le routage d’information. Nous proposeronsune heuristique dans le cas où il y a très peu de données étiquetées (cf. section 7.5).Nous présenterons enfin l’évolution des mesures de performances en variant la taille dela base étiquetée ainsi qu’une comparaison du temps d’apprentissage de nos modèles(cf. section 7.6).

7.1 Routage d’information

7.1.1 Présentation de l’applicationLe routage d’information est une application qui a été étudiée lors de la conférence

TREC1. Elle est organisée chaque année sous l’égide de deux agences gouvernemen-tales américaines : le NIST (National Institute of Standards and Technology) et ARPA(Advanced Research Projects Agency) le département de la défense américaine. L’ob-jectif est de comparer les performances des systèmes en recherche d’information surdes volumes de données importantes. Elles ont grandement encouragé les travaux dansle domaine et facilité les échanges entre les industriels et les universitaires.

La conférence TREC est plus précisément un ensemble de compétitions concernantles différentes applications en recherche d’information. Pendant presque 10 ans (jus-qu’en 2002), il y a eu des compétitions spécifiques au filtrage d’information [Robertsonand Soboroff, 2002]. Elles concernaient un système soumis à un flux de documents etun certain nombre d’applications dont le routage d’information.

Le routage d’information est défini par un système, qui doit ordonner les données enfonction des préférences d’un utilisateur. L’ordonnancement se fait exclusivement surle contenu de ces données (filtrage par contenu). Les préférences sont connues à traversun profil, qui peut être simplement défini par un ensemble de documents jugés commepertinents ou non par l’utilisateur considéré. La figure 7.1 illustre ce mécanisme.

1http ://trec.nist.gov/overview.html

7.2 Protocole expérimental 111

F. 7.1 – Illustration d’un système de routage d’information.

7.1.2 Lien avec l’ordonnancementLe cadre de l’ordonnancement d’instances est bien adapté à l’étude de ce pro-

blème. Le profil utilisateur correspond aux exemples étiquetés comme pertinents ounon–pertinents par rapport à la demande d’information de l’utilisateur. Vus sous cetangle, les objectifs du routage d’information et de l’ordonnancement d’instances sontainsi identiques. Notons que les méthodes présentées à TREC pour cette tâche étaientbasées sur une méthode de classification (perceptron ou ).

Dans le chapitre précédent, nous avons montré que cette approche n’était pas opti-male. Il est préférable de traiter l’ordonnancement avec des méthodes propres à cettetâche. Ainsi la tâche d’ordonnancement définit un cadre adéquat pour le routage d’in-formation [Iyer et al., 2000]. L’ensemble des travaux sur le routage d’information aété réalisé dans le cadre de l’apprentissage supervisé. Cependant, l’approche semi–supervisée permet de limiter grandement le nombre de documents qu’un utilisateurdoit juger et étiqueter.

Nous pouvons noter que cette application peut utiliser n’importe quelle base declassification, seul l’objectif (ordonner au lieu de catégoriser) change. Finalement, leroutage d’information nous permet de fixer un cadre applicatif et expérimental clairpour évaluer les méthodes d’ordonnancement. Nous pouvons maintenant spécifier leprotocole expérimental utilisé dans ce chapitre.

7.2 Protocole expérimental

7.2.1 Description généraleNous avons utilisé plusieurs collections provenant d’applications réelles. Elles ont

été initialement prévues pour évaluer les méthodes de classification binaire ou multi–classes, mais elles permettent de définir facilement plusieurs tâches de routage d’in-formation. Pour cela nous supposons qu’une classe représente un profil utilisateur. Les


exemples appartenant à une classe donnée sont supposés pertinents par rapport au profilconsidéré. Dans le cas contraire, les exemples sont considérés comme non–pertinents.

Ainsi pour chaque collection, nous avons défini une tâche d’ordonnancement as-sociée à chaque classe. Nous avons ensuite formé, pour chacune d’entre elles, 10 par-titions de la base. Elles permettent de définir une base d’apprentissage étiquetée, unebase d’apprentissage non–étiquetée et une base de test. Les partitions ont été forméesaléatoirement, mais nous nous sommes assurés que chaque base étiquetée contient aumoins un exemple pertinent et un exemple non–pertinent. C’est le seul biais que nousavons introduit dans la formation des bases.

Les méthodes supervisées sont entraînées sur la seule base étiquetée, tandis queles méthodes semi–supervisées utilisent en plus la base non–étiquetée. La base de testpermet d’évaluer les différentes méthodes. Les résultats présentés sont une moyennedes mesures de performance sur l’ensemble des partitions.

7.2.2 Mesures de performances utiliséesNous avons utilisé deux critères pour évaluer les modèles. Le premier, qui nous

semble le plus important, est l’aire sous la courbe ROC (AUC) et la deuxième estla précision moyenne. Rappelons leurs définitions en considérant une base de test Sconstituée d’exemples pertinents S1 et d’exemples non–pertinents S−1 :

AUC(h,S) =1

|S1|.|S−1|

∑x∈S1

∑x∈S−1

[[h(x) > h(x′)]]

AvPrec(h,S) =

|S|∑k=1

[email protected](k)

avec |S| le nombre d’exemples dans la base test, prec@k la précision obtenue en gar-dant uniquement les k exemples avec les plus grand scores. La fonction rel(k) vaut 1 sil’exemple avec le kième plus grand score est pertinent et vaut 0 sinon.

Les méthodes décrites dans cette thèse optimisent une fonction coût directementliée à l’AUC. Cette mesure de performance est celle qui nous intéresse en premier lieu.La précision moyenne nous permet de voir les performances d’un modèle sous un autreangle et apporte de ce fait des informations complémentaires. En effet, ces deux me-sures ne sont pas toujours corrélées [Davis and Goadrich, 2006].

7.2.3 Bases utiliséesNous allons maintenant décrire les bases utilisées dans nos expériences. Nous indi-quons notamment l’ensemble des prétraitements effectués.

base La base 2 est un ensemble de 348 566 d’extraits de journauxmédicaux en–ligne provenant de la base MEDLINE. Les extraits proviennent de 270

2http ://trec.nist.gov/data/t9_filtering.html


journaux parus entre 1 987 et 1 991 sont constitués d’un titre, d’un résumé et d’anno-tations manuelles appelées MESH (Medical Subject Headings). Dans nos expériences,nous avons utilisé les 63 thèmes définis pour le routage d’information dans le cadre deTREC-9 sur le filtrage [Robertson and Soboroff, 2002]. Chacun comporte entre 5 et188 articles pertinents, ce qui fait une moyenne de 59,8 articles pertinents par thème.Nous avons écarté les extraits ne comportant pas de résumé, ce qui nous conduit à233 445 documents.

Toutes les majuscules ont été transformées en minuscule. Nous avons aussi sup-primé les termes non informatifs (stop words) et les termes apparaissant dans moinsde 3 documents. Les pourcentages des bases d’apprentissage et de test par rapport à labase initiale sont respectivement 40% et 60%. Chaque donnée est représentée par unvecteur sac-de-mots en utilisant la technique –.

base La base -215783 est un ensemble d’articles parus en1987. Nous avons sélectionné les documents appartenant à au moins une thématique.Un document peut appartenir à plusieurs thèmes, mais cela concerne uniquement 20%des documents. Dans ce cas, nous avons gardé uniquement le premier thème dans lechamp <>. Dans nos expériences, nous avons gardé les documents appartenantaux 10 thèmes les plus fréquents, ce qui fait un ensemble de 9 509 documents en tout.Nous avons ensuite traité de la même manière que la base . La table 7.1 résumele ratio d’exemples pertinents dans cette base.

thème # de documents ratio d’ex. pertinents (%)earn 3972 41.77acq 2423 25.48

money-fx 682 7.17crude 543 5.71grain 537 5.64trade 473 4.98

interest 339 3.56ship 209 2.89

money-su 177 1.87sugar 154 1.67

T. 7.1 – Détails de la base .

base 1 Nous avons aussi utilisé la version originale de la base 1 [Lewis et al.,2004]. Chaque donnée est représentée par un vecteur sac-de-mots en utilisant la tech-nique –. Chaque composante est calculée par rapport à l’ensemble d’apprentissageou l’ensemble de test. Notons que, dans nos expériences, nous avons inversé le rôle dela base d’apprentissage et de la base de test initiale pour obtenir une base plus grande.Nous avons ensuite isolé 8 000 exemples de l’ensemble d’apprentissage pour formeraléatoirement les bases étiquetées. Le reste constitue l’ensemble des données non–étiquetées. Nous avons pris les classes , et comme profil utilisateur. Lescaractéristiques de l’ensemble des bases sont détaillées dans le tableau 7.2.

3http ://www.daviddlewis.com/resources/testcollections/reuters21578/


bases - et -sim Les bases - et - proviennent de la collection U-N 7 4,5 en isolant 4 groupes de discussions : simulation de course de voitures,simulation de pilotage d’avions, voitures réelles et aviation réelle. Initialement, ce sontdes bases utilisées pour la classification binaire. Nous les avons utilisées dans le cadrede l’ordonnancement biparti, où il s’agit d’ordonner les exemples positifs (considéréscomme pertinent) au–dessus des négatifs (considérés comme non–pertinent).

bases et Les bases et sont des bases image utilisées initialementen classification multi–classes. réunit plus de 7 000 images de chiffres manuscritstandis que est un ensemble d’images d’objets pris sous différents angles. Nousavons sélectionné pour les profils utilisateur les cinq premières classes trouvées dansles bases mises à la disposition de la communauté par O. Chapelle6.

Nous avons décrit l’ensemble des bases utilisées pour évaluer nos modèles. Letableau 7.2 récapitule l’ensemble de leurs caractéristiques.

base c d n + m t ratio d’ex. pertinents

63 21 351 93 378 140 067 <1%

10 8 675 3 803 5 705 1,7%-41,8%

- 1 20 707 68 175 2 000 65%- 1 20 958 69 201 2 000 31%

1 47 152 701 275 23 149 47% 1 47 152 701 275 23 149 30% 1 47 152 701 275 23 149 15%

5 256 7 291 2 007 10% 5 1 024 1 440 1 000 5%

T. 7.2 – Propriétés des bases utilisées pour évaluer les méthodes d’ordonnancementsemi–supervisé : c représente le nombre de profils utilisateur générés, n + m la taille dela base d’apprentissage (étiquetée et non–étiquetée), d la dimension du problème et tla taille de la base test.

7.2.4 Choix de l’algorithme de propagation pour BPour B, nous avons propagé le degré de pertinence des exemples étiquetés

aux k plus proches voisins. Pour l’ensemble des bases, nous avons utilisé la représenta-tion vectorielle décrite précédemment ainsi que la distance euclidienne pour déterminerles plus proches voisins. Cette procédure allie deux avantages : la simplicité et le faiblecoût.

4La version originale :http ://www.cs.umass.edu/ mccallum/code-data.html5La version prétraitée : http ://people.cs.uchicago.edu/∼vikass/datasets/lskm/svml/6http ://www.kyb.tuebingen.mpg.de/bs/people/chapelle/lds/

7.3 Validation des approches : semi–supervisé versus supervisé 115

7.3 Validation des approches : semi–supervisé versussupervisé

Nous présentons dans cette section une série d’expériences visant à comparer lesméthodes semi–supervisées et les méthodes supervisées dont elles s’inspirent. Nous al-lons commencer par une comparaison entre B et B. Nous allons ensuitecomparer les performances de R et de S. Nous n’avons à ce niveau pasde comparaisons entre les méthodes transductives de l’état de l’art et nos modèles, puis-qu’il n’existe, à notre connaissance, aucune équivalence inductive de ces techniques.

7.3.1 Comparaison expérimentale entre B et BB est entraîné uniquement sur les données étiquetées, alors que les mé-

thodes semi–supervisées utilisent en plus les données non–étiquetées de la base d’ap-prentissage. Nous avons de plus fixé le paramètre λ à 1 pour l’algorithme B.

Pour l’ensemble des résultats, nous avons mis les meilleures performances en gras.Nous avons aussi indiqué par le symbole ↓ les résultats considérés comme significa-tivement pires d’après un test de rang signé de Wilcoxon avec une valeur p de 1%[Lehmann, 1975].

Apport global des données non–étiquetées sur les bases et

Nous avons réalisé une première série d’expériences sur les bases et -. Pour , la taille de la base étiquetée pour chaque thème a été fixée à 180avec exactement 3 pertinents et 177 non–pertinents. Pour , elle a été fixée à 90avec exactement 9 pertinents. Nous avons utilisé comme première mesure d’évalua-tion, l’AUC mesurée sur les r exemples obtenant les plus grands scores. Nous avonspris les 500 premiers exemples pour et les 1 000 premiers exemples pour -. Nous noterons cette mesure de performance mAUC. Nous avons aussi calculé laprécision moyenne sur les 50 exemples ayant obtenu les plus grands scores. Nous dé-signerons cette mesure par mPrec.

Nous pouvons remarquer que la base est très déséquilibrée. La base - est aussi déséquilibrée et comporte beaucoup moins d’exemples que la base -. Au vu de ces constats, nous avons testé des petites valeurs pour k : 1, 2 et 3. Nouslimitons les erreurs que l’algorithme non–superviséA peut faire. Le tableau 7.3 résumeles résultats obtenus sur les mesures mAUC et mPrec.

base base

Méthode mAUC(1 000) mPrec(50) mAUC(500) mPrec(50)

B 23,5 ± 0,3↓ 33,6 ± 0,2↓ 40,9 ± 0,6↓ 64,5 ± 0,4↓

B, k = 1 30,3 ± 0,2 40,4 ± 0,4 57,3 ± 0,3 74,8 ± 0,1B, k = 2 28,9 ± 0,1 38,6 ± 0,3 59,4 ± 0,4 76,6 ± 0,5B, k = 3 27,2 ± 0,5 36,5 ± 0,2 57,6 ± 0,2 73,2 ± 0,3

T. 7.3 – Performance en AUC moyenne tronquée à 500 ou 1 000 (mAUC) et en préci-sion moyenne tronquée à 50 (mPrec) sur les bases et .


Nous constatons que notre méthode semi–supervisée B obtient des perfor-mances significativement meilleures que la méthode supervisée B. Pour l’en-semble des valeurs de k testées, la méthode B reste compétitive et l’écart avecles performances de la méthode supervisée est assez conséquente. Les meilleurs résul-tats pour la base sont obtenus pour une valeur de k égale à 1 alors que pourla base elle est de 2. Les expériences montrent que notre algorithme peut ex-ploiter à son avantage les données non–étiquetées. Au delà des valeurs optimale, nousconstatons une diminution des performances : l’algorithme semble ne plus pouvoir gé-rer correctement les erreurs induites par la propagation.

Apport des données non–étiquetées pour l’ordonnancement d’instances sur lesbases , -, - et 1

Nous allons maintenant regarder les résultats par tâche d’ordonnancement. Nousdétaillons les résultats obtenus précédemment pour la base dans le tableau7.3.1 pour la valeur optimale de k trouvée. Le modèle obtenu en utilisant le nombreoptimal d’exemples non–étiquetés est désigné par B∗.

B B∗

earn 85,6 ± 0,7↓ 94,8±0,1acq 81,3 ± 0,6↓ 91,5±0,3

money-fx 83,8 ± 0,4↓ 92,8±0,7crude 83,4 ± 0,5↓ 95,5±0,2grain 84,5 ± 0,4↓ 93,1±0,1trade 84,9 ± 0,6↓ 92,4±0,5

interest 79,9 ± 0,6↓ 90,5±0,4ship 81,2 ± 0,2↓ 89,7±0,3

money-su 80,2 ± 0,3↓ 91,3±0,2sugar 78,6 ± 0,1↓ 90,3±0,4

T. 7.4 – Performances AUC sur la base pour B et B

Nous avons aussi réalisé une deuxième série d’expériences sur les bases -,-, , et . Nous avons fixé la taille de la base étiquetée à 100, le nombrede seuils à 2000 et le nombre d’itérations à 300. Par défaut, nous avons propagé les va-leurs des étiquettes aux 10 exemples les plus proches des exemples étiquetés. Contrai-rement aux expériences précédentes, les bases sont cette fois–ci moins déséquilibréeset beaucoup plus grandes. Nous avons aussi testé plusieurs valeurs de propagation :20, 30, 40 et 50 pour l’algorithme des k plus proches voisinsA. Nous désignerons parB∗, le modèle qui obtient la meilleure performance AUC moyenne sur les 10partitions. Les tableaux 7.5 et 7.6 regroupent les résultats obtenus sur ces bases.

Les résultats obtenus confirment que notre méthode semi–supervisée parvient àobtenir des résultats bien meilleurs que la méthode supervisé. Ce constat s’observe nonseulement sur la mesure AUC mais aussi sur la précision moyenne. Soulignons quece constat se base sur des résultats considérés comme significatifs par le test de pairessignées de Wilcoxon.

Notons que l’ensemble des exemples non–étiquetés pour B est défini àl’avance par l’algorithme non–supervisé A. La stratégie d’auto-apprenabilité propo-sée pour l’algorithme R est assez instable avec B et notre étude sur ce


B B10 B∗

- 79,1 ± 2,5↓ 89.3 ± 1,5 90,3 ± 1,1- 87,2 ± 2,6↓ 93,8 ± 0,6 94,5 ± 0,6 80,1 ± 1,3↓ 86,4 ± 1.0 87,4 ± 0,8 85,6 ± 1,9↓ 91,7 ± 0.7 92,9 ± 0,7 66,6 ± 4,1↓ 74,9 ± 4.0 76,8 ± 0.6

T. 7.5 – Performance AUC sur les bases -, - et 1

B B10 B∗

- 62,8 ± 3,5↓ 79,4 ± 2,5 81,0 ± 2,1- 92,7 ± 1,5↓ 96,5 ± 0,4 96,9 ± 0,4 79,2 ± 1,4↓ 85,9 ± 1,0 87,1 ± 0,8 73,2 ± 4,1↓ 84,7 ± 0,8 86,9 ± 0,2 29,2 ± 4,0↓ 40,9 ± 6,0 44,2 ± 9,0

T. 7.6 – Précision moyenne sur les bases -, - et 1

sujet est en cours. Pour cette raison, nous avons jugé qu’il n’est pas tout à fait infor-matif de comparer entre B et R, vu que ce dernier exploite les donnéesnon–étiquetées dynamiquement au cours de l’apprentissage.

7.3.2 Comparaison expérimentale entre S, et -R

Nous allons maintenant évaluer les approches R et . Nous avons uti-lisé comme modèle de référence la méthode supervisée sup, qui optimise l’AUC surla base étiquetée avec une fonction de perte hinge (cf. section 3). Un algorithme efficaceest donnée dans [Joachims, 2005] avec P7 ou dans [Teo et al., 2007] avec 8.

Pour la méthode supervisée, le paramètre de régularisation est choisi dans l’en-semble

{10−4, 10−2, 1, 102, 104

}. Nous avons reporté le meilleur résultat pouvant être

obtenu (en moyenne) sur l’ensemble de test.La méthode R possède deux hyperparamètres : le coefficient de régularisa-

tion que l’on notera C et le seuil ζ qui intervient dans le processus d’étiquetage desdonnées non–étiquetées (chapitre 5, section 5.2.2). Nous avons fixé le paramètre C à 1et avons fait varier le seuil ζ dans l’ensemble { 0,1 , 0,2 , 0,3 , 0,4 , 0,5 }.

Pour la méthode , nous avons fixé ζ à 0,5. Nous avons choisi C parmi 10−2

et 1 et C′ parmi 10−4, 10−2, 10−1 et 1. Dans le cas des grandes bases, nous avons réduitle nombre d’expériences pour en fixant C à 10−2.

Résultats expérimentaux

Nous avons fait une première série d’expériences pour comparer sup avec -R. Nous avons utilisé un nombre restreint de données étiquetées : 10 pour , 20pour et 100 pour -, -, , et . Nous avons aussi utilisé le

7http ://svmlight.joachims.org/svm_perf.html8http ://users.rsise.anu.edu.au/∼chteo/BMRM.html


méthode paramètre valeurs testées

C { 10−4, 10−2, 1, 102, 104 }

R C 1ζ { 0,1 , 0,2 , 0,3 , 0,4 , 0,5 }

C {10−2,1} ou 1C’ {10−4, 10−2, 10−1,1}ζ 0,5

T. 7.7 – Valeurs des hyperparamètres utilisées en apprentissage pour les méthodesS, R et .

test des rangs signés de Wilcoxon lorsque les méthodes semi–supervisées obtenaientdes meilleurs résultats que la méthode supervisée sup. Nous avons indiqué par lesymbole ⇓ des résultats statistiquement significatifs pour une valeur p de 5% et par ⊥pour une valeur de p de 10%.

Pour la première série d’expériences, nous avons sélectionné les paramètres per-mettant d’obtenir la meilleure performance moyenne sur les 10 partitions. Rappelonsque ce protocole [Chapelle et al., 2006] permet uniquement d’estimer le potentiel desalgorithmes. Les modèles obtenus sont notés sup, R∗ et ∗. Pour laméthode supervisée, nous avons aussi réglé l’hyperparamètre sur la base de test et celapour chaque partition. En somme, c’est le meilleur résultat que l’on peut espérer obteniravec la méthode supervisée et les valeurs de C utilisées dans notre protocole expéri-mental. Nous notons sup

best, le modèle ainsi obtenu.

supbest sup R∗ ∗

–1 89,0 ± 14,0 88,7 ± 14,1⇓ 94,3 ± 3,0 94,7 ± 4,0–2 99,7 ± 0,2 99,7 ± 0,2 99,7 ± 0,2 99,7 ± 0,2–3 90,6 ± 5,2 90,5 ± 5,1⇓ 93,5 ± 2,5 95,0 ± 4,0–4 89,9 ± 5,4 89,5 ± 5,2 91,9 ± 4,7 91,6 ± 6,4–5 88,1 ± 7,5 87,1 ± 7,2⇓ 90,7 ± 6,1 92,1 ± 7,1

T. 7.8 – Performance AUC de R et de sur la base .


–1 92,2 ± 6,5 92,2 ± 6,6⇓ 94,4 ± 5,7 96,7 ± 5,2–2 68,9 ± 12,6 64,7 ± 13,7 70,6 ± 4,3 64,8 ± 15,9–3 87,5 ± 6,5 87,5 ± 6,5 87,9 ± 7,7 88,0 ± 6,4–4 96,2 ± 3,0 96,2 ± 3,0⇓ 98,2 ± 2,6 97,0 ± 3,4–5 74,8 ± 7,3 74,8 ± 7,3⇓ 77,5 ± 6,8 78,0 ± 6,5

T. 7.9 – Performance AUC de R et de sur la base .


Les performances en AUC pour et sont résumées dans les tableaux 7.8et 7.9. Au vu des résultats, nous constatons que les deux méthodes semi–superviséesobtiennent des résultats meilleurs que la méthode apprise uniquement sur la base éti-quetée. Il est intéressant de voir qu’elles sont souvent plus compétitives que sup

best.Cette amélioration peut être concrètement mesurée en regardant l’écart absolu et relatifde l’erreur en classification de paires critiques (cf. table 7.10).

R 2,9% 3,5% 2,6% 1.8%

R 26,3% 31,8% 10,7% 12,6%

T. 7.10 – Erreur de classification de paires critiques : écart absolu moyen (gauche) etécart relatif moyen (droite) pour et .

Nous constatons que l’écart absolu est relativement faible, mais ceci s’explique parles bonnes performances des modèles supervisés initiaux. Il n’est donc pas étonnantde voir que les écarts absolus se traduisent par des écarts relatifs plus conséquents. Ilspermettent de mieux mesurer l’amélioration obtenue par nos méthodes et montrent em-piriquement l’apport des données non–étiquetées à l’apprentissage. Néanmoins, l’amé-lioration obtenue n’est pas toujours significative. Ceci montre la difficulté du cadresemi–supervisé avec peu de données étiquetées.

Notons aussi que est globalement plus performant que R. Les don-nées non–étiquetées peuvent être exploitées individuellement, mais l’information ré-side aussi dans leur structure. Les traiter dans leur ensemble représente un avantagepour sur R.

Ce constat se confirme dans les grandes lignes sur la mesure de la précisionmoyenne (cf. tableaux 7.11 et pour 7.12). Notons toutefois une diminution de la pré-cision moyenne pour la base -5, qui contraste avec l’amélioration observée surla mesure AUC. Les travaux de [Davis and Goadrich, 2006] ont en effet montré quel’AUC et la précision moyenne ne sont pas forcément corrélées pour des bases trèsdéséquilibrées. C’est le cas de puisqu’elle contient environ 5% de données perti-nentes.


–1 76,7 ± 16,8 76,3 ± 17,0⊥ 79,3 ± 9,6 82,7 ± 12,9–2 99,2 ± 0,3 99,1 ± 0,4 99,3 ± 0,4 99,2 ± 0,4–3 69,8 ± 12,1 69,0 ± 11,5⇓ 75,2 ± 10,3 83,8 ± 13,4–4 61,7 ± 17,5 59,9 ± 17,8 61,0 ± 17,9 58,7 ± 20,7–5 54,8 ± 16,4 51,0 ± 16,6⇓ 53,0 ± 14,8 63,7 ± 15,2

T. 7.11 – Précision moyenne de R et de sur la base .

La deuxième série d’expériences concerne les bases de plus grande taille : -, - et 1. Les résultats (cf. tableaux 7.13 et 7.14) montrent clairement lasupériorité des méthodes semi–supervisées proposées et cela pour les deux mesures deperformances. Les améliorations obtenues sont presque toutes significatives. Contrai-rement aux résultats précédents, la méthode R prend cette fois–ci l’avantage sur. Comme en classification supervisé, l’approche en–ligne semble être particu-lièrement adaptée pour les grandes bases de données.


supbest sup R∗

–1 68,6 ± 19,2 68,6 ± 19,2 72,2 ± 14,9 72,1 ± 12,7–2 40,4 ± 17,9 35,2 ± 17,6 38,9 ± 22,1 37,0 ± 24,6–3 36,6 ± 11,3 36,6 ± 11,3 38,6 ± 16,6 38,9 ± 12,6–4 74,4 ± 18,5 74,4 ± 18,5 81,8 ± 22,7 68,7 ± 28,4–5 41,3 ± 12,0 41,3 ± 13,0 27,6 ± 10,0 19,5 ± 8,4

T. 7.12 – Précision moyenne de R et de sur la base .


- 93,4 ± 1,0 93,4 ± 1,0⇓ 94,1 ± 0,9 93,0 ± 1,0- 94,8 ± 0,9 94,8 ± 1.0⇓ 96,0 ± 0,7 95,8 ± 1,3 89,5 ± 0,7 89,5 ± 2,2⇓ 91,5 ± 0,7 91,5 ± 0,7 96,3 ± 0,4 96,3 ± 1,3⇓ 97,2 ± 0,3 96,3 ± 0,5 84,4 ± 3,7 84,1 ± 12,2 85,4 ± 3,6 84,2 ± 3,9

T. 7.13 – Performance AUC de R et de sur les bases -, -et 1.


- 86,7 ± 1,0 86,7 ± 1,0⇓ 88,1 ± 1,6 84,8 ± 3,0- 96,9 ± 0,6 96,8 ± 0,8⇓ 97,6 ± 0,4 97,6 ± 0,8 88,7 ± 1,0 88,6 ± 1,0⇓ 91,0 ± 1,3 91,7 ± 0,6 92,3 ± 1,3 92,7 ± 1,2⇓ 94,8 ± 0,6 92,6 ± 1,2 57,6 ± 5,2 57,2 ± 5,5⊥ 59,8 ± 7,0 57,4 ± 6,0

T. 7.14 – Précision moyenne de R et de sur les bases -, - et 1.

7.3.3 RésuméNous avons ainsi comparé les méthodes semi–supervisées avec les méthodes su-

pervisées. Les résultats expérimentaux montrent clairement l’avantage d’exploiter lesdonnées non–étiquetées pour l’ordonnancement. Notons que les résultats obtenus ontpermis d’évaluer uniquement le potentiel des deux algorithmes. Dans le cas de -B, nous avons vu que l’amélioration était significative sur l’ensemble des para-mètres testés. Ce n’est pas forcément le cas pour B et R sur et .Le réglage des méta–paramètres reste ainsi une question importante surtout pour -R. Nous allons en discuter dans la section suivante.

7.4 Discussion sur le réglage des méta–paramètresLe choix des hyperparamètres en apprentissage semi–supervisé reste encore un

champ d’études ouvert, surtout en présence de très peu de données étiquetées. Dansles articles en apprentissage semi–supervisé, on rencontre souvent trois stratégies dif-férentes : l’utilisation des valeurs par défaut, la minimisation de l’erreur moyenne surla base de test et la validation croisée.

7.4 Discussion sur le réglage des méta–paramètres 121

Valeurs par défaut La première stratégie consiste à utiliser des valeurs par défaut,comme nous l’avions fait pour B. Elle évite ainsi d’explorer plusieurs valeurs desparamètres. Malgré sa simplicité, elle permet d’obtenir une comparaison juste entre lesmodèles. Mais elle dépend naturellement du choix des valeurs par défaut.

Minimisation de l’erreur moyenne de test La deuxième consiste à garder les para-mètres qui minimisent l’erreur moyenne sur l’ensemble des partitions. Cette approcheest utilisée et préconisée dans [Chapelle et al., 2006; Chapelle and Zien, 2005]. Contrai-rement à la précédente, elle permet d’estimer pleinement le potentiel d’une méthode.Cette approche n’est pas applicable dans le cas réel. Nous l’avons utilisée dans la sec-tion précédente.

Validation croisée La troisième est une variation de la validation croisée proposéepour l’apprentissage supervisé. Pour ce faire, nous avons partitionné la base étiquetéeet avons gardé pour chaque expérience la totalité des données non–étiquetées. La vali-dation croisée est donc similaire à celle pratiquée en apprentissage supervisé. La seuledifférence vient de l’utilisation des données non–étiquetées pour apprendre chaque mo-dèle. L’algorithme 19 décrit le pseudo–code pour estimer l’erreur en validation croiséepour des paramètres fixés. Le réglage des méta–paramètres consiste à sélectionner lesparamètres qui la minimisent. Notons que la validation croisée nécessite d’une certainequantité de données étiquetées pour obtenir des bases de test valides et pour avoir unebonne estimation de l’erreur.

Algorithme 19 Estimation de l’erreur en généralisation en apprentissage semi–supervisé par validation croisée.E: Un ensemble d’apprentissage étiqueté SL et non–étiqueté SU

Des paramètres du modèles notés θUne partition de SL en K sous–ensembles disjoints :

{Svc

j

}K

j=11: εvc ← 02: pour k=1,. . .,K faire3: Stest ← S

vck

4: Strain ← ∪ j,kS vcj

5: Apprendre un modèle sur ∪ j,kS vcj et sur SU avec les paramètres θ

6: εvc ← εvc + erreur_test(S test)/K7: fin pour

S: εvc

Elle permet de définir des valeurs de paramètres avec beaucoup plus de réalismeque les approches précédentes. Jusqu’à présent, nous avions uniquement utilisé lesdeux premières stratégies. Dans le cas de B, nous avions testé avec succès plu-sieurs valeurs par défaut pour le paramètre k de l’algorithme non–supervisé A. PourR, nous avions opté la deuxième stratégie pour montrer tout le potentiel de notrealgorithme. Par conséquent, nous avons conduit d’autres expériences pour Rdans un cadre plus réaliste.

7.4.1 Expériences sur les moyennes et grandes basesNous nous sommes intéressé aux performances pouvant être obtenues par valida-

tion croisée. Pour cela, nous avons repris le même protocole expérimental que celui


utilisé pour les bases -, - et 1 (cf. section 7.3.1). Nous désigneronspar Rvc le modèle obtenu par validation croisée. Nous avons comparé sesperformances avec d’autres stratégies de réglage des méta–paramètres : R∗ etRval

1000. Cette dernière est le modèle obtenu en utilisant une base de validationde 1 000 exemples9. Nous avons aussi reporté les résultats obtenus dans le cadresupervisé. Le symbole ∗ indique le modèle obtenu en minimisant l’erreur moyenne detest et best indique la plus petite erreur pouvant être obtenue sur l’erreur de test avecl’ensemble des valeurs des paramètres de l’expérience.

Les résultats sont résumés dans la table 7.15 pour l’AUC et dans la table 7.16 pourla précision moyenne.

supbest sup R∗ Rval

1000 Rvc

- 93,4 ± 1,0 93,4 ± 1,0 94,1 ± 0,9 94,3 ± 0,7 93,6 ± 0,8- 94,8 ± 0,9 94,8 ± 1.0 96,0 ± 0,7 96,1 ± 0,3 96,0 ± 0,4 89,5 ± 0,7 89,5 ± 2,2 91,5 ± 0,7 91,7 ± 0,8 91,5 ± 1,0 96,3 ± 0,4 96,3 ± 1,3 97,2 ± 0,3 97,4 ± 1,9 97,1 ± 3,1 84,4 ± 3,7 84,1 ± 12,2 85,4 ± 3,6 85,3 ± 3,6 85,4 ± 3,6

T. 7.15 – Performance AUC des différents modèles semi–supervisés sur les bases-, - et 1.

supbest sup R∗ Rval

1000 Rvc

- 86,7 ± 1,0 86,7 ± 1,0 88,1 ± 1,6 88,1 ± 1,2 87,2 ± 1,2- 96,9 ± 0,6 96,8 ± 0,8 97,6 ± 0,4 97,5 ± 0,3 97,5 ± 2,8 88,7 ± 1,0 88,6 ± 1,0 91,0 ± 1,3 91,4 ± 0,9 90,9 ± 1,3 92,3 ± 1,3 92,7 ± 1,2 94,8 ± 0,6 95,0 ± 0,4 94,5 ± 0,7 57,6 ± 5,2 57,2 ± 5,5 59,8 ± 7,0 59,9 ± 7,5 59,8± 7,0

T. 7.16 – Précision moyenne des différents modèles semi–supervisés sur les bases-, - et 1.

Sans surprise, l’utilisation d’une base de validation permet d’obtenir les meilleursmodèles. La validation croisée sur uniquement 100 exemples étiquetés permet desélectionner des modèles compétitifs. Leur performances restent proches, bien qu’endeçà, de Rval

1000. Comme dans le cas supervisé, cette approche nécessite ungrand nombre d’exemples étiquetés pour être totalement efficace. Les performancesen pâtissent naturellement avec un nombre plus restreint. En somme, elle donnedes bons résultats puisqu’en moyenne les performances obtenues sont supérieuresaux meilleures performances possibles dans le cadre supervisé. C’est un résultatintéressant, puisque cette stratégie est la plus réaliste.

9Dans ce cas, nous avons isolé ces exemples de la base non–étiquetée.

7.4 Discussion sur le réglage des méta–paramètres 123

7.4.2 Stratégie lno pour le réglage des méta–paramètresCependant, lorsqu’il y a très peu d’exemples étiquetés, on ne peut pas utiliser la

validation croisée. Pour et , les bases étiquetées peuvent contenir qu’un seulexemple pertinent. Les partitions peuvent contenir que des exemples d’une seule classerendant cette approche invalide. Nous proposons une nouvelle stratégie : l’approchelno (Leave some Negatives Out). Le principe est de retirer un (ou plusieurs) exemplenégatif et de prendre comme mesure la distance moyenne de leurs scores dh(x,S1) parrapport aux exemples pertinents de la base (cf. section 5.2.2 ).

Expériences sur les bases et Les résultats sont résumés dans les tables7.17, 7.18 pour l’AUC et dans les tables 7.19, et 7.20 pour la précision moyenne.

supbest sup R∗ Rlno

–1 89,0 ± 14,0 88,7 ± 14,1⇓ 94,3 ± 3,0 93,2 ± 3,9–2 99,7 ± 0,2 99,7 ± 0,2 99,7 ± 0,2 99,5 ± 0,4–3 90,6 ± 5,2 90,5 ± 5,1⇓ 93,5 ± 2,5 91,6 ± 4,3–4 89,9 ± 5,4 89,5 ± 5,2 91,9 ± 4,7 90,5 ± 4,5–5 88,1 ± 7,5 87,1 ± 7,2⇓ 90,7 ± 6,1 90,3 ± 3,5

T. 7.17 – Performance AUC des différents modèles semi–supervisés sur la base .


–1 92,2 ± 6,5 92,2 ± 6,6 94,4 ± 5,7 95,5 ± 5,2–2 68,9 ± 12,6 64,7 ± 13,7 70,6 ± 4,3 68,6 ± 16,9–3 87,5 ± 6,5 87,5 ± 6,5 87,9 ± 7,7 87,3 ± 7,3–4 96,2 ± 3,0 96,2 ± 3,0 98,2 ± 2,6 97,6 ± 2,8–5 74,8 ± 7,3 74,8 ± 7,3 77,5 ± 6,8 75,8 ± 9,0

T. 7.18 – Performance AUC des différents modèles semi–supervisés sur la base .

Nous constatons que les performances de R par lno sont moins bonnes quecelles obtenues par R∗. Néanmoins, l’AUC et la précision moyenne sont, dansla majorité des cas, supérieures à celles obtenues par la stratégie supervisée sup.Mais ce constat est moins vrai avec sup

best et l’amélioration obtenue n’est pas toujourssignificative avec le test de Wilcoxon. L’ensemble de ces résultats montrent que l’ap-proche lno peut sélectionner des modèles compétitifs, mais ils sont loin d’être les plusperformants. Cela met en exergue deux difficultés : la première est liée aux bases et pour l’apprentissage semi–supervisé, et la deuxième est la sélection de modèleavec seulement 10 exemples étiquetés.



–1 76,7 ± 16,8 76,3 ± 17,0⇓ 79,3 ± 9,6 80,7 ± 6,8–2 99,2 ± 0,3 99,1 ± 0,4 99,3 ± 0,4 97,7 ± 2,9–3 69,8 ± 12,1 69,0 ± 11,5 75,2 ± 10,3 68,2 ± 17,1–4 61,7 ± 17,5 59,9 ± 17,8 61,0 ± 17,9 57,4 ± 19,5–5 54,8 ± 16,4 51,0 ± 16,6 53,0 ± 14,8 55,5 ± 20,3

T. 7.19 – Précision moyenne des différents modèles semi–supervisés sur la base .


–1 68,6 ± 19,2 68,6 ± 19,2 72,2 ± 14,9 72,2 ± 14,9–2 40,4 ± 17,9 35,2 ± 17,6 38,9 ± 22,1 39,2 ± 21,9–3 36,6 ± 11,3 36,6 ± 11,3 38,6 ± 16,6 37,1 ± 16,9–4 74,4 ± 18,5 74,4 ± 18,5 81,8 ± 22,7 77,3 ± 23,6–5 41,3 ± 12,0 41,3 ± 13,0 27,6 ± 10,0 42,6 ± 18,0

T. 7.20 – Précision moyenne des différents modèles semi–supervisés sur la base .

Comparaison avec la sélection aléatoire Nous poussons un peu plus loin l’évalua-tion de l’approche lno en la comparant avec un modèle qui sélectionne aléatoirementles valeurs du seuil. Nous voulons estimer à quel point cette approche permet desélectionner un modèle performant. Nous avons fait un tirage aléatoire et uniformedans { 0,1 , 0,2 , 0,3 , 0,4 , 0,5 }, Ses performances sont une moyenne sur 1 000tirages pour chacune des partitions, Le tableau 7.21 montre les résultats pour l’AUCsur les bases image. Nous avons indiqué en plus l’écart–type de l’AUC obtenu par lasélection aléatoire et le nombre de fois en pourcentage qu’un de ces modèles obtientun meilleur AUC que Rlno (colonne prob dans les tableaux).

Rlno Rrdm prob1 93,2 91,1 ± 1,3 17,62 99,5 99,3 ± 1,7 12,73 91,6 91,7 ± 0,9 59,94 90,5 90,7 ± 0,7 60,35 88,8 87,2 ± 1,7 15,0

Rlno Rrdm prob1 95,5 93,2 ± 1,0 0,82 68,6 68,1 ± 2,3 41,13 87,3 86,9 ± 1,0 34,04 97,6 96,7 ± 0,5 23,75 75,8 75,4 ± 9,0 35,3

T. 7.21 – Comparaison entre la sélection des paramètres lno et la sélection aléatoiresur (à gauche) et (à droite).

Les résultats montrent que l’approche lno permet d’obtenir dans la grande majoritédes cas un modèle plus performant qu’une simple sélection aléatoire. En moyenne,la sélection aléatoire est meilleure sur uniquement deux bases : -1 et -2.Cependant, l’écart n’est pas toujours flagrant et la probabilité que le modèle desélection aléatoire est plus compétitif que lno est relativement grande : 15% enmoyenne sur –1, –2 et –3, soit 30% sur l’ensemble des bases et 27%sur l’ensemble des bases .

7.5 Évolution des performances en fonction du nombre d’exemples étiquetés 125

Nous pouvons aussi constater que la méthode slaRankrdm obtient (en moyenne) desperformances supérieures à la méthode supervisée sup sur la grande majorité desbases de et . Ces résultats confirment que notre algorithme arrive à exploiterefficacement les données non–étiquetées. Ils mettent aussi en exergue toute la difficultéde choisir correctement les hyperparamètres dans un tel contexte.

7.4.3 RésuméNous avons comparé plusieurs stratégies pour le réglage des méta–paramètres :

minimisation de l’erreur moyenne de test, utilisation d’une base de validation ou sélec-tion par validation croisée. Les trois approches permettent d’améliorer le modèle super-visé, c’est–à–dire le adapté à l’ordonnancement. Dans nos expériences, nous avonsvu que la validation croisée permettait de sélectionner un modèle pouvant rivaliseravec celui choisi grâce à un ensemble de validation. Ainsi, lorsqu’il y a suffisammentd’exemples, il est possible de sélectionner correctement des modèles semi–supervisésperformants.

Mais cette approche ne peut plus être appliquée lorsqu’il y a très peu de donnéesétiquetées, comme c’était le cas pour nos expériences sur et sur . Nous avonsproposé une heuristique pour fixer les hyperparamètres du modèle. Les résultats ontmontré une amélioration par rapport au modèle supervisé même si elle est moins signi-ficative.

7.5 Évolution des performances en fonction du nombred’exemples étiquetés

7.5.1 Méthode BNous montrons le comportement global des méthodes B et B

lorsque le nombre d’exemples étiquetés augmente. La figure 7.2 illustre l’évolutionde la mesure mAUC (c’est–à–dire l’AUC moyennée sur l’ensemble des thèmes) surles bases et . Notons que l’ajout des données étiquetées respecte laproportion initiale des données.

Le nombre d’itération pour les méthodes de boosting a été fixé à 50 et le paramètrede propagation de B a été fixé à 3. Nous avons utilisé les valeurs par défaut pourles autres méthodes. Le tracé en rouge montre l’évolution de l’AUC pour notre mé-thode semi–supervisée B. Le tracé en bleu correspond à la méthode supervisée.

Les courbes montrent que la performance de l’ensemble des méthodes augmentede façon monotone avec l’ajout des exemples étiquetés. Les méthodes d’ordonnance-ment semi–supervisées obtiennent de nouveau les meilleures performances sur les deuxbases. Nous notons ainsi que l’écart tend à diminuer mais il reste relativement grand.


F. 7.2 – Évolution de l’AUC en fonction du nombre d’exemples étiquetés des mé-thodes B et B sur les bases (à droite) et (à gauche).

7.5.2 Méthode RNous considérons dans cette section la méthode R. Nous avons tracé l’évo-

lution de l’AUC et de la précision moyenne sur l’ensemble de test en fonction desdonnées étiquetées pour les collections 1, - and -. La taille de la baseétiquetée varie de 10 à 1 000, Les paramètres sont choisis avec une base de validation.Dans les graphes, notre méthode est représentée en rouge alors que le sup en bleu.Nous constatons que l’ensemble des courbes de performance de R est toujoursau dessus de celle de la méthode supervisée. Notons toutefois que sup arrive à battreune seule fois notre méthode pour la base - sur la mesure AUC. Au delà de 1 000exemples, les courbes ont tendance à se rejoindre.

75

80

85

90

95

100

10 100 1000

AU

C

Nombre d’exemples étiquetées

svm supervisé

slaRank 84

86

88

90

92

94

96

98

100

10 100 1000

Pré

cisi

on m

oyen

ne


svm supervisé

slaRank

F. 7.3 – Évolution des mesures de performance AUC (à gauche) et de la précisionmoyenne (à droite) des méthodes R et du pour l’ordonnancement sur labase -.

7.5 Évolution des performances en fonction du nombre d’exemples étiquetés 127

75

80

85

90

95

100

10 100 1000

AU

C

Nombre de données étiquetées

svm supervisé

slaRank 55

60

65

70

75

80

85

90

95

100

10 100 1000

Pré

cisi

on m

oyen

ne


svm supervisé

slaRank

F. 7.4 – Évolution des mesures de performance AUC (à gauche) et de la précisionmoyenne (à droite) des méthodes R et du pour l’ordonnancement sur labase -.

70

75

80

85

90

95

100

10 100 1000

AU

C


svm supervisé

slaRank 70

75

80

85

90

95

100

10 100 1000

Pré

cisi

on m

oyen

ne


svm supervisé

slaRank

F. 7.5 – Évolution des mesures de performance AUC (à gauche) et de la précisionmoyenne (à droite) des méthodes R et du pour l’ordonnancement sur labase .

65

70

75

80

85

90

95

10 100 1000

AU

C


svm supervisé

slaRank 30

35

40

45

50

55

60

65

70

75

80

10 100 1000

Pré

cisi

on m

oyen

ne


svm supervisé

slaRank



84

86

88

90

92

94

96

98

100

10 100 1000

AU

C


svm supervisé

slaRank 65

70

75

80

85

90

95

100

10 100 1000

Pré

cisi

on m

oyen

ne


svm supervisé

slaRank


7.6 Temps d’apprentissage des méthodes semi–supervisées

7.6.1 BNous avons mesuré le temps d’apprentissage des algorithmes B et R

sur les bases -, -, , et . Le tableau 7.22 en donne un ordrede grandeur. L’estimation se base sur une moyenne des expériences réalisées. Notonsqu’elles ont été menées sur un cluster. Le temps estimé est ainsi approximatif puisqu’ildépend de la charge de chaque noeud. Elles peuvent être comparées au temps d’opti-misation de la fonction objectif en classification. Sur la base complète , unedescente de gradient stochastique met un peu moins de deux secondes10.

base B R- 1h 36 min 38 sec 25 sec- 1h 23 min 45 sec 11 sec 2h 20 min 27 sec 41 sec 2h 20 min 27 sec 63 sec 2h 11 min 35 sec 34 sec

T. 7.22 – Temps consacré à l’apprentissage (en secondes) pour n = 100.

La méthode B obtient des temps de calcul plutôt correct au vue de la tailledes bases étiquetées. Lors de ces expériences, nous avions fixé à 300 le nombre d’itéra-tions. En fait, un nombre d’itérations moins élevé peut suffire pour atteindre des résul-tats comparables. Une limite de 100 itérations permet de diviser le temps de calcul par3 ce qui aurait fait approximativement 30 minutes pour - et - et 1 heureet 10 minutes pour les bases 1. Nous rappelons que la complexité de l’algorithmeB dépend en grande partie de la complexité de l’algorithme non–supervisé A(cf. section suivante).

Finalement, les caractéristiques de R permettent un temps d’apprentissageextrêmement court sur des grandes bases de données. Ces résultats confirment expé-rimentalement la faible complexité de l’algorithme. De même, il n’est pas étonnant

10http ://leon.bottou.org/projects/sgd

7.6 Temps d’apprentissage des méthodes semi–supervisées 129

de constater un temps d’apprentissage plus élevé pour l’algorithme B. En effet,bien que sa complexité soit linéaire, elle dépend à la fois du paramètre de propagation,du nombre d’itérations et du nombre de seuils utilisés pour les fonctions d’ordonnan-cement faible. L’algorithme B reste néanmoins compétitif sur ce critère. Nousn’avions pas mesuré exactement le temps d’apprentissage pour la méthode .Mais le temps variait entre quelques minutes à quelques heures.

Évolution du temps d’apprentissage avec le paramètre de propagation

Nous avons aussi regardé l’évolution du temps d’apprentissage de B en fonc-tion du paramètre de propagation. Nous constatons une évolution presque linéaire surles bases - et -. L’augmentation du temps est beaucoup plus prononcéepour les bases 1. La dimension de la base 1 est en effet beaucoup plus grandeque celle de - et d’-.

4h

8h

12h

16h

20h

24h

28h

32h

36h

40h

10 20 30 40 50 60 70 80

tem

ps

paramètre de propagation

aut−avn

real−sim

ccat

gcat

ecat

F. 7.8 – Temps d’apprentissage de B en fonction du paramètre de propagation.

7.6.2 Évolution du temps d’apprentissage de R en fonctiondu nombre d’exemples étiquetés

Nous avons aussi tracé le temps d’apprentissage en fonction du nombre d’exemplesétiquetés (figure 7.9, figure 7.10 et figure 7.11). Pour l’ensemble des expériences(courbe en rouge), nous constatons que le temps d’apprentissage varie globalementde quelques secondes à quelques minutes (< 20 minutes). Cependant, son évolutionsemble être exponentielle. Ce comportement s’explique par l’étape d’initialisation :nous fournissons les paires critiques de la base étiquetée jusqu’à convergence de l’er-reur. Or, les méthodes en–ligne sont conçues pour les grandes bases et elles ne sont pasoptimales pour des petites bases (en terme de temps). Nous avons alors tracé le tempspassé à initialiser le modèle en fonction du nombre de données étiquetées (en bleu).L’écart entre les deux courbes grandit en fonction du nombre d’exemples étiquetés. Eneffet, à chaque itération, R exécute O(nd) opérations.


0

50

100

150

200

250

300

350

400

0 50 100 150 200 250 300 350 400 450 500

tem

ps (

en s

econ

des)


initialisation

slaRank

0

100

200

300

400

500

600

700

800

900

1000

0 50 100 150 200 250 300 350 400 450 500

tem

ps (

en s

econ

des)


initialisation

slaRank

F. 7.9 – Temps d’apprentissage en fonction du nombre d’exemples étiquetés pour- (à gauche) et - (à droite).

0

100

200

300

400

500

600

700

800

900

0 50 100 150 200 250 300 350 400 450 500

tem

ps (

en s

econ

des)


initialisation

slaRank

0

100

200

300

400

500

600

700

0 50 100 150 200 250 300 350 400 450 500

tem

ps (

en s

econ

des)


initialisation

slaRank

F. 7.10 – Temps d’apprentissage en fonction du nombre d’exemples étiquetés pour (à gauche) et (à droite).

0

100

200

300

400

500

600

700

800

900

0 50 100 150 200 250 300 350 400 450 500

tem

ps (

en s

econ

des)


initialisation

slaRank

F. 7.11 – Temps d’apprentissage en fonction du nombre d’exemples étiquetés pour.

7.6.3 RésuméDans cette section, nous avons mesuré le temps d’apprentissage de nos méthodes

semi–supervisées sur les grandes bases de données. Rappelons que ces méthodes ontune complexité faible par rapport à l’ensemble des méthodes transductives proposéesjusqu’ici. Les temps mesurés confirment leurs capacités à passer à l’échelle. Pour l’al-gorithme B, le temps peut prendre quelques heures mais l’apprentissage se fait

7.7 Bilan 131

hors–ligne et nécessite une recherche exhaustive à chaque itération. Grâce à l’approcheen–ligne, R obtient des temps d’apprentissage du même ordre que les méthodesen–ligne supervisées sur l’ensemble de la base d’apprentissage (en ajoutant les éti-quettes aux exemples qui ne sont pas étiquetés).

7.7 BilanDans ce chapitre, nous avons appliqué nos modèles semi–supervisés au problème

de routage d’information qui permet de définir un cadre concret pour l’ordonnance-ment biparti. Nous avons utilisé un grand nombre de bases provenant d’applicationsréelles. Les résultats obtenus montrent l’apport possible des données non–étiquetéespour l’ordonnancement. Nous avons montré empiriquement que leur exploitation per-met d’améliorer les méthodes supervisées (c’est–à–dire des méthodes basées unique-ment sur les données étiquetées).

Si nous comparons les méthodes B et R (cf. section 5.1 et section 5.2)sur les bases de grande taille, nous pouvons remarquer un avantage pour la méthodeen–ligne. En effet, B et B ont l’avantage et parfois le défaut de faireimplicitement de la sélection de caractéristiques (feature selection). C’est pourquoiB peut être moins compétitif que le pour l’ordonnancement sur certainesbases. Mais l’exploitation locale semble donner des améliorations stables et significa-tives pour des bases déséquilibrées avec un nombre restreint de données étiquetées.Une exploitation à la volée permet d’exploiter une très grande quantité de donnéesnon–étiquetées mais nécessite (en terme de stabilité) une plus grande base étiquetéeinitiale.

Pour les modèles auto–apprenants, le réglage des méta–paramètres semble être plusdélicate. De manière générale, elle reste une question importante mais ô combien dif-ficile pour l’apprentissage semi–supervisé. Nous avons vu que la validation croiséepermet de sélectionner des modèles performants avec suffisamment de données étique-tées. Mais dans le cas où il existe peu voire très peu d’exemples, la validation croiséen’est plus possible et d’autres stratégies doivent être envisagées. Nous avons proposéune simple heuristique qui permet d’aboutir à des bons modèles mais ils sont encoreloin des meilleurs.

Intuitivement, nous pouvons définir deux régimes en apprentissage semi–supervisé :le premier correspond au cas où la validation croisée permet de sélectionner cor-rectement les paramètres du modèle et la seconde concerne le cas où la valida-tion croisée n’est plus possible. Dans le deuxième régime, il nous semble impor-tant d’incorporer d’autres informations que celles contenues dans la base étiquetée.L’utilisation des bornes semi–supervisées11 en erreur de généralisation représenteune piste intéressante. Il existe quelques travaux en classification [Kääriäinen, 2006;Amini et al., 2008a] qui commencent à porter ses fruits. En ordonnancement d’ins-tances, l’établissement de telles bornes est plus difficile à cause des paires critiques.Nous avions fait un premier pas pour les fonctions de préférences [Truong, 2005] maiscela reste encore un champ ouvert pour la recherche.

Enfin, il nous semble aussi important de comprendre à partir de combien d’exemplesétiquetés, la validation croisée peut être utilisée. Cette question reste naturellement va-

11c’est–à–dire des bornes dépendantes à la fois des exemples étiquetés et non–étiquetées


lable en apprentissage semi–supervisé pour n’importe quelle tâche (classification bi-naire, multi–classe et structurée, ordonnancement d’instances, . . .).

Ce chapitre ouvre également la voie à plusieurs perspectives. Une première est l’ap-plication de la méthode en–ligne pour l’apprentissage de fonction score non linéaire.Enfin l’exploitation combinée du voisinage local et d’un étiquetage incrémental peutaboutir à des modèles semi–supervisés plus performants.

8Application de l’ordonnancement actifau routage et au résumé automatique

Sommaire8.1 Ordonnancement actif pour le routage d’information . . . . . 134

8.1.1 Protocole expérimental . . . . . . . . . . . . . . . . . . . 1348.1.2 Performances sur les bases image . . . . . . . . . . . . . 1368.1.3 Performance sur les bases texte . . . . . . . . . . . . . . 1418.1.4 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

8.2 Résumé automatique . . . . . . . . . . . . . . . . . . . . . . . 1448.2.1 Présentation de l’application . . . . . . . . . . . . . . . . 1448.2.2 Résumé automatique et apprentissage . . . . . . . . . . . 146

8.3 Expériences en ordonnancement actif . . . . . . . . . . . . . . 1478.3.1 Base utilisée . . . . . . . . . . . . . . . . . . . . . . . . 1478.3.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . 1488.3.3 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . 149

8.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

Dans ce chapitre nous appliquons nos modèles d’ordonnancement actif présentés auchapitre 6 au routage d’information et au résumé de textes. Dans le cas du routage

d’information, nous considérons les systèmes où une interaction entre l’application etl’utilisateur est possible. Elle permet à l’utilisateur d’évaluer et d’étiqueter des donnéessélectionnées par le système afin d’affiner au mieux son profil.

Nous considérons ensuite l’ordonnancement d’alternatives et son application pourle résumé automatique. L’objectif de la tâche est d’apprendre à ordonner les phrasesdes documents traduisant au mieux les idées générales de ces derniers au-dessus desautres. Classiquement l’apprentissage des systèmes de résumé nécessite une grandequantité de documents dont les phrases pertinentes sont extraites a priori. Cette procé-dure d’étiquetage est évidemment coûteuse à la fois en temps et en ressources. Nouspréconisons une approche active pour réduire considérablement cet effort.

Ce chapitre est organisé comme suit, nous détaillons dans un premier temps les ré-sultats expérimentaux pour le routage d’information (cf. section 8.1). Nous présentonsensuite l’application du résumé automatique, les enjeux et les différentes déclinaisonspossibles ainsi que sa formulation en terme d’apprentissage statistique (cf. section 8.2).

134 Application de l’ordonnancement actif au routage et au résumé automatique

Nous montrons ensuite les résultats expérimentaux de notre algorithme d’apprentissageactif sur une base de brevets.

8.1 Ordonnancement actif pour le routage d’informa-tion

Dans cette section, nous présentons d’abord le protocole expérimental utilisé enordonnancement actif. Nous comparons ensuite les résultats des différents modèlesd’ordonnancement actif en fonction du nombre d’instances étiquetées.

8.1.1 Protocole expérimentalNous avons conduit plusieurs séries d’expériences sur 3 bases réelles différentes.

La première concerne les bases images et que nous avons introduites auchapitre précédent. Rappelons que ces collections contiennent respectivement 7 291et 1 440 instances. Nous avons dérivé pour chaque classe un problème de routageen considérant que les instances appartenant à cette classe sont pertinentes. Lesautres sont considérées comme non–pertinentes. Ces bases sont intéressantes carelles sont déséquilibrées et de taille moyenne pour la tâche de routage. Elles ontde plus été utilisées en apprentissage actif pour la classification [Chapelle, 2005;Bordes et al., 2005; Monteleoni and Kääriäinen, 2007; Long et al., 2008].

Nous avons utilisé pour la deuxième série d’expériences la base texte 20 - qui regroupe 20 000 documents répartis dans plusieurs thèmes (ou groupe desujets newsgroup). Chaque groupe correspond à un sujet précis comme le sport auto-mobile, le baseball ou l’espace. Notons que certains peuvent être très proches commecomp.sys.ibm.pc.hardware et comp.sys.mac.hardware. Le tableau 8.1 résume lastructure de cette base.

informatique sports sciencecomp.graphics rec.autos sci.cryptcomp.os.ms-windows.misc rec.motorcycles sci.electronicscomp.sys.ibm.pc.hardware rec.sport.baseball sci.medcomp.sys.mac.hardware rec.sport.hockey sci.spacecomp.windows.x

religion politics diverstalk.religion.misc talk.politics.misc misc.forsalealt.atheism talk.politics.gunssoc.religion.christian talk.politics.mideast

T. 8.1 – Structure de la base 20 .

Cette collection a aussi été utilisée pour évaluer les méthodes d’ap-prentissage actif en classification [Long et al., 2008; Krithara et al., 2006;Schohn and Cohn, 2000]. Nous avons utilisé la même procédure que précédem-

8.1 Ordonnancement actif pour le routage d’information 135

ment pour en dériver des problèmes de routage d’information.

Comme pour l’apprentissage semi–supervisé, nous avons lancé plusieurs sériesd’expériences. Chaque série concerne une classe d’une base et revient à ordonner lesexemples appartenant à cette classe au–dessus des autres. Pour une base donnée, nousavons généré 10 partitions aléatoires. Chaque partition définit une base d’apprentissageétiquetée, une base non–étiquetée et une base de test. Pour les bases et , nousavons utilisé les mêmes classes que dans le chapitre précédent. Nous rappelons lescaractéristiques des bases utilisées dans le tableau 8.2.

dataset c d n + m test set size ratio d’ex. pertinents (r)

5 256 7 291 2 007 10% 5 1 024 1 440 1 000 5%

20 20 62 061 15 935 3 993 5%

T. 8.2 – Propriétés des bases utilisées en apprentissage actif : c représente le nombrede profils utilisateurs générés, n + m la taille de la base d’apprentissage (étiquetée etnon–étiquetée), d la dimension du problème et r la proportion moyenne d’exemplespertinents dans la base.

Cette partie expérimentale a pour objectif d’évaluer les méthodes que nous avonsdéveloppées pour l’apprentissage actif. Rappelons les :

– La première appelée utilise un critère d’incertitude basée sur la comparai-son des scores (cf. section 6.1.1).

– La deuxième appelée 2 sélectionne l’exemple qui contribue au plus à uneerreur moyenne d’ordonnancement (cf. section 6.1.2).

– La dernière appelée sélectionne l’exemple qui semble pouvoir modifier leplus le modèle courant (cf. section 6.1.3).

Pour évaluer ces méthodes, nous les avons comparées avec deux ap-proches : la méthode aléatoire, qui sélectionne aléatoirement un exemplede la base non–étiquetée et la méthode proposée dans [Brinker, 2004;Yu, 2005]. On désignera cette dernière méthode par marge étendue. Notons quecette méthode sélectionne au minimum une paire d’exemples non–étiquetés. À chaqueitération, nous avons choisi aléatoirement un des deux exemples à étiqueter. Les deuxméthodes de référence utilisent ainsi une méthode de sélection non déterministe. Nousavons ainsi lancé chaque expérience 10 fois et utilisé la moyenne des résultats obtenus.

Nous avons appliqué un test statistique de Wilcoxon de rang signé unidirectionnelleen fixant la valeur p à 1%. Nous avons comparé chaque modèle avec celui qui a obtenule meilleur résultat. Comme dans les chapitres précédents, le symbole ↓ indique desperformances considérées comme statistiquement pires que la meilleure performanced’après ce test.


Mise en œuvre Dans cette section, nous avons utilisé la méthode SVMPer f pourmaximiser l’AUC1 . Le programme met en œuvre une formulation des en appren-tissage structuré adaptée à l’ordonnancement. Nous avons utilisé un simple script écriten P pour sélectionner les exemples et pour faire une interface avec SVMPer f .Pour l’ensemble des expériences, nous avons fixé le paramètre de régularisation à 1.

8.1.2 Performances sur les bases imageNous allons maintenant voir les performances en terme d’AUC et de précision

moyenne sur les deux bases image. Nous examinons en premier les performances aprèsquelques étiquetages pour observer le comportement de chaque méthode. Ensuite, nousallons visualiser l’évolution des performances en fonction du nombre d’étiquetages.

Performances après quelques étiquetages

Nous avons reporté les performances en terme d’AUC et de précision moyenne pourla base après 10 itérations dans les tableaux 8.3 et 8.4. Les résultats montrent quel’approche de la marge étendue proposée dans [Brinker, 2004] est moins performantequ’une simple sélection aléatoire. Notons que dans l’article [Donmez and Carbonell,2008], les auteurs observent un comportement similaire. Le critère proposé ne sembleque peu adapté au cadre biparti et au fait de sélectionner qu’un seul exemple à chaqueitération. Ces résultats sont confirmés par le test statistique montrant des performancesstatistiquement inférieures à celles du meilleur modèle.

Nous remarquons aussi que les méthodes proposées dans ce chapitre obtiennentdes bons résultats en terme d’AUC ou de précision moyenne, en particulier pour lesméthodes de sélection et 2. Les performances sont légèrement en deçàde ces deux dernières. Mise à part la base -1, les performances du meilleur modèlene sont pas significativement meilleures, ce qui signifie que le modèle n’est pas lemeilleur sur la totalité des partitions. En somme, la méthode montre clairementson efficacité et sa supériorité sur la base mais les méthodes et 2 restenttrès compétitives.

méthode -1 -3 -4 -5aléatoire 92,2 ± 10,6 ↓ 92,8 ± 3,8 ↓ 92,1 ± 4,8 ↓ 91,8 ± 5,2 ↓

marge étendue 91,8 ± 9,2 ↓ 91,4 ± 5,1 ↓ 91,8 ± 4,9 ↓ 90,3 ± 6,3 ↓

98,4 ± 0,8 95,3 ± 1,3 95,5 ± 1,4 95,2 ± 2,12 97,0 ± 1,9 ↓ 94,7 ± 1,5 95,3 ± 6,1 95,6 ± 1,4 96,1 ± 2,5 ↓ 93,8 ± 2,3 94,7 ± 1,2 93,8 ± 2,2

T. 8.3 – Performance AUC sur la base après 10 étiquetages.

Nous observons des résultats similaires pour la base (cf. tables 8.5 et 8.6).Notons quelques différences. La méthode obtient cette fois-ci les meilleurs résul-tats (sur la majorité des bases). Les trois approches proposées obtiennent toutefois desbons résultats et sont au–dessus des deux méthodes de référence. Enfin pour -2 et-5, l’amélioration ne semble pas toujours significative. Nous avançons deux raisonspour cela : d’une part, les performances initiales en ordonnancement sont relativementfaibles, ce qui peut rendre nos approches moins efficaces. La deuxième raison vient du

1téléchargeable à l’adresse http ://svmlight.joachims.org/svm_perf.html


méthode -1 -3 -4 -5aléatoire 83,4 ± 14,4 ↓ 75,7 ± 10,4 ↓ 67,2 ± 15,9 ↓ 62,4 ± 15.0 ↓

marge étendue 81,6 ± 13,9 ↓ 71,0 ± 13,5 ↓ 65,4 ± 16,3 ↓ 59,3 ± 15,8 ↓

94,9 ± 2,5 85,0 ± 2,9 80,7 ± 4,4 77,2 ± 7,52 92,6 ± 7,6 82,0 ± 6,6 72,7 ± 18,0 74,7 ± 6,2 87,0 ± 8,3 ↓ 77,8 ± 5,3 ↓ 78,7 ± 4,8 70,4 ± 8,1

T. 8.4 – Précision moyenne sur la base après 10 étiquetages.

méthode -1 -2 -3 -4 -5aléatoire 92,2 ± 7,2 ↓ 67,3 ± 13,4 88,7 ± 6,3 ↓ 96.7 ± 3,4 ↓ 75,0 ± 8,4

marge étendue 94,1 ± 6,5 ↓ 67,6 ± 13,0 88,4 ± 5,4 ↓ 96,6 ± 3,0 ↓ 74,2 ± 7,1 96,1 ± 4,4 73,2 ± 12,9 93,7 ± 4,5 99,9 ± 0,1 78,3 ± 7,72 95,5 ± 5,3 65,3 ± 16,8 91,7 ± 3,7 98,5 ± 2,8 75,0 ± 9,8 97,7 ± 3,3 75.0 ± 9,9 93,8 ± 4,9 99,3 ± 1,0 ↓ 72,6 ± 7,5

T. 8.5 – Performance AUC sur la base après 5 étiquetages.

fait que la base contient « seulement » 1 000 instances, ce qui peut niveler les résultats.

méthode -1 -2 -3 -4 -5aléatoire 69,3 ± 19,5 ↓ 38,2 ± 16,7 ↓ 41,4 ± 14,6 ↓ 79,8 ± 16,5 ↓ 41,9 ± 14,5

marge étendue 73,9 ± 20,8 ↓ 36,2 ± 15,8 ↓ 38,9 ± 10,1 ↓ 78,2 ± 15,7 ↓ 39,2 ± 13,5 ↓

85,4 ± 11,0 49,3 ± 9,8 72,4 ± 11,3 98,3 ± 1,4 56,3 ± 15,82 77,2 ± 19,4 37,6 ± 15,8 ↓ 56,4 ± 15,1 ↓ 89,3 ± 18,6 43,3 ± 14,1 88,6 ± 9,1 49,8 ± 11,5 74,0 ± 9,6 93,6 ± 5,7 ↓ 46,1 ± 15,9

T. 8.6 – Précision moyenne sur la base après 5 étiquetages.

Comme nous l’avons souligné, l’ensemble des méthodes obtient des bonnes per-formances au niveau de la précision moyenne. Mais sur certaines bases, nous n’avonspas le même comportement avec la précision moyenne. Rappelons que nous avons op-timisé uniquement un critère lié à l’AUC. Ceci dénote de la relative décorrélation entreces deux mesures [Davis and Goadrich, 2006].

Évolution des mesures de performances

Nous donnons aussi l’évolution de l’AUC et de la précision en moyenne en fonc-tion du nombre d’itérations. Les figures 8.1, 8.2, 8.3 et 8.4 concernent la base tandis que les figures 8.5,8.6, 8.7, 8.8 et 8.9 montrent les performances sur la base .D’après les résultats, les méthodes et 2 se détachent en étant au–dessus desautres méthodes. Les courbes confirment que la sélection par marge étendue n’est pasoptimale dans notre cadre. Enfin, la méthode est généralement très performanteau début mais elle est moins après plusieurs itérations. Il semblerait que sélectionnerl’exemple qui pourrait modifier le plus le modèle, n’est pas adapté lorsque la solutioncourante est proche de la solution optimale.


Les courbes montrent qu’il a suffit d’étiqueter environ 40 exemples pour obtenirles meilleures performances possibles. La sélection aléatoire et la méthode à base demarge étendue nécessitent au moins le double.

86

88

90

92

94

96

98

100

0 20 40 60 80 100

AU

C

Nombre d’itérations

scoremarge étendue

aléatoireméthode max2E

méthode EGL 70

75

80

85

90

95

100

0 20 40 60 80 100

Pré

cisi

on m

oyen

ne


scoremarge étendue


méthode EGL

F. 8.1 – Apprentissage actif : évolution de l’AUC et de la précision moyenne pour labase -1 en fonction du nombre d’itérations.

90

91

92

93

94

95

96

97

98

0 20 40 60 80 100

AU

C


scoremarge étendue


méthode EGL 65

70

75

80

85

90

95

0 20 40 60 80 100

Pré

cisi

on m

oyen

ne


scoremarge étendue


méthode EGL

F. 8.2 – Évolution de l’AUC et de la précision moyenne pour la base -3.

89

90

91

92

93

94

95

96

97

98

99

0 20 40 60 80 100

AU

C


scoremarge étendue


méthode EGL 55

60

65

70

75

80

85

90

95

0 20 40 60 80 100

Pré

cisi

on m

oyen

ne


scoremarge étendue


méthode EGL



86

88

90

92

94

96

98

0 20 40 60 80 100

AU

C


scoremarge étendue


méthode EGL 50

55

60

65

70

75

80

85

90

0 20 40 60 80 100

Pré

cisi

on m

oyen

ne


scoremarge étendue


méthode EGL


92

93

94

95

96

97

98

99

100

0 20 40 60 80 100

AU

C


scoremarge étendue


méthode EGL 65

70

75

80

85

90

95

100

0 20 40 60 80 100

Pré

cisi

on m

oyen

ne


scoremarge étendue


méthode EGL


60

65

70

75

80

85

90

95

100

0 20 40 60 80 100

AU

C


scoremarge étendue


méthode EGL 30

40

50

60

70

80

90

100

0 20 40 60 80 100

Pré

cisi

on m

oyen

ne


scoremarge étendue


méthode EGL



86

88

90

92

94

96

98

100

0 20 40 60 80 100

AU

C


scoremarge étendue


méthode EGL 30

40

50

60

70

80

90

100

0 20 40 60 80 100

Pré

cisi

on m

oyen

ne


scoremarge étendue


méthode EGL


96

96.5

97

97.5

98

98.5

99

99.5

100

0 20 40 60 80 100

AU

C


scoremarge étendue


méthode EGL 70

75

80

85

90

95

100

0 20 40 60 80 100

Pré

cisi

on m

oyen

ne


scoremarge étendue


méthode EGL


72

74

76

78

80

82

84

86

88

90

92

0 20 40 60 80 100

AU

C


scoremarge étendue


méthode EGL 35

40

45

50

55

60

65

70

75

80

85

0 20 40 60 80 100

Pré

cisi

on m

oyen

ne


scoremarge étendue


méthode EGL


Temps d’exécution

Nous avons mesuré le temps d’exécution des différents algorithmes. Les tempsmontrés dans les tableaux 8.7 et 8.8 sont des moyennes obtenues sur les 10 partitionsavec la commande GNU après 50 itérations. Les expériences ont été lancées sur uncluster, ce qui tend à relativiser les comparaisons. Les résultats permettent néanmoins


de donner une idée approximative des temps de calcul.

méthode -1 -3 -4 -5aléatoire 95,2 95,8 95,6 96,9

marge étendue 96,6 97,4 96,9 98,6 96,1 96,7 96,1 97,42 99,5 100,1 99,6 100,7 973,2 1000,9 1132,7 1139,4

T. 8.7 – Temps d’exécution sur la base après 50 étiquetages.

méthode -1 -2 -3 -4 -5aléatoire 44,0 44,2 43,8 43,8 43,9

marge étendue 44,2 44,2 43,9 44,2 44,1 45,3 45,5 44,6 44,6 44,72 45,6 45,6 45,1 45,3 45,2 654,8 588,9 607,3 704,4 645,5

T. 8.8 – Temps d’exécution sur la base après 50 étiquetages.

Sans surprise, les méthodes 2 et ont des temps de calculs proches de laméthode aléatoire. La méthode a une plus grande complexité puisqu’elle estime lanorme du gradient pour chaque exemple non–étiqueté. Notre script basé sur du Pn’est bien entendu pas optimisé pour des calculs rapides. Un programme en ou ++permettrait de réduire ces temps de calcul.

8.1.3 Performance sur les bases textePerformances après quelques étiquetages

Nous abordons maintenant la deuxième série d’expériences. Nous avons évalué lesdifférentes méthodes sur la base 20 . Comme pour les bases image, nousnous sommes limités à 5 classes2 que l’on nommera : -1, -2, -3, -4et -5. Cette base est intéressante par le nombre de classes proposées, par la taillede la collection et par sa dimension. Nous avons mesuré les performances en AUCaprès avoir étiqueté 10, 50 et 100 exemples. Les tableaux 8.9, 8.11 et 8.12 résument lesrésultats.

-1 -2 -3 -4 -5aléatoire 11,7 ± 3,7 16,7 ± 8,7 14,2 ± 6,9 12,7 ± 3,9 17,2 ± 6,1 ↓

marge étendue 9,9 ± 2,8 ↓ 15,9 ± 9,4 14,3 ± 5,8 13,8 ± 3,5 17,5 ± 5,0 ↓

12,1 ± 2,8 19,1 ± 11,2 15,9 ± 9,1 14,3 ± 4,5 25,2 ± 6,72 13,8 ± 3,1 19,6 ± 13,2 12,8 ± 6,6 ↓ 15,4 ± 6,4 24,7 ± 7,8 11,7 ± 3,6 15,5 ± 9,7 12,6 ± 6,7 ↓ 12,7 ± 3,8 19,0 ± 6,8

T. 8.10 – Résultats pour la précision moyenne pour les 5 premiers groupes de la base20 après 10 itérations.

2Elles correspondent au 5 premières classes de la base.


-1 -2 -3 -4 -5aléatoire 67,3 ± 6,7 72,0 ± 11,8 66,9 ± 9,4 69.2 ± 6,3 71,2 ± 7,4

marge étendue 64,5 ± 6,1 70,5 ± 12,0 69,8 ± 5,6 71,4 ± 5,8 73,3 ± 7,2 67,5 ± 4,7 70,3 ± 14,7 66,9 ± 9,3 68,8 ± 7,7 75,5 ± 6,82 69,4 ± 5,2 69,3 ± 14,1 60,9 ± 9,1 ↓ 70,2 ± 10,3 75,3 ± 5,5 66,8 ± 6.0 68,1 ± 12,8 63,7 ± 9,1 69,3 ± 5,9 71,5 ± 7,8

T. 8.9 – Résultats pour la mesure AUC pour les 5 premiers groupes de la base 20 après 10 itérations.

Nous constatons qu’après 10 exemples activés, aucune des méthodes proposéesn’arrive réellement à se détacher (sauf pour le -5). À part pour le -3, aucuneamélioration n’est significative. Dans le cas où la représentation vectorielle des donnéesest très creuse, le nombre de données dans la base d’apprentissage est tout simplementinsuffisant pour bien généraliser. Ces résultats sont à comparer avec les méthodes d’ap-prentissage actif proposé en classification [Campbell et al., 2000]. Nous notons aussique les méthodes peuvent obtenir des résultats pires que l’aléatoire.

Contrairement aux bases image, nous observons ici des comportements notable-ment différents pour la précision moyenne. Même si les améliorations ne sont pas sta-tistiquement significatives, les méthodes et 2 sont globalement les deuxmeilleures approches. Notons tout de même la contre–performance de 2 sur labase -3 confirmant les résultats en AUC. De même, nous constatons les difficultésde l’approche et de celle basée sur la marge étendue.

-1 -2 -3 -4 -5aléatoire 72,1 ± 5,3 80,0 ± 8,2 73,4 ± 7,3 73,9 ± 6,3 77,0 ± 6,2

marge étendue 70,1 ± 5,1 75,9 ± 11,0 72,9 ± 9,0 76,4 ± 3,9 77,3 ± 7,7 71,9 ± 7,7 85,4 ± 3,7 72,6 ± 8,0 81,5 ± 7,0 85,8 ± 2,92 73,5 ± 4,8 84,7 ± 4,0 74,5 ± 6,7 81,9 ± 6,4 87,8 ± 2,2 72,6 ± 4,5 70,7 ± 10,1 70,2 ± 5,2 71,5 ± 5,7 80,1 ± 5,9


-1 -2 -3 -4 -5aléatoire 76,4 ± 4,8 83,7 ± 5,8 76,9 ± 6,0 78.6 ± 5,3 81,5 ± 4,6

marge étendue 72,4 ± 5,3 85,3 ± 3,7 79,5 ± 5,0 80.9 ± 2,9 80,8 ± 6,9 79,3 ± 4,0 85,8 ± 2,6 75,2 ± 4,3 85.2 ± 3,8 89,4 ± 1,22 79,6 ± 1,1 87,6 ± 2,4 77,7 ± 4,6 85,2 ± 6.6 90,3 ± 1,1 76,3 ± 5,3 78,6 ± 8,0 73,9 ± 4,5 73,1 ± 1,6 86,0 ± 3,4


Après 50 itérations, les méthodes d’apprentissage actif commencent à se détacherclairement de la simple sélection aléatoire sauf pour la méthode . En effet les résul-tats obtenus sont mêmes inférieurs à l’aléatoire. Nous pouvons penser que le caractère


creux des données désavantage cette méthode. Rappelons que le critère utilisé se basela norme du gradient. Par conséquent, la sélection se base essentiellement sur des ca-ractéristiques n’apparaissant pas dans la base d’apprentissage.

Les résultats montrent sinon un avantage certain à la méthode 2, tandis quela méthode obtient aussi des bons résultats mais peine sur le groupe de discus-sion -3. Nous remarquons aussi que la méthode à base de marge étendue fait nonseulement mieux que , mais elle arrive à rivaliser avec les autres méthodes. Cetteapproche malgré ses défauts évidents peut dans certain cas être compétitif. Les ten-dances globales se confirment au bout de 100 itérations.

-1 -2 -3 -4 -5aléatoire 14,1 ± 4,0 ↓ 23,7 ± 9,3 ↓ 18,3 ± 6,5 ↓ 17,2 ± 5,7 ↓ 21,7 ± 6,8 ↓

marge étendue 12,5 ± 3,4 ↓ 20,8 ± 11,9 ↓ 18,6 ± 7,9 18,6 ± 4,9 ↓ 23,2 ± 9,8 ↓

22,7 ± 7,1 42,0 ± 7,3 27,3 ± 7,5 34,4 ± 9,7 49,0 ± 5,52 20,3 ± 5,5 44,6 ± 7,8 26,4 ± 7,7 35,4 ± 9,7 50,0 ± 4,3 15,7 ± 3,9 ↓ 18,1 ± 10,8 ↓ 16,4 ± 5,3 ↓ 14,8 ± 4,4 ↓ 27,6 ± 9,1 ↓


-1 -2 -3 -4 -5aléatoire 17,9 ± 4,4 ↓ 29,6 ± 9,2 ↓ 21,0 ± 6,0 ↓ 22,3 ± 6,5 ↓ 26,3 ± 6,9 ↓

marge étendue 13,7 ± 3,8 ↓ 31,0 ± 8,2 ↓ 23,3 ± 7,4 ↓ 25,3 ± 6,8 ↓ 27,0 ± 11,2 ↓

34,1 ± 5,6 49,3 ± 5,4 34,1 ± 4,1 45,2 ± 6,7 59,1 ± 3,02 30,8 ± 6,7 52,6 ± 5,4 33,0 ± 5,8 45,5 ± 12,2 58,3 ± 3,9 21,1 ± 6,3 ↓ 27,4 ± 14,3 ↓ 21,3 ± 4,7 ↓ 16,9 ± 5,2 ↓ 39,5 ± 9,1 ↓


Nous constatons de nouveau que l’amélioration est beaucoup plus nette pour laprécision moyenne que pour l’AUC. La sélection aléatoire, celle basée sur la margeet obtiennent des performances qui sont significativement inférieures à celles de et 2 montrant clairement leur supériorité. Les résultats confirment que laprécision moyenne est particulièrement adaptée à l’apprentissage actif. En effet, avecune base d’apprentissage de taille restreinte, les modèles d’ordonnancement donnentnaturellement des scores élevés aux exemples pertinents similaires à ceux de la baseétiquetée. Les exemples pertinents non similaires ne sont pas pris en compte. Or l’AUCdonne la même importance à tous les exemples pertinents contrairement à la précisionmoyenne.

8.1.4 RésuméDans cette section, nous avons évalué nos méthodes d’apprentissage actif pour l’or-

donnancement d’instances. Nous avons défini plusieurs tâches de routage d’informa-tion à partir de collections regroupant soit des images soit des documents texte. Nosexpériences ont permis de montrer l’efficacité globale de nos trois méthodes : ,2 et . Nous avons noté un bémol pour la dernière méthode qui présente des


réelles difficultés sur des grandes bases avec une représentation creuse. De plus, l’ap-prentissage actif semble être particulièrement efficace pour la précision moyenne.

8.2 Résumé automatiqueNous nous intéressons maintenant à la tâche de résumé automatique. Cette appli-

cation permet d’extraire les idées pertinentes d’un document soit par rapport à un sujetdonné soit par rapport à une thématique sous-jacente. Cette approche peut par exempleaider les utilisateurs à naviguer et à mieux sélectionner les documents qui peuvent l’in-téresser. Nous allons dans cette section présenter plus en détail la tâche de résumé auto-matique. Nous allons ensuite voir pourquoi le cadre de l’ordonnancement d’alternativesest bien adapté pour faire des résumés et nous allons montrer les résultats obtenus avecnotre algorithme actif présenté au chapitre 6 sur une collection de brevets.

8.2.1 Présentation de l’applicationLes systèmes classiques de Recherche d’Information retournent à l’utilisateur une

liste ordonnée constituée des documents les plus pertinents par rapport à sa requête.Mais ces documents peuvent ne pas être pertinents et leur examen est coûteux en temps.Présenter à l’utilisateur des résumés de documents facilite grandement sa recherche. Unrésumé peut aussi aider l’utilisateur à catégoriser des documents ou à répondre à desquestions.

Les résumés similaires à ceux réalisées par un humain (résumé manuel) sont néan-moins difficiles à faire sans une compréhension poussée du contenu du texte [Mani,2001]. Il existe beaucoup trop de variation de styles d’écriture, de constructions syn-taxiques, . . . pour pouvoir construire un système de résumé générique. Un systèmeidéal de résumé comprendrait l’information pertinente recherchée par l’utilisateur eten exclurait les informations redondantes. Ces informations doivent être cohérentes etcompréhensibles, ce qui est difficile à faire sans un processus du langage naturel.

Pour contourner ce problème, les systèmes de résumé proposent d’extraire des pas-sages du texte et de présenter à l’utilisateur un résumé en concaténant ces passages. Ilexiste deux façons d’envisager le résumé automatique de texte :

– Le résumé générique qui résume le contenu par rapport à l’idée principale dutexte,

– Le résumé par rapport à une requête qui résume le texte par rapport à une requêted’utilisateur.

La majorité des techniques de résumé de texte se sont intéressées au résumé par ex-traction d’entités textuelles. Ces entités peuvent être des groupes de mots, des phrasesou des paragraphes. Les résumés sont alors générés en concaténant des entités de basesélectionnées à partir du document original. Ainsi d’une tâche d’abstraction, le résuméautomatique se fait par extraction d’entités textuelles en ordonnant celles qui convoientles idées générales (ceux qui sont les plus susceptibles de faire parti du résumé) en hautde la liste. La figure 8.10 montre le texte original de A. Lincoln au Gettysburg Addresset la figure 8.11 et la figure 8.12 donnent un exemple d’un résumé en utilisant 25% et15% des phrases initiales du document (exemples pris dans [Mani, 2001]).

8.2 Résumé automatique 145

Four score and seven years ago our fathers brought forth on this continent anew nation, conceived in liberty and dedicated to the proposition that all menare created equal. Now we are engaged in a great civil war, testing whetherthat nation or any nation so conceived and so dedicated can long endure. Weare met on a great battlefield of that war. We have come to dedicated a portionof that field as final resting-place for those who here gave their lives that thatnation might live. It is altogether fitting and proper that we should do this.But in a larger sense, we cannot dedicate, we cannot consecrate, we cannothallow this ground. The brave men, living and dead who struggled here haveconsecrated it far above our poor power to add and detract. The world willlittle note nor long remember what we say here, but it can never forget whatthey did here. It is for us the living rather to be dedicated here to be unfinishedwork which they who fought here have thus far so nobly advanced. It is ratherfor us to be here dedicated to the great task remaining before us – that fromthese honored dead we take increased devotion to that cause for which theygave the last full measure of devotion – that we here highly resolve that thesedead shall not have died in vain, that this nation under God shall have a newbirth of freedom, and that government of the people, by the people, for thepeople shall not perish from the earth.

F. 8.10 – Le Gettysburg Address, retranscription du discours de A. Lincoln, le 19novembre 1863.

Four score and seven years ago our fathers brought forth upon this continent anew nation, conceived in liberty, and dedicated to the proposition that all menare created equal. Now we are engaged in a great civil war, testing whetherthat nation, or any nation so conceived and so dedicated, can long endure. Thebrave men, living and dead, who struggled here, have consecrated it fat aboveour poor to add or detract.

F. 8.11 – Exemple de résumé automatique du Gettysburg Address en utilisant 25%du texte.

Four score and seven years ago our fathers brought forth upon this continent anew nation, conceived in liberty, and dedicated to the proposition that all menare created equal. Now we are engaged great civil war, testing nation, nationconceived dedicated, long endure. We are met great battlefield war.

F. 8.12 – Exemple de résumé automatique du Gettysburg Address en utilisant 15%du texte en enlevant des mots courants non informatifs.

Forme de résumés

Outre la distinction entre abstraction et extraction, les résumés peuvent être de na-tures différentes selon l’objectif de l’application. Le résumé sert–il à donner une simpleindication du contenu ? Ou s’agit-il d’un condensé de l’information contenue dans letexte ? Ces questions permettent d’identifier deux types de résumés : les résumés indi-cateurs et les résumés informatifs.

Les résumés indicateurs permettent à l’utilisateur de savoir s’il va lire le textesource plus en détail. C’est le rôle par exemple des synopsis pour les films, qui en


donnent juste un aperçu pour donner envie aux personnes d’aller les voir. À l’opposé,les résumés dits informatifs reprennent l’ensemble des informations importantes. Ensomme, c’est un substitut du texte original. Les résumés (abstract) fournis au débutdes articles scientifiques illustrent ce genre de résumé.

Dans la littérature, une troisième forme de résumé vient s’ajouter aux deux précé-dentes : le résumé critique. Il inclut en plus des conseils, le jugement ou la critique dela personne qui l’écrit. Un exemple est donné à la figure 8.13. Les critiques de films oule retour des membres du comité de programme pour l’acceptation des articles scienti-fiques en sont d’autres exemples.

The Gettsyburg address, though short, is one of the greatest Americanspeeches. It’s ending words are especially powerful –’that government of thepeople, by the people, for the people, shall not perish from the earth.’

F. 8.13 – Exemple de résumé critique du Gettysburg Address.

8.2.2 Résumé automatique et apprentissageDans la pratique, l’extraction s’appuie sur plusieurs heuristiques que nous pouvons

cataloguer dans sept grandes classes [Paice and Jones, 1993]. Par exemple, nous pou-vons considérer que si un passage contient des mots présents dans le titre alors il a deschances de faire partie du résumé. Nous pouvons aussi vérifier s’il contient des motsclés comme en résumé, en conclusion. ou au contraire des mots comme par exemple,peut–être . . . Dans la pratique, ces heuristiques se traduisent par un score : plus il estélevé, plus l’heuristique donne du poids au passage pour qu’il soit dans le résumé.

Le tout est de pouvoir les combiner3 ensemble pour obtenir un bon critère desélection. Les premiers travaux cherchaient manuellement la meilleure façon de lefaire [Goldstein et al., 1999]. Par la suite, l’apprentissage a été utilisé pour automa-tiser ce traitement. Dans ce cas, le système dispose d’un ensemble de documentsainsi que de leurs résumés. Chaque passage est représenté par un vecteur (en uti-lisant par exemple les scores des heuristiques ou tout autre feature) et forme unexemple de la base d’apprentissage. Son étiquette indique simplement si le passagefait parti ou non du résumé. L’approche classique est d’apprendre ensuite un clas-sifieur en estimant la probabilité d’appartenance au résumé [Kupiec et al., 1995;Amini, 2001]. La sortie d’un classifieur est utilisée pour sélectionner les passages pourle résumé.

Résumer un nouveau document consiste ainsi à trouver la représentation vectoriellede chaque passage, à estimer leur probabilité d’appartenance au résumé, à les ordonneren fonction de ce critère. Et finalement le document est résumé par un facteur k corres-pondant à la proportion des passages pertinent. Dans la littérature, k est appelé le tauxde compression.

L’emploi d’un classifieur pour le résumé automatique se justifie par le fait qu’uneerreur de classification nulle implique un ordre correct des phrases. En effet les scoresalloués aux phrases pertinentes par le classifieur sont tous supérieurs à une constante

3les travaux s’intéressent généralement à des combinaisons linéaires.

8.3 Expériences en ordonnancement actif 147

c (correspondant à l’opposé du biais du classifieur). Les scores des phrases non–pertinentes sont au contraire inférieures à c.

En pratique, l’erreur de classification n’est jamais nulle. Dans ce cas, nous pou-vons considérer une phrase non–pertinente mal classée. Son score s est alors supérieurà la constante c précédente. Mais nous ne savons pas si une phrase pertinente bienclassée a un score inférieur à s et combien de phrases pertinentes se retrouvent dansla même situation. L’erreur de classification ne fournit pas assez d’information pourprédire l’ordre induit par le score du classifieur des phrases d’un même document. Op-timiser l’erreur de classification n’optimise donc pas les rangs des phrases pertinentespar rapport aux phrases non–pertinentes d’un même document.

Récemment, quelques travaux [Amini et al., 2005; Amini et al., 2007] se sont inté-ressés à apprendre directement une fonction score dans le cadre de l’ordonnancementd’alternatives où les entrées représentent les documents et les alternatives les différentspassages. Ces travaux se sont néanmoins développés dans le cadre supervisé qui né-cessite la constitution d’une base étiquetée (documents et leur ensembles de passagespertinents associés), ce qui est généralement peu réaliste. Nous préconisons l’approchedéveloppée au chapitre 6 pour apprendre une fonction score pour le résumé dans lecadre actif.

8.3 Expériences en ordonnancement actif

8.3.1 Base utiliséeUn système de résumé automatique doit trouver l’information pertinente recher-

chée par l’utilisateur, tout en éliminant l’information non–pertinente. Il est alors cruciald’évaluer ces systèmes sur leur capacité à extraire les parties informatives d’un docu-ment par rapport à l’attente de l’utilisateur. Dans ce but, nous avons utilisé le corpus4(World Intellectual Property Organization) qui réunit la description de brevetsécrits en anglais. Cette base est habituellement utilisée en catégorisation automatique,et elle est composée de 75 000 descriptions de brevets en anglais. Dans nos expériences,nous n’avons considéré qu’un sous-ensemble de la collection, en sélectionnant 1 000documents aléatoirement.

L’évaluation d’un algorithme de résumé s’effectue en comparant les phrases sé-lectionnées par l’algorithme à un résumé de référence. Idéalement, ces résumés deréférence sont constitués de phrases du document sélectionnées par des humains. Ce-pendant, l’évaluation est fiable si elle est réalisée sur un grand nombre de documents.Ainsi, il est difficile, pour des raisons de temps, de créer manuellement des résumés deréférence pour les 1 000 documents de la collection utilisée dans nos évaluations.

Les résumés de référence ont donc été créés de manière automatique avec la tech-nique d’alignement décrite dans [Marcu, 1999]. Cette méthode est un algorithme glou-ton, dont le but est de sélectionner le sous-ensemble des phrases d’un document, auquelle résumé fourni par les auteurs a été préalablement supprimé, et qui est le plus simi-laire à ce résumé. Le principe est de partir du document tout entier, puis d’enlever àchaque étape une phrase. Cette méthode d’évaluation nous évite de résumer à la mainune grande quantité de documents. Et de plus dans l’article [Marcu, 1999], les auteurs

4http ://www.wipo.int/ibis/datasets/index.html


montrent que les résumés obtenus ainsi sont proches de ceux réalisés par des humains.

Nous avons aussi réalisé un prétraitement des données. Nous avons enlevé les ba-lises , les méta–données (auteurs, section, . . .) ainsi que les mots considérés commepeu informatifs (stop words). Nous avons ségmenté les documents en phrases avecl’analyseur morphosyntaxique Tree–Tagger5. Nous avons aussi supprimé les mots ap-paraissant dans moins de deux documents. Nous avons écarté les documents dont letitre contient moins de deux mots et ceux dont le résumé généré par l’outil d’aligne-ment ne contennait qu’une seule phrase. Finalement, nous avons gardé 854 documentsau final pour nos tests. Leurs caractéristiques sont résumées dans le tableau 8.15.

caractéristiques base nombre de documents 854taille du vocabulaire 56 856nombre moyen de mots par phrase 14,22nombre moyen de phrases par documents 179,63nombre maximum de phrases par documents 1 507nombre minimum de phrases par documents 21nombre moyen de phrase dans le résumé 6,07nombre maximum de phrases dans le résumé 19nombre minimum de phrases dans le résumé 2

T. 8.15 – Caractéristiques de la base utilisée en ordonnancement actif d’alter-natives

8.3.2 Protocole expérimentalPour chaque expérience, nous avons partitionné aléatoirement la collection en une

base d’apprentissage étiquetée (c’est–à–dire des documents muni de leur résumé), unebase d’apprentissage non–étiquetée constituée de 394 documents et une base de testcontenant 400 documents. Nous avons considéré deux séries d’expériences : la pre-mière se base initialement sur 30 documents étiquetés et la deuxième sur 60 documents.

Pour l’évaluation, nous avons suivi l’approche utilisée par la communauté du ré-sumé extractif automatique. Pour chaque document test, nous avons comparé le résuméretourné par la méthode d’alignement de [Marcu, 1999] et celui obtenu par les modèlesd’apprentissage. Pour cela, nous avons utilisé un taux de compression de 10% : nousavons uniquement gardé 10% des phrases du document en sélectionnant celles ayantobtenu les scores les plus élevés. Nous avons ensuite calculé la précision (la propor-tion de phrases dans le résumé apparaissant dans le résumé obtenu par la méthoded’alignement). Les résultats obtenus sont les précisions moyennées sur l’ensemble desdocuments de la base test.

Nous avons comparé notre méthode avec deux méthodes de référence. La premièreest basée sur une sélection aléatoire de l’entrée. La deuxième se base sur la notionde marge étendue (cf. section 4.2.1). Rappelons que cette dernière sélectionne l’entréedont la différence de scores entre deux alternatives est le minimum.

5www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html

8.3 Expériences en ordonnancement actif 149

Mise en œuvre Nous avons utilisé la méthode LR décrite dans [Amini et al.,2007] qui a montré son efficacité pour le résumé automatique. LR minimisel’erreur de classification de paires en utilisant la fonction exponentielle comme ma-jorant. Tout comme B, l’emploi de cette fonction permet de rendre la com-plexité algorithmique linéaire par rapport au nombre d’exemples.

8.3.3 Résultats obtenusLa figure 8.14 et la figure 8.15 montrent l’évolution de la précision moyenne pour

notre méthode qui utilise la mesure de désaccord, celle qui utilise la notion de margeétendue et celle basée sur la sélection aléatoire. Nous nommerons la mé-thode fondée sur les désaccords. La figure 8.14 concerne l’apprentissage actif lorsquenous commençons avec 30 documents avec leur résumé alors que la figure 8.15 traceles performances pour une base étiquetée initiale de 60 documents.

Nous avons fait varier K le nombre de partitions considérées pour la fonctionscore obtenue en choisissant aléatoirement une fonction parmi celles apprises en cross-validation. Nous avons considéré une partition en 3, 10 et 15 sous–ensembles (commevaleur de K).

F. 8.14 – Évolution de la précision moyenne en fonction du nombre d’entrées étique-tées avec une base d’apprentissage initiale de taille 30.

Les performances de notre méthode sont dans les deux séries d’ex-périences supérieures à celle basée sur la marge étendue ou sur la sélection aléa-toire. Nous constatons aussi que les courbes de performances de ces deux dernièresse confondent pratiquement. Cela confirme les expériences précédentes qui ont mis en


avant le manque d’efficacité de la marge étendue.

F. 8.15 – Évolution de la précision moyenne en fonction du nombre d’entrées étique-tées avec une base d’apprentissage initiale de taille 60.

Nous remarquons aussi que la vitesse de convergence des méthodes est moins grande pour une base initiale de taille 30 que pour une de taille 60. Nouspouvons noter que, dans ce dernier cas (cf. figure 8.15), il a suffit de résumer 50 do-cuments pour que les modèles avec K = 10 et K = 15 obtiennent des performancessimilaires à un modèle qui aurait appris sur la totalité des exemples étiquetés (c’est–à–dire sur tous les documents de la base d’apprentissage munis de leurs vrais résumés).

La méthode est ainsi plus efficace lorsque le modèle initial a « suffisamment » bienappris. Dans le cas contraire, la méthode de sélection perd de son efficacité mais restetout de même plus compétitive que la sélection aléatoire. Ce comportement sembleinévitable pour toute approche active qui utilise la sortie du modèle courant pour sélec-tionner les entrées à étiqueter.

Nous pouvons aussi constater que plus le nombre de partitions est grand, meilleuressont les performances. Il semblerait donc que le critère de sélection gagne en pertinenceavec le nombre de modèles dans le comité. Nous pouvons penser aussi que la validationcroisée permet d’obtenir une meilleure estimation de l’erreur en généralisation et de cefait la borne transductive est plus pertinente. Nous pouvons noter que le nombre departitions induit par la validation croisée dépend naturellement de la taille de la baseinitiale.

8.4 Conclusion 151

8.4 ConclusionNous avons évalué nos modèles d’apprentissage pour l’apprentissage actif en consi-

dérant deux applications : le routage d’information et le résumé automatique. Lapremière se formalise comme une tâche d’ordonnancement d’instances alors que ladeuxième peut être vue comme de l’ordonnancement d’alternatives.

Pour le routage d’information, les expériences ont montré clairement que nos troisapproches actives étaient compétitives. Les méthodes et 2 ont obtenu detrès bonnes performances sur l’ensemble des bases réelles. De plus, leurs procéduresde sélection ont l’avantage d’avoir une faible complexité. Par contre, les expériencesont mis en évidence deux inconvénients à la méthode : son coût de calcul et sescontre–performances pour les grandes bases texte.

Pour le résumé automatique, nous avons évalué notre méthode qui uti-lise une nouvelle mesure de désaccord pour les fonctions score. Les performances ob-tenues sur une base réelle montre que notre approche est meilleure que la sélectionaléatoire ou la méthode à base de marge. Ces résultats sont d’autant plus intéressantsque la méthode de sélection est motivée par un cadre théorique ou plus précisément parune borne transductive de l’erreur en généralisation. Ils confirment aussi que la mesurede désaccord a été informative pour nos expériences.

Nous avons constaté que le taux de convergence de l’AUC ou de la précisionmoyenne des méthodes actives convergent d’autant plus rapidement que la taille dela base initiale est grande. De ce fait, il existe un lien avec les performances initiales dumodèle. Nous l’avons pu constater empiriquement mais nous pensons que la compré-hension de cette corrélation est essentielle pour l’apprentissage actif.

Dans ce chapitre l’objectif était de valider nos approches actives pour l’ordonnan-cement d’instances et d’alternatives. Nos travaux dans le domaine ouvrent égalementla voie à plusieurs perspectives. La plus importante est l’utilisation des informations apriori. Nous pouvons par exemple utiliser des informations sur la distribution des don-nées comme pour l’apprentissage semi–supervisé. Ceci mène naturellement à combi-ner les méthodes semi–supervisées et actives [Zhu and Lafferty, 2003]. Elles peuventêtre utiles au début de l’apprentissage actif lorsqu’il y a encore très peu de donnéesétiquetées. Une autre information intéressante serait pour l’ordonnancement biparti laproportion des pertinents. En effet, cela permettrait de mieux définir les probabilités apriori des étiquettes sachant l’exemple pour les méthodes et 2 ou de rendre lamesure de désaccord plus précise.


9Représentation manquante et

application au filtrage collaboratif

Sommaire9.1 Le filtrage collaboratif . . . . . . . . . . . . . . . . . . . . . . . 154

9.1.1 Présentation de l’application . . . . . . . . . . . . . . . . 1549.1.2 Différents cadres pour le filtrage collaboratif . . . . . . . 1559.1.3 Filtrage collaboratif et apprentissage . . . . . . . . . . . . 1569.1.4 Caractéristiques des algorithmes . . . . . . . . . . . . . . 1579.1.5 Exemple d’algorithme : la pondérée . . . . . . . . . . 157

9.2 Lien avec l’ordonnancement . . . . . . . . . . . . . . . . . . . 1609.2.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

9.3 Factorisation matricielle pour l’ordonnancement collaboratif . 1619.3.1 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . 1619.3.2 Algorithme général . . . . . . . . . . . . . . . . . . . . . 1629.3.3 Ordonnancement collaboratif avec la borne exponentielle . 1639.3.4 Complexité de la recommandation . . . . . . . . . . . . . 1669.3.5 Apprentissage en–ligne . . . . . . . . . . . . . . . . . . . 166

9.4 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . 1669.4.1 Description et prétraitements de la base initiale . . . . . . 1679.4.2 Bases pour l’apprentissage hors–ligne et en–ligne . . . . . 1679.4.3 Mesures d’erreurs . . . . . . . . . . . . . . . . . . . . . . 1699.4.4 Critique du protocole expérimental . . . . . . . . . . . . 171

9.5 Performances en généralisation faible . . . . . . . . . . . . . . 1719.5.1 Méthodes et . . . . . . . . . . . . . . . . . . . 1719.5.2 Ordonnancement collaboratif avec . . . . . . . . . . 172

9.6 Performances en généralisation forte . . . . . . . . . . . . . . . 1759.6.1 Erreur NMAE et MRE pour 2 notes de test . . . . . . . . 1769.6.2 Erreur NMAE et MRE en fonction du nombre de notes en

apprentissage . . . . . . . . . . . . . . . . . . . . . . . . 1769.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

Dans les chapitres précédents, nous avons étendu le cadre d’ordonnancement super-visé aux ensembles d’apprentissage partiellement étiquetés. Ici, nous allons nous

intéresser à l’adaptation du cadre d’ordonnancement pour la tâche du filtrage collabo-ratif.

154 Représentation manquante et application au filtrage collaboratif

L’ensemble des méthodes d’apprentissage existant utilise implicitement une repré-sentation des données fixe. Dans ce chapitre, nous nous intéressons à l’adaptation desméthodes d’ordonnancement d’instances lorsque cette représentation est partiellementmanquante.

L’apprentissage avec une représentation manquante des données s’est posée enterme de classification pour la tâche de filtrage collaboratif, un système de recom-mandation où seules les notes sont disponibles. Jusqu’à présent, les méthodes pro-posées pour cette application prédisaient dans un premier temps les notes des ar-ticles non notés et fournissaient par la suite les recommandations à l’utilisateur [Mar-lin and Zemel, 2004; Marlin, 2004; Rennie and Srebro, 2005; Srebro et al., 2005;Yu and Tresp, 2005]. La prédiction de notes n’est donc qu’une étape intermédiaireet d’autres voies sont possibles. Le cadre proposé dans ce chapitre peut être vu commeune adaptation du filtrage collaboratif pour la tâche d’ordonnancement.

Nous allons commencer par présenter la tâche du filtrage collaboratif (section 9.1).Nous montrons ensuite pourquoi la tâche FC s’apparente à l’ordonnancement d’ins-tances et nous dérivons un algorithme d’apprentissage de fonctions d’ordonnancementpour cette tâche (section 9.2). Dans la section 9.4, nous présentons les résultats expéri-mentaux que nous avons obtenus sur la base ML.

9.1 Le filtrage collaboratif

9.1.1 Présentation de l’applicationLe principe du filtrage collaboratif (FC) est de guider l’utilisateur à acheter des

produits pouvant l’intéresser sur des forums en-ligne ou des sites commerciaux. Cetterecommandation ne se fait généralement pas sur le contenu des articles1 mais elle uti-lise plutôt les préférences des autres utilisateurs. Les systèmes de FC supposent ainsique des utilisateurs avec des goûts similaires s’intéressent aux mêmes données. Lestechniques de filtrage collaboratif ont donné naissance à un grand nombre de systèmesde recommandation pour les films comme ymdb.com2 ou movielens3, pour les pagesInternet avec la mise en commun des signets comme del.ico.us4. Elles sont aussi aucœur des sites commerciaux (Amazon.com5, CDNow6, . . .).

Nous allons illustrer le filtrage collaboratif à travers un exemple de recommanda-tion de films qui constitue l’application de notre étude. Soit trois internautes : Anna,Jean–François et Séverine qui ont noté quelques films. Le tableau 9.1 résume les préfé-rences de ces trois personnes. Le symbole ? indique que l’utilisateur n’a pas fourni denotes au film. Le système dispose des données présentées dans le tableau et doit recom-mander à chacun une liste de films non vus pouvant l’intéresser. La recommandationpeut aussi concerner un nouveau utilisateur donnant partiellement ses préférences pourdes films,

1Dans la suite de ce chapitre, nous désignerons par article les données (film, produits, . . .) concernées parla recommandation.

2http ://www.shompy.com/3http ://movielens.umn.edu/4http ://delicious.com/5http ://www.amazon.com6http ://www.cdnow.com

9.1 Le filtrage collaboratif 155

lol khamsa les bronzés ridicule star warAnna ? 3 5 5 1Jean–François ? 3 ? 4 ?Séverine 4 ? 4 ? 2

T. 9.1 – Exemple de données pour de la recommandation de films.

9.1.2 Différents cadres pour le filtrage collaboratifIl existe plusieurs cadres pour le filtrage collaboratif [Marlin, 2004;

Adomavicius and Tuzhilin, 2005]. En reprenant la terminologie utilisée dans[Marlin, 2004], le plus courant est le filtrage collaboratif à base de notes, pur et nonséquentiel.

Un système à base de notes signifie que les utilisateurs ont évalué les articles avecune note, qui exprime un jugement de préférence. S’il s’agit des films, nous pouvonspar exemple considérer les jugements suivant : , , , ou. La note est souvent représentée par un entier comme dans notre exemple(cf. table 9.1). Plus il est grand, plus l’article a été apprécié. Cette formulation estsimple et permet de quantifier facilement les goûts d’un utilisateur. Il en existed’autres : dans les sites commerciaux, le nombre de commandes d’un article peut faireoffice de note.

Le terme pur indique que la recommandation se fonde uniquement sur les juge-ments des utilisateurs. Le contenu des articles n’est pas utilisé, ce qui contraste avec lespremiers systèmes de filtrage d’information décrits dans les sections précédentes. Laseule information disponible sur un article est donc son identifiant. Pour notre exemple,c’est simplement le nom du film. Ce cadre a été largement étudié notamment dans[Marlin, 2004].

Signalons qu’il existe des travaux dans le domaine pour prendre en compte,en plus des notes, d’autres informations comme les caractéristiques des articles oudes connaissances du domaine. Ces systèmes sont qualifiés d’hybrides [Basilicoand Hofmann, 2004; Burke, 2007] et peuvent améliorer les prédictions dans desapplications.

L’aspect non séquentiel du filtrage collaboratif signifie que le système ne prendpas en compte l’ordre dans lequel les notes sont saisies. L’aspect chronologique estignoré et n’influence pas le processus de recommandation. Pour notre exemple, celasignifie que toutes les notes valant 5 ont la même signification. Cela semble naturelmais en réalité, les notes ne sont pas statiques, elles peuvent évoluer et même devenirobsolètes. Un film noté plus récemment aura plus de sens qu’un film noté il y aquelques années. Pour certaines applications, cet aspect chronologique est importantet doit être pris en compte. C’est le cas par exemple d’un système de recommandationbasé sur l’historique des pages visitées durant la navigation d’un utilisateur [Shaniet al., 2005].

Dans cette thèse, nous nous plaçons dans un cadre de filtrage collaboratif pur, non–séquentiel, et où les jugements sont des notes. Nous nous concentrons sur le filtragecollaboratif pur car nous pensons qu’une nouvelle méthode de prédiction des notesdoit dans un premier temps être évaluée pour ses performances intrinsèques en terme


de combinaison de jugements d’utilisateurs. De plus, nous ne considérons pas l’aspectséquentiel qui rajouterait la difficulté supplémentaire du traitement de l’ordre chrono-logique des jugements.

9.1.3 Filtrage collaboratif et apprentissageLa plupart des méthodes de filtrage collaboratif fondent leur approche sur la pré-

diction de notes : elles prennent toutes les notes disponibles en entrée, leur but étantde prédire les notes inconnues en sortie. Le système propose à l’utilisateur actif7 lesarticles dont les notes estimées sont les plus élevées. Les méthodes d’apprentissage ontnaturellement été proposées pour considérer l’ensemble des notes et automatiser lestraitements.

Les premières approches sont basées sur la notion des plus proches voisins [Herlo-cker et al., 1999; Bell and Koren, 2007]. Dans un premier temps, le système identifieles utilisateurs qui ressemblent à l’utilisateur actif. Leurs notes sont ensuite utiliséespour la prédiction et la recommandation. Ces méthodes sont simples et intuitives. Maiselles sont beaucoup trop coûteuses pour brasser des millions de notes et pour faire dela recommandation en temps réel.

Les approches qui génèrent un modèle permettent d’éviter ces problèmes. Ellessupposent implicitement que les comportements utilisateurs (dont nous ne connais-sons que la partie visible à travers les notes) peuvent être expliqués à travers les notesfournies. Chaque utilisateur de la base est alors vu comme une combinaison de cescomportements type. L’apprentissage est utilisé pour identifier ces derniers et faire desprédictions pour les articles non notés. Ces systèmes utilisent des adaptations de mé-thodes de réduction dimensionnelle linéaire à la matrice utilisateur–article (cf. figure9.1) [Sarwar et al., 2000; Srebro and Jaakkola, 2003; Goldberg et al., 2001]. La dif-ficulté majeure vient de la prise en compte des données manquantes. Les travaux de[Srebro and Jaakkola, 2003] ont permis de développer un cadre élégant à la décompo-sition en valeurs singulières dans un tel contexte (cf. section 9.1.5).

lol khamsa les bronzés ridicule star warAnna ? 3 5 5 1Jean–François ? 3 ? 4 ?Séverine 4 ? 4 ? 2

;

données brutes

? 3 5 5 1? 3 ? 4 ?4 ? 4 ? 2

matrice utilisateur–article

F. 9.1 – Exemple de matrice utilisateur–article pour le filtrage collaboratif.

Ces modèles permettent de résumer l’information contenue dans la matrice ini-tiale utilisateur–article. Des modèles probabilistes plus compliqués [Marlin, 2003;Hofmann, 2004; Das et al., 2007; Salakhutdinov et al., 2007] ont été proposés dansla littérature pour analyser et expliquer plus finement le comportement des utilisa-teurs. Néanmoins, certains d’entre elles nécessitent une connaissance approfondie dudomaine de l’apprentissage pour être mises en œuvre. Elles restent parmi les plus com-pétitives et la compréhension des comportements utilisateurs permet d’améliorer le

7c’est–à–dire l’utilisateur dont on veut faire une recommandation


développement du système, de l’interface utilisateur ou des ensembles d’articles simi-laires [Hofmann, 2004; Polcicová, 2004]. Citons également les approches basées sur lathéorie de la décision, comme par exemple [Perny and Zucker, 1999]. Chaque méthoderéalise donc un compromis différent entre complexité, performance, facilité de mise enœuvre et explication des prédictions. Le concepteur d’un système doit donc choisir unalgorithme selon ces spécifications.

9.1.4 Caractéristiques des algorithmesNous allons maintenant détailler un peu plus les caractéristiques des algorithmes

qu’un concepteur doit prendre en compte. Elles sont notamment discutées dans [Mar-lin, 2004] et dans [Schafer et al., 2007] avec un point de vue plus applicatif. Nousallons en présenter quelques unes.

Performances en généralisation. Le premier critère d’un système de filtrage colla-boratif devrait être sa qualité de recommandation. Des méthodes d’évaluation ont étéproposées dans [Breese et al., 1998] mais elles sont peu utilisées dans la pratique àcause de leur manque de fiabilité [Marlin, 2004]. La majorité des travaux mesurent laqualité de prédiction. La première appelée performance en généralisation faible per-met de mesurer cette performance pour des utilisateurs déjà présents dans la base d’ap-prentissage. Ce critère est adapté aux systèmes de filtrage collaboratif qui considérentdes communautés d’utilisateurs relativement restreintes. Cependant, certains systèmesde filtrage collaboratif doivent des recommandations à des utilisateurs immédiatementaprès leur inscription (c’est–à–dire sans attendre la mise à jour du site). C’est ce quemesure la généralisation forte.

Complexité de l’apprentissage. Cette complexité se traduit en terme de temps né-cessaire pour rendre le système fonctionnel8. Il est important de le réduire, d’autantplus que les modèles doivent être régulièrement mis à jour (par exemple une fois parjour et par semaine) pour tenir compte des nouvelles notes et des nouveaux utilisateurs.

Complexité de la prédiction. Cette complexité mesure le temps nécessaire pourfaire de la recommandation à un utilisateur. Pour faire de la recommandation en tempsréel, il est nécessaire d’avoir une complexité faible. C’est généralement le cas pourles systèmes de filtrage collaboratif déployés dans les sites internet. La recommanda-tion doit se faire, au mieux, à l’arrivée de l’internaute, au pire, pendant le temps deconsultation du site.

Autres caractéristiques Une autre caractéristique est la possibilité d’expliquer pour-quoi le système fait telle ou telle recommandation. Elle est particulièrement utiliséepour les recommandations plus fiables auprès d’un utilisateur. De façon similaire, lapossibilité de visualiser les comportements type ou les groupes d’utilisateurs peut re-présenter un aspect important, notamment en terme d’analyse de données. C’est le caspar exemple des modèles présentés dans [Polcicová, 2004].

8capable de faire de la recommandation


9.1.5 Exemple d’algorithme : la pondéréeUne approche classique en filtrage collaboratif est d’adapter des méthodes de fac-

torisation matricielle. La gestion des notes manquantes est un point crucial. Dans unpremier temps, les méthodes ont simplement remplacé les notes manquantes par unevaleur par défaut. Dans [Srebro and Jaakkola, 2003], les auteurs proposent une adapta-tion de la décomposition en valeurs singulières en les traitant effectivement commedes notes manquantes. La méthode proposée allie à la fois simplicité et efficacité, quien font une référence dans le domaine. Plusieurs variantes ont été proposées dans lalittérature. Nous avons proposé une factorisation en matrices non négatives à la placedu pour le filtrage collaboratif. L’avantage vient de sa plus faible complexité et unemeilleure interprétation.

Nous décrivons par la suite uniquement l’algorithme étendu de (appelé pondérée). Dans l’annexe C, nous avons détaillé notre approche à base de factorisationmatricielle non négative ().

La décomposition en valeurs singulières

La décomposition en valeurs singulières est une technique fondamentale en al-gèbre linéaire. Elle permet d’écrire n’importe quelle matrice rectangulaire en un produitde matrices. Soit Y une matrice n× p réelle. Il existe alors une factorisation matriciellede la forme :

Y = UΣVT

avec U une matrice orthogonale n × p sur R, Σ une matrice diagonale p × p contenantles valeurs singulières de Y et V une matrice orthogonale sur R. La solution standardpour une décomposition en est de présenter Σ = diag(σ1, . . . ,σd) avec σi la ième

plus grande valeur propre de YYT , les colonnes de U sont définies comme des vecteurspropres de DDT et celles de V comme des vecteurs propres de DT D.

La permet de déterminer la matrice de rang d optimale pour la norme de Fro-benius, c’est–à–dire la matrice Y de rang d qui minimise ‖Y − Y‖2Fro avec :

‖Y − Y‖2Fro =∑

i j

‖Yi j − Yi j‖2

En effet, la solution s’exprime en fonction des matrices trouvées par la décomposi-tion de Y. Elle est donnée par la formule suivante :

Y = UdΣdVTd

avec Σd, la sous matrice d×d en ne gardant que les d premiers éléments de la diagonaleet en tronquant le reste. Ud et Vd sont obtenues en prenant les d premières colonnes deU et V et en tronquant le reste.

Application au filtrage collaboratif

En filtrage collaboratif, la matrice utilisateur–article Y contient les notes fourniespar les utilisateurs ainsi que des notes manquantes. La méthode ne peut pas êtreappliquée directement. Srebro et Jaakola [Srebro and Jaakkola, 2003] ont proposé


d’étendre cette technique pour le filtrage collaboratif en cherchant une matrice quiminimise la norme de Frobenius pondérée :

L(Y,Y) =∑

i j

‖Wi jYi j −Wi jYi j‖2

avec Wi j valant 1 si la note Yi j a été fournie et 0 sinon.Ils proposent aussi une méthode de type espérance–maximisation (EM) pour minimi-ser cette fonction. En premier, les notes manquantes sont initialisées aléatoirement.L’algorithme alterne ensuite deux étapes jusqu’à convergence. La première consiste àtrouver la matrice de rang d qui se rapproche le plus de la matrice de notes obtenues.La deuxième consiste à estimer de nouveau les notes qui n’ont pas été renseignées.L’algorithme 20 détaille plus formellement ces instructions. Nous avons noté W lamatrice d’éléments Wi j, 1 la matrice n × p contenant que des 1 et A � B le produit deSchur9 des matrices A et B. SVDd donne l’approximation au rang d par la méthode .

Algorithme 20 Algorithme de la pondérée pour le filtrage collaboratif.E: La matrice utilisateur–article Y

La matrice W indicatrice de notes manquantes.1: Initialiser aléatoirement Y2: répéter3: X←W � Y + (1 −W) � Y4: [Ud,Σd,Vd] = SVDd(X)5: Y← UdΣdVT

d6: jusqu’à convergence de la norme de Frobenius de W � Y −W � UdΣdVT

d

La est mise en œuvre dans de nombreuses de bibliothèques de calcul, ce quifacilite grandement son utilisation ainsi que celle de la pondérée.

Les auteurs remarquent que le nombre d’itérations nécessaires pour la convergencede l’algorithme et la qualité de la solution trouvée dépend fortement de la proportiond’entrées manquantes. Néanmoins la complexité de d’une matrice O (n × p) estde O(np2 + p3) en utilisant l’algorithme - de Golub et van Loan [Golub and vanLoan, 1989]. La complexité totale de l’algorithme est ainsi dominée par . En notanti, le nombre d’itérations de l’algorithme, cette complexité peut se mettre sous la formesuivante :

complexité[ pondérée] = O(i.(np2 + p3

))Pour un utilisateur, le vecteur note associé yi est simplement calculé en faisant un

produit matriciel :yi = u′iΣdVT

d

avec u′i un vecteur ligne de Ud.La complexité pour prédire les notes manquantes d’un utilisateur est donc proportion-nelle au nombre d’articles et à la dimension d du problème.

complexité[prédiction pondérée] = O (d.p)

9ou produit terme à terme.


À chaque vecteur colonne de ΣdVTd est associé un article. Ainsi la décomposition

permet d’apprendre une représentation des articles. De plus, le vecteur ligne u′i repré-sente un modèle associé à l’utilisateur.

Prise en compte des nouveaux utilisateurs

Dans l’article [Srebro and Jaakkola, 2003], les auteurs n’ont pas proposé de mé-thode pour recommander à des utilisateurs absents de l’apprentissage. B. Marlin [Mar-lin, 2004] a proposé une manière simple pour le faire. Nous supposons qu’un modèle adéjà été appris. L’arrivée d’un nouvel utilisateur correspond à un vecteur de notes y età un vecteur w dont l’élément wi indique si yi est une note présente ou non.

Le vecteur y correspond à une nouvelle ligne de la matrice Y. Pour prédire les notesmanquantes, il suffit de trouver un modèle utilisateur c’est–à–dire une nouvelle ligneu′ pour U. Pour ce faire, il suffit de minimiser l’erreur suivante :

‖w � y − w � u′ΣdVTd ‖

2

Cela revient à résoudre un problème de régression, puisque cette fois–ci la repré-sentation vectorielle des articles est donnée et qu’il faut apprendre un modèle pourreconstituer les notes présentes. Dans [Marlin, 2004], une méthode itérative a été pro-posée. Elle est décrite par l’algorithme 21.

Algorithme 21 Algorithme de la pondérée pour la prise en compte des nouveauxutilisateurs proposé par B.Marlin.E: Le vecteur de notes y

Le vecteur w indiquant les notes manquantesLes matrices Σ et V apprises par

1: Initialiser aléatoirement y2: répéter3: x← w � y + (1 − w) � y4: u′ ← xVdΣ

−1d

5: y← u′ΣdVTd

6: jusqu’à convergence de la norme de Frobenius de w � y − w � u′ΣdVT

Elle alterne une étape d’estimation des notes manquantes (instructions 3 et 5) et uneétape d’estimation du vecteur utilisateur (instruction 4). L’algorithme nécessite l’inver-sion de la matrice diagonale Σd, qui est simple à calculer et des produits matriciels. Lacomplexité de l’algorithme est estimée de la façon suivante :

complexité[ pondérée en ligne] = O (i.d.p)

avec i le nombre d’itérations de l’algorithme. Récemment dans [Pessiot, 2008], l’au-teur propose de minimiser directement la fonction avec des méthodes d’optimisationclassiques comme la descente de gradient conjugué.

9.2 Lien avec l’ordonnancementLorsque nous avons commencé nos travaux en filtrage collaboratif, l’ensemble des

méthodes cherchaient à estimer les notes que les utilisateurs n’avaient pas fournies. Les

9.3 Factorisation matricielle pour l’ordonnancement collaboratif 161

articles ayant obtenu les meilleures notes sont ensuite présentés à l’utilisateur pour larecommandation. La classification ou la régression constituent la base de ces systèmes.Comme nous l’avons aperçu dans la section précédente, la démarche peut revenir àassocier une tâche d’apprentissage par utilisateur. La résolution consiste à apprendre àla fois la représentation des données et les modèles utilisateurs. Dans cette thèse, nousavons pris une autre direction pour cette tâche de recommandation en supposant qu’unutilisateur définit une tâche d’ordonnancement d’instances. Nous espérons ainsi amé-liorer la qualité de la recommandation en ordonnant correctement les articles plutôtqu’en prédisant correctement leurs notes.

9.2.1 NotationNous considérons n utilisateurs et un ensemble de p articles. Chaque utilisateur

définit ainsi une application de routage d’information. Pour chacun, nous avons unpetit nombre de jugements de préférence. Dans ce chapitre, nous considérons les ju-gements de préférence sous la forme de notes dans V = {1, . . . ,vmax} où vmax est lanote maximale. Nous désignerons chaque utilisateur et chaque instance par un indice.Nous notons U = {1, . . . ,n} l’ensemble des indices utilisateur et A = {1, . . . ,p} celuides articles. Rappelons que seules les notes sont disponibles. Nous notons Y ∈ Rn×p lamatrice de notes avec des données manquantes. Une colonne représente ainsi les notesd’un produit et une ligne les notes données par un utilisateur.

9.3 Factorisation matricielle pour l’ordonnancementcollaboratif

9.3.1 FormalismeLa méthode de factorisation matricielle avec maximisation de la marge [Sre-

bro et al., 2005] permet d’apprendre la représentation vectorielle des données en utili-sant une factorisation matricielle régularisée. Le principe est de trouver deux matricesX ∈ Rp×d, U ∈ Rn×d telle que UXT permet de reconstituer les notes connues. Chaqueligne de X peut être vue comme une représentation vectorielle des articles. Nous note-rons x j le vecteur représentant le jème article. De même, chaque ligne de U caractérisele classifieur linéaire pour un utilisateur donné. Nous noterons ui le vecteur poids pourle iième utilisateur. La dimension d des matrices est un méta–paramètre et peut êtrechoisi par rapport à des contraintes de coût.

Y = n

p︷︸︸︷ . . .

. . .

. . .

U = n

d︷︸︸︷ . . . . . . . . .Ui1 . . . Uid

. . . . . . . . .

X = p

d︷︸︸︷ . . . . . . . . .X j1 . . . X jd

. . . . . . . . .

Au lieu de chercher à prédire la classe, nous proposons d’apprendre pour chaqueutilisateur une fonction score. Cette fonction permet ainsi d’ordonner les articles avec


une complexité faible et de faire la recommandation directement. La fonction erreur àminimiser peut se mettre sous la forme suivante :

E(U,X) =

n∑i=1

∑Yi j>Yik

[[uTi x j ≤ uT

i xk]]

Majorant convexe Comme en classification et en ordonnancement classique, l’er-reur 0/1 est difficile à optimiser car elle n’est ni continue ni différentiable. L’utilisationd’un majorant convexe (fonction perte) de la fonction 0/1 permet de résoudre le pro-blème [Bartlett et al., 2006].

Régularisation Un moyen de contrôler la capacité de UXT est d’introduire commeterme de régularisation la trace de cette matrice [Rennie and Srebro, 2005; Srebro et al.,2005]. L’optimisation de la fonction régularisée ainsi est possible avec des programmessemi–définis mais elle ne passe pas à l’échelle. Suivant [Rennie and Srebro, 2005],nous pouvons utiliser comme régulariseur la somme des normes de Frobenius ‖X‖2Fro +

‖U‖2Fro. Ce régulariseur est un majorant de 2.trace(UXT ). L’apprentissage revient àminimiser la fonction objectif suivante :

L(U,X) =

n∑i=1

∑Yi j>Yik

l(x j,xk,ui) + λ(‖X‖2Fro + ‖U‖2Fro

)(9.1)

avec l(x,x′,u) une fonction perte qui majore [[uT x > uT x′]].

Lien avec l’apprentissage multi–tâches L’apprentissage multi–tâches (multitasklearning [Baxter, 2000; Caruana, 1993] considère plusieurs tâches, qui partagentnéanmoins la même représentation des entrées. Les sorties ne sont toutefois pas lesmêmes. Ces tâches sont reliées entre elles et partagent ainsi une « information » com-mune. L’apprentissage multi–tâches repose sur le principe que la résolution simul-tanée des problèmes est mieux que de les résoudre individuellement. Dans la lit-térature, les méthodes imposent généralement une composante commune aux diffé-rents modèles. Par exemple dans [Bakker and Heskes, 2003], les modèles sont sup-posés générés à partir d’une distribution gaussienne commune. D’autres méthodescherchent durant l’apprentissage un espace latent commun permettant d’avoir unenouvelle représentation des données [Ando and Zhang, 2005; Zhang et al., 2005;Teh and Seeger, 2005].Le filtrage collaboratif peut être vu comme une forme particulière de l’apprentissagemulti–tâches, où la représentation des données doit être apprise en tenant compte del’ensemble des tâches. Des travaux ont étudié plus en détail ces liens [Caruana, 1993;Pessiot, 2008].

Nous avons proposé un formalisme général pour la résolution du filtrage collabora-tif avec des méthodes d’ordonnancement. Nous considérons uniquement les coûts liésà la classification de paires critiques. Néanmoins, d’autres mesures de performancepeuvent être utilisées comme NDGC. Dans [Weimer et al., 2007; Weimer et al., 2008],les auteurs proposent d’étendre la méthode pour cette mesure d’ordonnance-ment. L’algorithme CF se base sur les derniers travaux en méthode d’optimisa-tion et utilise une méthode de type bundle. Suivant leur terminologie, nous désignerons


la tâche d’ordonnancement collaboratif (collaborative ranking) le filtrage collaboratiftraité avec des modèles d’ordonnancement.

9.3.2 Algorithme généralLa fonction objectif décrite par l’équation 9.1 n’est malheureusement pas convexe

en U et X simultanément, mais en revanche elle l’est en U et X séparément. Pourtrouver un minimum local, nous adaptons une stratégie de minimisation alternée, quiconsiste à fixer alternativement une des deux matrices et à minimiser 9.1 par rapport àl’autre. La forme générale l’algorithme est donnée par l’algorithme 22.

Algorithme 22 Algorithme d’apprentissage pour l’ordonnancement collaboratifE: Une matrice Y avec des données manquantes

1: Initialiser aléatoirement U(0) et X(0)

2: t ← 03: répéter4: U(t+1) ← argminU L

(X(t),U

)5: X(t+1) ← argminX L

(X,U(t+1)

)6: t ← t + 17: jusqu’à convergence où le nombre maximum d’itérations atteint

À chaque itération, l’algorithme définit ainsi deux problèmes d’optimisation dis-tincts, qui dépendent directement de la fonction perte considérée. Dans la suite du cha-pitre, nous allons utiliser la fonction exponentielle comme fonction perte. La fonctionobjectif E est alors convexe et différentiable, ce qui rend sa minimisation possible avecdes méthodes classiques [Boyd and Vandenberghe, 2004].

9.3.3 Ordonnancement collaboratif avec la borne exponentielleApproche générale

Nous désignerons la méthode décrite précédemment avec la borne exponentiellepar l’acronyme . Dans ce cadre, la fonction objectif (équation 9.1) se met sous laforme suivante :

L(U,X) =

n∑i=1

∑Yi j>Yik

exp(uTi xk − uT

i x j) + λ(‖U‖2Fro + ‖X‖2Fro

)=

n∑i=1

∑( j,k)

δijk exp(uT

i xk − uTi x j) + λ

(‖U‖2Fro + ‖X‖2Fro

)avec δi

jk valant 1 si Yi j et Y jk sont des notes présentes et que Yi j > Yik.

Quand L est mise sous cette forme, ses gradients peuvent être facilement calculés.Leurs composantes sont définies par :

∂L∂X jk

= 2λX jk +

n∑i=1

p∑q=1

Ui j.(δi

q j exp(uTi x j − uT

i xq) − δijq exp(uT

i xq − uTi x j)

)∂L∂Uiv

= 2λUiv +∑

j,k

δijk(Xkv − X jv) exp(uT

i xk − uTi x j)


Complexité algorithmique La complexité algorithmique de l’optimisation est avanttout déterminée par le calcul de la valeur de la fonction objectif L(U,X) et de ses gra-dients. On note τ la proportion moyenne de notes disponibles pour l’apprentissage.Autrement dit, le nombre d’exemples par tâche d’ordonnancement est de O(τp). Lenombre de paires critiques est donc au plus de O(τ2 p2). Le calcul de la fonction ob-jectif nécessite la somme de O(τp) produits scalaires (pour chaque utilisateur). L’esti-mation du premier terme de L(U,X) nécessite donc au plus O(dnτ2 p2) opérations. Lecalcul des termes de régularisation en nécessite O(dn + dp). Nous en déduisons que lacomplexité algorithmique de l’approche est :

complexité[calcul de L] = O(d(n + p) + dnτ2 p2

)Nous pouvons de la même façon déduire la complexité algorithmique pour le calculdes gradients. ∂L(U,X)

∂X jkqui nécessite le calcul de O(τp) produits scalaires pour chaque

utilisateur, soit O(nτp) opérations en tout. Nous en déduisons la complexité de la dé-termination du gradient de la fonction objectif par rapport à X :

complexité[calcul de ∇XL] = O(nd2τp2

)De même, nous pouvons remarquer que ∂L(U,X)

∂Uivse calcule en O(τ2 p2d). Par conséquent,

complexité[calcul de ∇UL] = O(nd2τ2 p2

)Nous pouvons remarquer que pour des k (resp. des v) différents, le calcul de la

dérivée par rapport à X jk (resp. Uiv) font intervenir exactement les mêmes produits sca-laires. Les stocker en mémoire permet ainsi de linéariser les complexités par rapport àla dimension interne d.

Rappelons que nous considérons uniquement des méthodes d’optimisation baséessur le gradient. Dans ce cas, la complexité générale de la minimisation fonctionnelle estau moins dominée par le nombre de notes présentes au carré soit O(τ2 p2). Cette com-plexité quadratique caractérise les approches considérant les préférences par paires. Or,pour un p grand, le coût de calcul peut devenir prohibitif, d’autant plus que la minimi-sation se fait à chaque itération. Cependant, dans le cas où les notes sont discrètes etbornées, nous pouvons linéariser facilement le temps de calcul.

Cas où les notes sont discrètes et bornées

Nous considérons le cadre que l’on s’est fixé au début de ce chapitre : nous sup-posons que les notes appartiennent à l’ensemble V = {1, . . . ,vmax}. Dans ce cas, nouspouvons écrire la somme des exponentielles

∑Yi j>Yik

exp(uTi xk − uT

i x j) sous une autreforme :

∑Yi j>Yik

exp(uTi xk − uT

i x j) =∑Yi j

∑k:Yik<Yi j

exp(uTi xk − uT

i x j)

=

vmax∑v=2

∑j:Yi j=v

∑k:Yik<v

exp(uTi xk − uT

i x j)


=

vmax∑v=2

∑j:Yi j=v

∑k:Yik<v

exp(uTi xk) exp(−uT

i x j)

=

vmax∑v=2

∑j:Yi j=v

exp(uTi x j)

∑

k:Yik<v

exp(−uTi xk)

Nous en déduisons l’erreur d’ordonnancement pour le filtrage collaboratif :

L(U,X) =

n∑i=1

vmax∑v=2

∑j:Yi j=v

exp(uTi x j)

︸︷︷︸Σ1(i,v)

∑j:Yi j<v

exp(−uTi x j)

︸︷︷︸Σ2(i,v)

+ λ(‖U‖2Fro + ‖X‖2Fro) (9.2)

Complexité algorithmique Pour un utilisateur donné et une note v donnée, lestermes Σ1(i,v) et Σ2(i,v) ne somment pas sur les mêmes articles. Ils peuvent donc êtrecalculés en faisant une seule passe sur les notes fournies par l’utilisateur, ce qui peut sefaire en O(τdp) opérations.Nous pouvons remarquer que les termes {Σ1(i,v)}vmax

v=1 et {Σ2(i,v)}vmaxv=1 peuvent se calculer

en même temps : il suffit d’utiliser pour chaque terme une variable et de faire des misesà jour simultanées en parcourant les notes fournies par l’utilisateur i. Cette stratégieest possible si la valeur vmax ne prend pas de grandes valeurs. Finalement le nombred’opérations nécessaires pour évaluer le premier terme de la fonction objectif est deO(nτdp). En ajoutant le calcul des régulariseurs, nous obtenons :

complexité[calcul de L] = O (d(n + p) + nτpd)

Nous pouvons déterminer les gradients à partir de l’équation 9.2. Après quelquesopérations, nous obtenons les dérivées partielles suivantes :

∂L(U,X)∂X jk

=

n∑i=1

Ui j exp(uTi x j)

∑k:Yik<Yi j

exp(−uTi xk)

−

n∑i=1

Ui j exp(−uTi x j)

∑k:Yik>Yi j

exp(uTi xk)

+ 2X jk (9.3)

∂L(U,X)∂Uik

=

vmax∑v=2

∑j:yi

j=v

X jk exp(uTi x j)

∑

j:Yi j<v

exp(−uTi x j)

−

vmax∑v=2

∑j:Yi j=v

exp(uTi x j)

∑

j:Yi j<v

X jk exp(−uTi x j)

+ 2λUik (9.4)

La première dérivée (équation 9.3) peut se calculer en faisant une boucle sur lesnotes connues pour chaque utilisateur, soit O(dτpn) opérations. Nous en déduisons :

complexité[calcul de ∇XL] = O(nd2τp

)


De même,

complexité[calcul de ∇UL] = O(nd2τp

)Comme pour la section précédente, la stratégie proposée calcule de façon redon-

dante les produits scalaires. Nous pouvons les calculer préalablement avec la multi-plication matricielle XUT et les garder en mémoire. Les complexités deviennent ainsilinéaires en d mais en contrepartie, cela oblige de stocker np réels en plus. Dans lapratique, la dimension d peut être petite (cf. partie expérimentale) et ne pénalise pas defaçon importante la complexité algorithmique.

La complexité finale algorithmique dépend complètement de la méthode d’optimi-sation utilisée, mais elle nécessite généralement l’estimation de la fonction objectif Let de ses gradients pour la minimisation alternée. Contrairement au cas précédent, l’uti-lisation de notes discrètes et bornées et de la borne exponentielle permet de linéariserla complexité algorithmique en n et m, voire même en d. Cette propriété permet à notrealgorithme de passer efficacement à l’échelle.

9.3.4 Complexité de la recommandationPour la recommandation, la méthode proposée nécessite en premier le calcul des

scores de chaque article. Ils sont déterminés par le produit scalaire entre le vecteur poidsassocié à un utilisateur et les représentations vectorielles de chaque article. Le systèmeretourne alors les articles avec les plus grands scores. Pour une recommandation de harticles, nous pouvons utiliser une liste de h éléments et de la mettre à jour en calculantprogressivement les scores des articles.

complexité[recommandation] = O ((h + d)p)

9.3.5 Apprentissage en–ligneNous considérons dans cette section l’arrivée de nouveaux utilisateurs (apprentis-

sage en–ligne). Dans ce cas, l’application doit naturellement faire de la recommanda-tion, en évitant d’apprendre complètement de nouvelles matrices article X et utilisateurU. Cette approche simple est en effet trop coûteuse pour traiter immédiatement les re-commandations.

À la place, nous pouvons simplement apprendre une fonction score associée àchaque nouvel utilisateur. Contrairement au problème d’apprentissage initial, nousavons une représentation vectorielle des données (estimées à partir de l’ensemble destâches d’ordonnancement). La prise en compte d’un nouvel utilisateur revient à ré-soudre une tâche d’ordonnancement d’instances. Elle permet uniquement de mettre àjour la matrice utilisateur U. Pour un utilisateur i, elle revient à résoudre le problèmed’optimisation suivant :

minui∈Rd

∑Yi j>Yik

l(x j,xk,ui) + λ‖wu‖2


La résolution peut se faire par des méthodes classiques en ordonnancement d’ins-tances comme S ou B (cf. chapitre 3). Pour rester cohérent avec l’ap-proche hors–ligne proposée, nous continuerons à utiliser la borne exponentielle commefonction perte.

9.4 Protocole expérimentalDans cette section, nous décrivons le protocole expérimental utilisé pour évaluer

les méthodes de filtrage collaboratif. Nous commencerons par décrire les données quenous avons utilisées dans nos expériences. Nous présenterons ensuite comment nousavons généré des bases d’apprentissage pour un fonctionnement hors–ligne et en–ligne.Nous décrirons aussi les mesures de performance utilisées pour évaluer les différentsmodèles.

9.4.1 Description et prétraitements de la base initialeNous avons utilisé la base de films ML10 du groupe de recherche Grou-

pLens, qui était une des plus utilisées en filtrage collaboratif jusqu’à l’apparition de labase N11. Elle contient les notes de 6 040 utilisateurs sur un ensemble de 3 883films, pour un total de 1 000 209 notes. Le taux de notes manquantes est donc de 95,7%.Les films sont évalués avec une note allant de 1 à 5, 5 représentant la meilleure note. Labase est livrée avec des informations supplémentaires, qui nous renseignent notammentsur les genres des films ou encore sur les utilisateurs qui les ont notés.

Dans nos expériences, nous n’avons pas utilisé ces informations, restant ainsi fidèleau cadre du filtrage collaboratif. Nous avons aussi supprimé les utilisateurs qui ont notémoins de 20 films et les films totalisant moins de 20 notes. En effet, un utilisateur ayantnoté moins de 20 films en a noté moins de 0,5%, ce que nous considérons (empirique-ment) comme un seuil en dessous duquel il est difficile d’apprendre quoi que ce soit.De même un film ayant été noté par moins de 20 utilisateurs a été noté par moins de0,3% du nombre total d’utilisateurs. Finalement la base prétraitée que nous utilisonsdans nos expériences contient 6 022 utilisateurs et 3 043 films, pour un total de 995 154notes. Dans cette base prétraitée, 94,6% des notes sont manquantes. Le tableau 9.2montre la distribution des notes dans la base prétraitée.

note 1 2 3 4 5répartition 5.6 % 10.7 % 26.1 % 34.9 % 22.7 %

T. 9.2 – Distribution des notes dans la base prétraitée.

10http ://www.grouplens.org/node/7311http ://www.netflixprize.com/community/viewtopic.php ?id=260


9.4.2 Bases pour l’apprentissage hors–ligne et en–ligneApprentissage hors–ligne et généralisation faible

L’apprentissage hors–ligne correspond au cas classique du filtrage collaboratif : larecommandation d’articles pour des utilisateurs déjà présent dans la base. Pour évaluerles performances dans ce cadre, nous avons suivi le protocole popularisé par [Breeseet al., 1998], qui consiste à séparer la base de notes en une base d’apprentissage etune base de test. Une base de validation peut être aussi considérée. Nous avons choisialéatoirement pour chaque utilisateur 2 notes pour la validation et 2 notes pour le test.Les notes restantes constituent la base d’apprentissage, c’est–à–dire la matrice de notesmanquantes Y. Chaque utilisateur a fourni en moyenne 161 notes (avec un minimumet un maximum de 16 et 2 146 notes) et chaque film a été noté en moyenne par 319utilisateurs (avec un minimum et un maximum de 18 et 3 249 notes). Le nombre denotes contenues dans chacune des bases est donné dans le tableau 9.3.

nombre de notesbase d’apprentissage 972 066

base de validation 12 044base de test 12 044

T. 9.3 – Caractéristiques des bases utilisées dans nos expériences (généralisationfaible).

Comme pour l’apprentissage en ordonnancement, la base de validation permet dechoisir les hyperparamètres du modèle : la dimension d et le paramètre de régularisa-tion λ. Les notes de test nous permettront d’estimer l’erreur en généralisation faible.L’erreur en généralisation faible (weak generalization) est l’erreur moyenne entre lesvraies notes et les prédictions correspondantes pour les utilisateurs « présents » lors del’apprentissage. En répétant ce processus de génération de bases trois fois, nous géné-rons finalement trois bases d’apprentissage, trois bases de validation et trois bases detest. Dans la suite, toutes les erreurs en généralisation faible sont moyennées sur lestrois jeux de bases.

Apprentissage en ligne et généralisation forte

La prise en compte des nouveaux utilisateurs est un aspect important pour un sys-tème de filtrage collaboratif mais souvent négligé dans les travaux [Marlin, 2004]. Onparle alors de généralisation forte. Pour évaluer les performances dans ce cadre, nousavons séparé les utilisateurs en deux : le premier groupe sert pour apprendre les ma-trices utilisateur U et article X. Sur les 6 022 utilisateurs initiaux, nous avons choisialéatoirement 1 022 utilisateurs de test. Les 5 000 utilisateurs restants serviront à ap-prendre un modèle hors–ligne.Pour chaque utilisateur de test, nous avons sélectionné aléatoirement 2 notes de test, etgardé le reste pour l’apprentissage en ligne de l’utilisateur. Autrement dit les notes dechaque utilisateur de test sont divisées en deux ensembles : des notes d’apprentissagepour apprendre le nouvel utilisateur, et deux notes de test pour estimer l’erreur en gé-néralisation forte.


L’erreur en généralisation forte est l’erreur moyenne entre les vraies notes et lesprédictions correspondantes, pour de nouveaux utilisateurs « non présents » en appren-tissage. En répétant ce processus de génération de bases trois fois, nous générons troisensembles de 5 000 utilisateurs d’apprentissage et trois ensembles de 1 022 utilisateursde test. Chaque ensemble d’utilisateurs de test est divisé en un ensemble de notes d’ap-prentissage et un ensemble de notes de test. Les caractéristiques moyennes des basessont données dans le tableau 9.4. Dans la suite, toutes les erreurs en généralisation fortesont moyennées sur les trois jeux de bases.

nombre de notesbase d’apprentissage 822 587

base d’utilisateur de test 172 567

T. 9.4 – Caractéristiques de la base utilisée pour le filtrage collaboratif (généralisa-tion forte) .

Soulignons que dans le cas de l’utilisation réelle d’un système de recommandationen ligne, les performances en généralisation forte sont plus importantes que les perfor-mances en généralisation faible. Considérons un ensemble d’utilisateurs et d’articles,où chaque utilisateur a noté quelques articles. Il s’agit clairement d’un problème d’ap-prentissage hors–ligne, et l’erreur en généralisation faible est un bon indicateur de laqualité des prédictions pour chaque utilisateur. En revanche cette erreur n’est plus va-lable si un utilisateur initial décide de modifier son profil de notes (mise à jour, ajoutou suppression de notes), ou si un nouvel utilisateur arrive dans la base. Pour obtenirune erreur représentative de la nouvelle base, il faudrait alors relancer l’apprentissagehors–ligne sur la nouvelle base de notes, ce qui serait bien trop coûteux d’un point devue algorithmique.

Considérons un utilisateur initial qui modifie son profil de notes, ou un nouvel uti-lisateur qui arrive dans la base. Les deux situations correspondent clairement à desproblèmes d’apprentissage en–ligne, et l’erreur en généralisation forte est un bon indi-cateur de la qualité des prédictions qui seront faites à ces nouveaux utilisateurs (ou plusprécisément, à ces nouveaux profils d’utilisateurs). L’erreur en généralisation forte estdonc particulièrement plus intéressante pour évaluer les performances de l’utilisationréelle d’un système de recommandation en ligne.

9.4.3 Mesures d’erreursErreur pour la prédiction de notes

Dans la littérature, les systèmes de filtrage collaboratif ne sont pas évalués en termede qualité de la recommandation. Des méthodes d’évaluation ont bien été proposéesdans ce sens [Breese et al., 1998] mais elles restent peu fiables dans la pratique. Finale-ment, les principaux travaux utilisent les mesures de performance en terme de prédic-tion pour évaluer ces systèmes.

La prédiction des notes est évaluée classiquement en mesurant le coût de prédire yau lieu de la vraie valeur y. Citons par exemple l’erreur moyenne quadratique (MSE),


l’erreur moyenne absolue (MAE) ou l’erreur moyenne de prédiction (MPE). Nous sup-posons qu’il existe ntest utilisateurs et que nous avons isolé pour chacun un ensembleS` de notes pour le test. Les mesures de performance peuvent se mettre sous la formesuivante :

MSE =1

ntest

ntest∑`=1

1∣∣∣S`∣∣∣ ∑Y` j∈S

`

‖Y` j − Y` j‖2

MAE =1

ntest

ntest∑`=1

1∣∣∣S`∣∣∣ ∑Y` j∈S

`

|Y` j − Y` j|

MPE =1

ntest

ntest∑`=1

1∣∣∣S`∣∣∣ ∑Y` j∈S

`

[[Yl j , Y` j]]

Les erreurs sont normalisées à la fois par le nombre de notes de test de chaqueutilisateur et par le nombre d’utilisateurs. Dans la pratique, la mesure MAE est la plusutilisée. Elle a notamment l’avantage d’être directement interprétable en terme d’écartde notes. Par sa position dominante, son utilisation facilite les comparaisons entre dif-férentes méthodes proposées en filtrage collaboratif.

Comme le suggère [Marlin, 2004], nous n’allons pas utiliser directement l’erreurMAE mais plutôt l’erreur normalisée NMAE :

NMAE =MAEE[MAE]

où E[MAE] est l’erreur associée à une prédiction de notes aléatoire, dans laquellenous supposons que les notes observées et les notes prédites sont distribuées uniformé-ment. Cette erreur aléatoire ne dépend que de l’échelle de notes utilisée. Calculons parexemple l’erreur aléatoire pour une échelle de notes de 1 à 5 :

E[MAE] =1∑5

a=1∑5

b=1 1

5∑a=1

5∑b=1

|a − b|

= 40/25= 1,6

Autrement dit sur une base comme ML, une fonction de prédiction aléatoireobtiendrait une erreur MAE de 1,6. Pour évaluer les performances d’une méthode deprédiction sur la base ML (ou toute autre base dont les notes vont de 1 à 5),nous calculons l’erreur NMAE = MAE/1.6. Une telle normalisation présente deuxavantages principaux. D’abord, elle permet de comparer les performances de la mé-thode utilisée à celles de la prédiction aléatoire. Si un algorithme de prédiction obtientune erreur NMAE = 1, alors ses performances sont équivalentes à celle de la prédic-tion aléatoire, ce qui est évidemment peu satisfaisant. La normalisation permet égale-ment de comparer les performances d’un même algorithme de prédiction sur différentesbases de filtrage collaboratif, utilisant des échelles de notes différentes.

9.5 Performances en généralisation faible 171

Erreur pour la prédiction d’ordre

Dans le cadre de l’ordonnancement collaboratif, nous avons étendu la mesureNMAE en utilisant une erreur d’ordonnancement : l’erreur de classification de pairescritiques. Comme précédemment, nous avons moyenné cette mesure sur l’ensembledes utilisateurs de la base d’apprentissage.

Considérons un ensemble d’utilisateurs de test sur lesquels nous évaluons les per-formances de notre modèle. Pour chaque utilisateur de test u, nous avons sélectionnédes notes pour évaluer le modèle (que ce soit pour la phase de validation ou la phase detest). Nous notons cet ensemble S u

test cet ensemble pour l’utilisateur u. Pour mesurer lesperformances de notre approche, nous calculons l’erreur moyenne d’ordonnancement(MRE) :

MRE =1

ntest

ntest∑`=1

1|T (S `)|

∑(x j,xk)∈T (S `)

[[ Y`, j ≤ Y`,k]]

où T (S `) est l’ensemble des paires critiques de S `. Autrement dit l’erreur MRE dechaque utilisateur est normalisée par le nombre de paires critiques de test de l’utilisa-teur, et l’erreur finale est normalisée par le nombre d’utilisateurs de test.

Nous pouvons remarquer que l’ordonnancement ne souffre pas du problème lié àl’échelle des notes. Contrairement aux erreurs de prédiction, MRE ne nécessite pasde normalisation. De plus, une approche aléatoire obtiendrait automatiquement unemesure MRE de 0,5. Une erreur MRE proche de 0,5 dénoterait un système de piètreperformance.

9.4.4 Critique du protocole expérimentalLe protocole expérimental en prédiction est celui le plus utilisé dans la littérature.

Nous l’avons adapté dans le cadre de l’ordonnancement. Cependant, nous pouvons no-ter un certain biais dans l’évaluation. Contrairement à l’approche semi–supervisée ouactive, nous avons utilisé une base, qui initialement a très peu de notes. Par conséquent,nous avons dû enlever quelques notes pour chaque utilisateur. D’une part, ce procédéne respecte pas l’hypothèse d’indépendance pour former la base test. De plus, les er-reurs NMAE et MRE pour chaque utilisation sont calculées sur un nombre faible denotes, ce qui rend l’estimation peu fiable.

9.5 Performances en généralisation faible

9.5.1 Méthodes et Nous présentons les performances de la décomposition en valeurs singulières pon-

dérée () (cf. section 9.1.5) et de la factorisation matricielle non négative ()(cf. annexe C) en généralisation faible. Nous avons fixé la valeur du paramètre λ à 1pour . Pour différents rangs des matrices, nous avons évalué l’erreur NMAE etMRE. La figure 9.2 montre l’évolution des erreurs NMAE et MRE par rapport à d.L’ensemble des résultats est résumé dans les tableaux 9.5


0.41

0.42

0.43

0.44

0.45

0.46

0.47

0.48

0 10 20 30 40 50 60

NM

AE

rang d

SVD pondéréFMNN

0.26

0.27

0.28

0.29

0.3

0.31

0.32

0 10 20 30 40 50 60

MR

E

rang d

SVD pondéréFMNN

F. 9.2 – Évolution des erreurs NMAE et MRE par rapport au rang pour les et.

d

1 0,446 ± 0,004 0,438 ± 0,0032 0,435 ± 0,003 0,430 ± 0,0123 0,429 ± 0,003 0,423 ± 0,0024 0,425 ± 0,004 0,420 ± 0,0005 0,420 ± 0,006 0,419 ± 0,0036 0,418 ± 0,007 0,416 ± 0,0047 0,417 ± 0,007 0,418 ± 0,0028 0,416 ± 0,006 0,418 ± 0,0069 0,415 ± 0,007 0,414 ± 0,008

10 0,415 ± 0,005 0,417 ± 0,00511 0,415 ± 0,005 0,419 ±0,00412 0,417 ± 0,006 0,419 ± 0,00413 0,417 ± 0,005 0,418 ± 0,00120 0,424 ± 0,001 0,425 ± 0,00540 0,455 ± 0,003 0,437 ± 0,00260 0,480 ± 0,007 0,442 ± 0,004

d

1 0,307 ± 0,004 0,305 ± 0,0032 0,294 ± 0,004 0,294 ± 0,0153 0,286 ± 0,005 0,284 ± 0,0034 0,281 ± 0,004 0,280 ± 0,0055 0,275 ± 0,005 0,281 ± 0,0066 0,271 ± 0,009 0,275 ± 0,0037 0,271 ± 0,008 0,276 ± 0,0068 0,271 ± 0,009 0,277 ± 0,0019 0,271 ± 0,009 0,270 ± 0,003

10 0,267 ± 0,002 0,278 ± 0,00411 0,268 ± 0,006 0,277 ± 0,00412 0,271 ± 0,006 0,282 ± 0,00113 0,268 ± 0,005 0,271 ± 0,00520 0,275 ± 0,007 0,282 ± 0,00540 0,300 ± 0,003 0,290 ± 0,00260 0,319 ± 0,003 0,298 ± 0,003

T. 9.5 – Tableau récapitulatif des erreurs NMAE et MRE par rapport au rang pourles et .

Nous constatons un comportement similaire pour les méthodes et . Cesdeux méthodes se distinguent en effet par rapport aux contraintes de positivité que n’a pas. Au début, l’erreur commence par diminuer avec le rang d. En faisantun parallèle avec l’apprentissage classique, nous pouvons supposer un phénomène desous–apprentissage pour des valeurs d faibles. En d’autres termes, le rang des matricesn’est pas suffisant pour bien généraliser. Les erreurs NMAE et MRE diminuent pro-gressivement au fur et à mesure que la complexité (rang) du modèle augmente. Nousobservons un palier autour de d = 10. Les erreurs augmentent après, dû à un phéno-mène de sur–apprentissage. Pour la , nous obtenons des résultats similaires à ceuxprésentés dans [Srebro and Jaakkola, 2003] pour la base , une autre base pour lefiltrage collaboratif.

Pour une dimension d bien choisie, semble être légèrement meilleur que .Par contre, semble plus sensible au phénomène du sur–apprentissage. Ceci est dûà l’absence de régularisation. Nous pouvons aussi remarquer que les erreurs NMAE

9.5 Performances en généralisation faible 173

et MRE ont des évolutions très similaires en fonction du rang. Ce n’est pas surprenantdans la mesure où une méthode qui prédit correctement les notes est également capablede prédire correctement l’ordre entre les observations. Enfin comme avec la , la paraît relativement robuste au paramétrage du rang. Avec des coefficients de régu-larisation fixés, les erreurs NMAE et MRE restent relativement stables autour du rangoptimal ( 5 ≤ d ≤ 13 ). En pratique, il n’est pas utile de choisir la valeur du rang àl’unité près.

9.5.2 Ordonnancement collaboratif avec Évolution de l’erreur MRE en fonction des paramètres

Nous présentons maintenant les résultats obtenus avec la méthode d’ordonnance-ment en généralisation faible. Notre modèle possède deux paramètres : le rangde la factorisation d, et le coefficient de régularisation λ. Contrairement aux deux mé-thodes précédentes, la méthode ne prédit pas de notes et ne peut donc être évaluéeavec la mesure NMAE. La figure montre l’évolution de la mesure MRE pour les troisméthodes : , et . Nous montrons le résultat pour λ = 1 000.

0.26

0.27

0.28

0.29

0.3

0.31

0.32

0 10 20 30 40 50 60

MR

E

rang d

SVD pondéréFMNNOCBE

F. 9.3 – Évolution de l’erreur MRE pour les méthodes , et

Les résultats obtenus montrent une certaine ressemblance avec les résultats précé-dents. Nous voyons clairement le phénomène de sous–apprentissage pour des valeursde d très faibles et de sur–apprentissage pour des valeurs plus grandes. Néanmoins,nous pouvons remarquer que la régularisation permet bel et bien d’atténuer le phéno-mène de sur–apprentissage. Nous voyons même un seuil à partir duquel, le rang de lamatrice n’influence plus trop les performances du système. Rappelons que le rang dela matrice correspond à la dimension des vecteurs de représentation des articles et desmodèles utilisateur. D’après les expériences, nous nous apercevons que seul un petitnombre de composants (environ 10) suffit à expliquer comment les utilisateurs éva-luent les articles.

Cependant, les performances de la méthode dépendent de beaucoup de la valeur duparamètre de régularisation comme le montrent les résultats reportés dans le tableau


0.27

0.28

0.29

0.3

0.31

0.32

0.33

0.34

0 10 20 30 40 50 60

MR

E

rang d

lambda=10lambda=100

lambda=1000lambda=10000

F. 9.4 – Évolution de l’erreur MRE pour la méthode en fonction du rang et duparamètre de régularisation.

9.6 et dans la figure 9.4. Avec des valeurs trop petites, la méthode est sensible au phé-nomène de sur–apprentissage. À l’inverse, une valeur trop grande donne trop de poidsau terme de régularisation et dégrade ainsi les performances.

d λ = 10 λ = 100 λ = 1 000 λ = 10 0001 0.337 ± 0.023 0.339 ± 0.010 0.307 ± 0.005 0.317 ± 0.0033 0.294 ± 0.003 0.289 ± 0.005 0.282 ± 0.003 0.304 ± 0.0005 0.284 ± 0.002 0.281 ± 0.004 0.274 ± 0.002 0.300 ± 0.0017 0.282 ± 0.001 0.275 ± 0.001 0.276 ± 0.002 0.299 ± 0.0038 0.279 ± 0.002 0.277 ± 0.003 0.272 ± 0.002 0.297 ± 0.0039 0.280 ± 0.005 0.276 ± 0.004 0.274 ± 0.002 0.299 ± 0.002

10 0.283 ± 0.005 0.277 ± 0.006 0.272 ± 0.001 0.297 ± 0.00311 0.279 ± 0.006 0.272 ± 0.007 0.272 ± 0.002 0.298 ± 0.00312 0.285 ± 0.003 0.274 ± 0.003 0.272 ± 0.003 0.298 ± 0.00313 0.279 ± 0.004 0.273 ± 0.006 0.272 ± 0.003 0.297 ± 0.00320 0.291 ± 0.005 0.278 ± 0.004 0.271 ± 0.002 0.299 ± 0.00340 0.321 ± 0.003 0.295 ± 0.002 0.275 ± 0.004 0.298 ± 0.00360 0.331 ± 0.008 0.308 ± 0.008 0.274 ± 0.002 0.297 ± 0.003

T. 9.6 – Évolution de l’erreur MRE pour la méthode en fonction du rang et duparamètre de régularisation.

Comparaison des modèles avec base de validation

Dans cette partie, nous comparons les modèles en sélectionnant les paramètres avecune base de validation. Nous avons sélectionné le rang des matrices et le paramètre derégularisation qui minimisent l’erreur moyennée sur les 3 bases. Le tableau 9.7 résumeles différents résultats expérimentaux.

9.6 Performances en généralisation forte 175

méthode d λ MAE MRE - - 1 0.5 10 - 0.411 ± 0.002 0.269 ± 0.004 9 1 0.414 ± 0.003 0.280 ± 0.004 10 103 - 0.275 ± 0.004

T. 9.7 – Erreur MRE en généralisation faible.

Que ce soit pour la prédiction de note ou pour l’ordonnancement, les rangs opti-maux sont très proches et sont approximativement égaux à 10 (9 pour ). Commesouligné précédemment, ce n’est pas surprenant pour la et la , puisqu’ellesoptimisent la même fonction objectif (sous des contraintes différentes). Par contre,l’écart est un peu plus grand pour la mesure MRE. Les contraintes de positivité n’in-fluencent donc pas la valeur du rang optimal, mais elles peuvent expliquer la légèreperte de performance en terme de MAE et MRE. Dans , un coefficient positifdans une matrice peut en compenser un autre négatif, ce qui n’est pas le cas pour .Cette perte de degré de liberté se fait au détriment des performances, mais elle permetde gagner en terme d’interprétabilité et de visualisation (cf. annexe C).

Les performances de notre algorithme sont du même ordre que celles de et de montrant ainsi l’intérêt de notre approche. Néanmoins, elles peuvent paraîtreaussi décevantes, puisque seule minimise directement l’erreur de classificationde paires critiques. On aurait pu s’attendre à une meilleure performance en terme deMRE, ce qui n’est pas le cas : elle se situe entre celle de et de . Les résultatssuggèrent que la borne exponentielle est trop large : la fonction exponentielle exp(x)augmente ou diminue trop vite avec x. D’ailleurs, ceci explique pourquoi le paramètrede régularisation est beaucoup plus grand pour que pour . Ainsi la minimisa-tion d’une borne supérieure plus étroite de l’erreur de classification 0/1 permettrait sansdoute d’améliorer les performances. De plus, la borne exponentielle n’exploite pas lanotion de marge, qui a montré son efficacité pour les tâches de classification et d’or-donnancement. Les travaux postérieurs aux notres sur l’ordonnancement collaboratif[Weimer et al., 2008] tendent à confirmer cette hypothèse.

Finalement, nous pouvons aussi signaler que la méthode souffre d’une com-plexité cubique par rapport au nombre d’articles, alors que les deux autres méthodes ontune complexité linéaire par rapport à l’ensemble des paramètres du problème : rang dela matrice, nombre d’utilisateurs et nombre d’articles. Cette caractéristique fait de et de des méthodes compétitives pour le filtrage collaboratif. À titre de comparai-son, les techniques des méthodes bundle comme proposées dans [Weimer et al., 2008]peuvent être utilisées avec une fonction perte hinge pour l’ordonnancement. Dans cecas, la complexité de l’algorithmique est de l’ordre O(m.log(m)).

9.6 Performances en généralisation forteDans cette section, nous présentons les performances de la , de la et de

l’ pour l’apprentissage en–ligne de nouveaux utilisateurs. Nous avons donc initia-lisé un modèle comme dans la section précédente. Nous avons repris les paramètresoptimaux déterminés : nous avons donc fixé d à 10 pour la et et à 9 pour


d λ NMAE MREaléatoire - - 1 0,5-mar 10 - 0,463 ± 0,006 0,281 ± 0,016-dg 10 - 0,461 ± 0,009 0,273 ± 0,007 9 1 0.450 ± 0.007 0,286 ± 0,005 10 1 000 - 0,264 ± 0,013

T. 9.8 – Erreur NMAE et MRE en généralisation forte pour mtest = 2 notes de test.

la . Pour les paramètres de régularisation, nous avons fixé λ à 10 pour et à1 000 pour .

Le modèle est donc appris dans un premier temps à partir des 5 000 utilisateursde la base d’apprentissage. La matrice utilisateur U est ensuite mise à jour à l’arrivéede nouveaux utilisateurs. Nous considérons plusieurs stratégies pour l’apprentissageen–ligne. Pour , nous considérons celle développée dans [Marlin, 2004] et celleprésentée dans le chapitre précédent. Nous désignerons par -mar la première mé-thode et par -dg la deuxième. Nous utilisons ensuite l’algorithme d’apprentissageen–ligne pour un nouvel utilisateur pour présenté dans la section 9.3.5. Pour ,la prise en compte d’un nouvel utilisateur peut se faire de façon similaire à . Maiscela conduit à un problème d’optimisation sous contraintes. La résolution proposéedans [Pessiot, 2008] se base sur un changement de variable pour enlever les contraintesde positivité.

9.6.1 Erreur NMAE et MRE pour 2 notes de testRappelons le protocole d’évaluation des performances en–ligne, décrit dans la sec-

tion 9.4.2. Le modèle étant initialisé sur les utilisateurs d’apprentissage, nous voulonscomparer les performances sur un ensemble d’utilisateurs de test. Nous séparons lesnotes de ces utilisateurs en deux pour former des notes d’apprentissage et des notes detest. Les premières notes servent à mettre à jour le modèle et les secondes permettentd’évaluer les performances NMAE et MRE du modèle obtenu. Le tableau 9.8 montreles erreurs NMAE et MRE moyennes lorsque pour chaque utilisateur de test, nousréservons mtest = 2 notes pour le test et utilisons toutes les autres notes pour l’appren-tissage.

Ce protocole est celui le plus utilisé dans littérature pour évaluer les performancesde prédiction en–ligne [Marlin, 2004]. Les deux méthodes de mise à jour pour la donnent des résultats similaires sur l’erreur MAE mais la descente de gradient obtientdes meilleures performances en terme MRE. Notons aussi que notre méthode obtient cette fois–ci des meilleures performances avec MRE. Ce résultat est intéressantpour notre méthode et contraste avec ceux obtenus en généralisation faible.


F. 9.5 – Erreur NMAE en généralisation forte pour un nombre de notes inférieur à 40

9.6.2 Erreur NMAE et MRE en fonction du nombre de notes enapprentissage

Dans cette section, nous évaluons les performances de prédiction en–ligne avec unautre protocole. Au lieu d’enlever deux notes pour chaque utilisateur, nous gardons unnombre fixe de notes pour l’apprentissage. Le reste des notes sert à l’évaluation. Nousnotons mapp, le nombre de notes en apprentissage. Ce protocole permet ainsi d’estimerles performances en–ligne d’un système de recommandation en fonction du nombre denotes apportées par le nouvel utilisateur. Les figures 9.5 et 9.6 montrent l’évolution deserreurs NMAE et MRE lorsque le nombre de notes d’apprentissage mapp varie entre 1et 40.

Nous observons un comportement surprenant de la -dg, qui montre un picdes erreurs NMAE et MRE pour mapp = 10 notes d’apprentissage par utilisateur.Les erreurs correspondantes atteignent presque celles d’une prédiction aléatoire ( 1pour NMAE, 0.5 pour MRE ). Cependant, les résultats présents dans l’article initialde 12[Srebro and Jaakkola, 2003] un phénomène similaire pour la généralisationfaible. Il semblerait que la méthode -dg reste sur des minimums locaux inadé-quats. De plus est, -mar minimise une fonction non régularisée. Il est cependantétonnant que la méthode proposée par Marlin ne subit pas une telle dégradation.

Plus généralement nous observons que les quatre méthodes de prédiction se com-portent différemment lorsque le nombre de notes est faible. Dans le cas de prédictiond’ordre, c’est la méthode qui montre la plus grande variation. Avec une seule note,la méthode ne peut pas apprendre puisqu’il n’y a pas de paires critiques. Il n’est donc

12la méthode est désignée par dans l’article.


F. 9.6 – Erreur MRE en généralisation forte pour un nombre de notes inférieur à 40

pas étonnant de voir au début une erreur proche de l’aléatoire. La méthode estlogiquement désavantagée pour un nombre faible de notes.

En revanche, l’erreur diminue rapidement pour atteindre finalement l’erreur MREla plus basse parmi les quatre méthodes de prédiction à partir de mapp ≥ 22 notesd’apprentissage. En prédiction de notes comme en prédiction d’ordre, la méthode est la plus stable : ses performances initiales sont bonnes dès les premières notes, etl’erreur diminue peu lorsque mapp augmente. La méthode -mar montre des per-formances intermédiaires entre celles de la et d’. Les quatre méthodes deprédiction -mar, -dg, -dg et tendent à atteindre les mêmes perfor-mances lorsque mapp tend vers 40 notes d’apprentissage.

Nous allons maintenant comparer les différentes méthodes pour un nombre plusgrand de notes d’apprentissage. Les figures 9.7 et 9.8 montrent l’évolution des erreursNMAE et MRE moyennes lorsque le nombre de notes d’apprentissage mapp varie entre20 et 500. La figure 9.9 montre le nombre d’utilisateurs utilisés pour moyenner leserreurs NMAE et MRE. Plus nous gardons de notes pour l’apprentissage, moins il ya d’utilisateurs pouvant être utilisées en apprentissage en–ligne. Les résultats obtenussont donc à prendre avec précaution pour une valeur élevée de mapp.

La -dg, qui obtenait de mauvaises performances autour de mapp = 10 notes,obtient les meilleures performances lorsque le nombre de notes d’apprentissage estcompris entre 60 et 460 notes. Sur le même intervalle de notes, l’ obtient des er-reurs légèrement supérieures, suivie de près par la et la -mar.

Finalement, dans le cadre d’une utilisation réelle d’un système de recommanda-tion en ligne, un nouvel utilisateur arrive avec un nombre de notes relativement faibles.


F. 9.7 – Erreur NMAE en généralisation forte, pour un nombre de notes entre 20 et500

F. 9.8 – Erreur MRE en généralisation forte, pour un nombre de notes entre 20 ≤mapp ≤ 500


F. 9.9 – Nombre d’utilisateurs utilisés pour calculer les erreurs NMAE et MRE, pourun nombre de notes entre 20 et 500

Dans ce cas, la méthode semble être bien adaptée. Quand il y a assez de pairescritiques, la méthode devient compétitive et obtient même des meilleurs résultatsque . En pratique, un utilisateur doit fournir un minimum de mapp ≥ 10 notes pouravoir de bonnes performances en ordonnancement, ce qui n’est pas trop contraignantdu point de vue de l’utilisateur. Rappelons que les méthodes et ont des com-plexités linéaires par rapport à l’ensemble des paramètres du modèle.

9.7 ConclusionDans la littérature, les travaux pour le filtrage collaboratif ont étudié la tâche de

classification ou régression. Nous avons proposé une nouvelle approche basée sur l’or-donnancement. Ainsi formulé, le filtrage collaboratif peut être vu comme plusieurstâches d’ordonnancement d’instances, où les entrées sont partiellement étiquetées etles représentations vectorielles manquantes. Nous avons proposé une méthode, qui mi-nimise le nombre moyen de paires critiques mal ordonnées par utilisateur. Basée sur laborne exponentielle, l’un de ses principaux avantages vient de sa faible complexité.

Afin d’évaluer notre modèle, nous avons repris le protocole expérimental proposépar [Marlin, 2004] et adapté ce protocole pour évaluer la prédiction d’ordre. Nousavons comparé ses performances avec deux méthodes de factorisation matricielle : la et . La première a été proposée dans [Srebro and Jaakkola, 2003] et consti-tue une référence en la matière. Elle peut obtenir d’ailleurs des résultats similaires àla méthode de factorisation matricielle maximisant une marge malgré l’absence

9.7 Conclusion 181

de régularisation. La est une méthode que j’ai proposée conjointement avec Jean-François Pessiot [Pessiot, 2008] pour le filtrage collaboratif. Elle a l’avantage d’avoirune complexité très faible et d’obtenir des résultats similaires à .

Finalement, les trois méthodes , et obtiennent des performancestrès comparables en généralisation faible. Toutefois, est beaucoup moins sensibleau phénomène de sur—apprentissage. De plus, en terme de généralisation forte, laméthode obtient les meilleurs résultats, montrant l’utilité du cadre de l’ordonnan-cement au filtrage collaboratif. Les résultats expérimentaux présentés dans ce chapitrenous amènent toutefois à penser que l’erreur exponentielle utilisée dans est uneborne supérieure trop large de l’erreur de classification de paires critiques. Une pers-pective de recherche concerne l’étude d’autres fonctions d’erreur en ordonnancementen particulier celles à base de marge.


10Conclusion

Sommaire10.1 Résumé de notre travail . . . . . . . . . . . . . . . . . . . . . . 18110.2 Discussion et perspectives . . . . . . . . . . . . . . . . . . . . . 182

10.2.1 Ordonnancement semi–supervisé . . . . . . . . . . . . . 18210.2.2 Ordonnancement actif . . . . . . . . . . . . . . . . . . . 18310.2.3 Ordonnancement collaboratif . . . . . . . . . . . . . . . . 184

10.1 Résumé de notre travailDans ce mémoire, nous nous sommes intéressés à la tâche d’ordonnancement

lorsque l’apprenant ne dispose qu’un nombre restreint d’instances étiquetées.

Dans un premier temps, nous avons présenté le contexte de ce travail en rappelantles cadres d’ordonnancement d’alternatives et d’instances existants (Chapitre 2).

Nous avons ensuite considéré le cas particulier de l’ordonnancement biparti et nousavons vu que l’aire sous la courbe ROC est une mesure de performance naturelle pourcette tâche. Cette mesure peut être maximisée en suivant l’approche de la classificationdes paires critiques. Mais l’application naïve de cette approche n’est généralement paspossible à cause du nombre important de paires critiques que l’on peut générer pour unproblème classique d’ordonnancement. Nous avons présenté un ensemble de travauxproposant de résoudre ce problème combinatoire (cf. Chapitre 3).

Dans la deuxième partie de ce mémoire, nous avons vu qu’il était facile d’obtenirdes instances. Cependant, leur étiquetage est beaucoup plus difficile et il est souventonéreux, ce qui limite de facto la taille de la base d’apprentissage. La problématique denotre étude découle de ce constat : Comment améliorer l’ordonnancement lorsque l’onpossède un nombre restreint d’instances étiquetées ? Nous avons exploré deux pistes :(1) l’ordonnancement semi–supervisé, et (2) l’ordonnancement actif.

En ordonnancement semi–supervisé, nous avons proposé deux méthodes quiétendent respectivement B et S. Ces méthodes ont trois avantages.En premier lieu, elles peuvent donner un score à n’importe quelle instance (induction),même aux instances qui n’ont pas été vues en apprentissage. En deuxième lieu, leur

184 Conclusion

complexité algorithmique est faible, ce qui leur permet de passer à l’échelle. Cettepropriété les démarque de la majorité des modèles proposés en apprentissage semi–supervisé. En dernier lieu, elles ont peu de paramètres, ce qui facilite le réglage desméta–paramètres. Nous avons aussi montré à travers les résultats expérimentaux toutl’avantage de l’exploitation des données non–étiquetées pendant l’apprentissage. Cerésultat connu en classification est ainsi vérifié en ordonnancement. Nous avons aussimontré que ce bénéfice se payait au niveau de la complexité et du temps de calcul. Lescaractéristiques de nos modèles permettent de gérer efficacement ce défaut.

En ordonnancement actif, nous avons proposé plusieurs stratégies pour sélectionnerles instances à étiqueter. Les expériences ont montré qu’elles permettaient de constituerefficacement les bases d’apprentissage en sélectionnant les instances les plus informa-tives. Ainsi, nous pouvons améliorer les performances d’un modèle d’ordonnancementen utilisant moins d’instances. Ce résultat est aussi connu en classification, nous l’avonsexpérimentalement montré en ordonnancement biparti.

D’un point de vue plus applicatif, nous avons aussi distingué un autre cas de figuredans lequel l’apprenant arrive à palier le manque d’informations avec les notes desautres utilisateurs. Ce cadre est connu sous le terme de filtrage collaboratif et permetde mettre en œuvre des systèmes de recommandation. Nous avons proposé d’aborderce cadre à travers le prisme de l’ordonnancement. Nous avons proposé un algorithmepossédant une complexité linéaire par rapport à l’ensemble des paramètres.

10.2 Discussion et perspectives

10.2.1 Ordonnancement semi–superviséL’objectif principal de ce mémoire est de pouvoir apprendre en incorporant des

informations autres que les étiquettes dans l’apprentissage. Nous avons privilégié lesméthodes avec une faible complexité. Du point de vue efficacité, nous ne prétendonsaucunement avoir développé les modèles semi–supervisés les plus performants. Nouspensons au contraire qu’il est possible de faire mieux voire beaucoup mieux . . . maiscertainement au prix d’une complexité algorithmique et d’un nombre de paramètresplus élevés.

Complexité et réglage de méta–paramètres ?

Nous avons ainsi utilisé des fonctions score linéaires. L’utilisation des noyaux estbien entendu possible en ordonnancement. Mais elle pose deux questions essentielles :Quel noyau choisir ? Quel paramètre du noyau utiliser ?

La première implique une connaissance minimale des données tandis que ladeuxième touche au problème combien important du réglage des méta–paramètres.Nous avons proposé une heuristique basée sur la validation croisée. Lorsque la taillede la base est restreinte, les données étiquetées semblent ne pas être suffisantes. Nouspensons que le réglage des méta–paramètres doit aussi se baser sur les données non–étiquetées. Pour ce faire, nous pouvons envisager deux approches. La première consisteà utiliser une borne en généralisation semi–supervisée et la deuxième consiste à utiliserles modèles génératifs et un critère de sélection comme BIC.

10.2 Discussion et perspectives 185

Garantie de performance ?

Durant cette thèse, notre objectif principal était d’exploiter efficacement les don-nées non–étiquetées de la base d’apprentissage. Nous avons proposé dans ce sens desmodèles et nous les avons évaluées expérimentalement. Mais nous n’avons offert au-cune garantie au niveau des performances.

À ce stade, nous donnons uniquement quelques bribes de réponses. Pour la méthodeB, nous avons simplifié l’hypothèse du clustering assumption. Cette méthodedevrait fonctionner sur des bases qui respectent cette structure. Comme en classifica-tion, il est nécessaire d’avoir un minimum de connaissances sur les données. Pour lesmodèles auto–apprenants que nous avons proposés, le lien avec une telle hypothèse estbeaucoup plus indirect. Leurs performances semblent être intimement liées à la perfor-mance initiale du modèle supervisé. En somme, l’étude des performances des modèlessemi–supervisés reste un champ ouvert que nous n’avons pas abordé dans ce mémoire.Cette problématique se pose pour l’apprentissage semi–supervisé en général.

10.2.2 Ordonnancement actifOutre l’extension au cas non–linéaire, d’autres perspectives se dessinent naturelle-

ment après l’étude proposée en ordonnancement actif.

Prise en compte de la topologie, de la distribution des données ?

Nous pouvons noter que l’ensemble des stratégies que nous avons proposées uti-lisent directement la sortie du modèle (ou des modèles du comité). Il semblerait doncque la sélection des instances à étiqueter dépend fortement des performances du mo-dèle courant. Il est légitime de douter de l’efficacité des ces approches lorsque peu dedonnées ont été étiquetées. En d’autres termes, comment peut–on espérer faire mieux ?

Une direction de recherche intéressante serait d’exploiter l’information contenuedans la distribution des données, structure révélée par les données non–étiquetées.En classification active, cette piste a été explorée en combinant des modèles super-visés avec des stratégies de sélection. Mais rappelons qu’elle introduit automatique-ment des hyperparamètres qu’il faut fixer de façon a priori. Nous pensons que dansce cas, l’utilisation des modèles génératifs peut être bénéfique notamment dans l’esti-mation des probabilités a posteriori. Une autre piste est l’utilisation d’un échantillonqui représente au mieux le nuage d’instances non–étiquetées [Baram et al., 2004;Aupetit, 2009]. Une stratégie combinée serait intéressante à explorer.

Combiner les stratégies ?

Un moyen de combiner plusieurs stratégies d’apprentissage actif est d’apprendreà sélectionner une stratégie à chaque itération. L’avantage d’une telle approche estde pouvoir profiter des avantages de chacune d’entre elles. En effet, nous pensons quechacune présente des atouts mais aussi des désavantages et qu’il est donc intéressant depouvoir les combiner. Le cadre de l’apprentissage par renforcement et celui des banditsmulti–armés offrent des possibilités dans ce sens comme le montrent les travaux de[Baram et al., 2004; Rollet, 2009].

186 Conclusion

Quand et comment s’arrêter ?

Enfin nous n’avons pas abordé dans cette étude un point important en apprentis-sage actif : le critère d’arrêt. Nous avons juste explicité des stratégies pour sélectionnerles instances à étiqueter. Une question légitime serait de savoir à quel moment il n’estplus nécessaire d’ajouter des exemples étiquetés. Elle reste ainsi ouverte en ordonnan-cement, mais aussi plus généralement en apprentissage actif.

10.2.3 Ordonnancement collaboratifUtilisation de fonctions perte alternatives ?

Nous avons proposé un nouveau cadre pour le filtrage collaboratif ainsi qu’uneméthode de faible complexité. Les résultats ont montré que les performances étaientglobalement similaires à la décomposition en valeurs singulières pondérées. Rappelonsque notre méthode optimise une borne exponentielle de l’erreur en classification depaires critiques. Cette borne permet de rendre linéaire le coût par rapport au nombred’instances. Mais elle présente à notre avis deux inconvénients : d’une part la borneest relativement large et d’autre part elle n’utilise pas la notion de marge. L’utilisationde la fonction de perte hinge permettrait certainement d’améliorer les résultats. Elle al’avantage d’augmenter raisonnablement la complexité algorithmique (cf. Annexe A).

Utilisation de fonctions coût différentes ?

Nous pouvons aussi remarquer que l’erreur d’ordonnancement considérée dans cemémoire est une erreur sur les paires critiques. Elle donne autant d’importance à cha-cune des paires. Par conséquent, chaque élément de la liste doit être correctement or-donné, peu importe sa position. Pourtant, la recommandation ne s’intéresse qu’aux pre-miers éléments de la liste. Il serait ainsi plus intéressant de donner plus d’importance àdes erreurs d’ordonnancement survenant au début de la liste qu’à la fin. Une directionde recherche intéressante concerne l’étude des erreurs d’ordonnancement privilégiantles éléments en haut de la liste. Plusieurs pistes peuvent être explorées. L’optimisa-tion de fonctions coût spécifiques (NDGC par exemple) a été envisagée comme dans[Weimer et al., 2007] mais les résultats ne semblent pas encore réellement convain-cants. L’utilisation de coûts modifiés [Rudin, 2006] ou de méthodes à base de ré–ordonnancement (reranking) [Collins and Koo, 2003] offrent des possibilités intéres-santes.

11Bibliographie personnelle

Conférences internationales avec comité de relecture[1] Truong V., Amini M.-R., Gallinari P., A self–training method for learning to

rank dans Proceedings of the 11th European Symposium on Artificial NeuralNetworks (ESANN’09)

[2] Amini M.-R., Truong V. et Goutte C., A Boosting Algorithm for Learning Bi-partite Ranking Functions with Partially Labeled Data dans Proceedings of the31st International ACM SIGIR (SIGIR’08)

[3] Pessiot J.-F., Truong V., Usunier N., Amini M.-R. et Gallinari P., Learning toRank for Collaborative Filtering . dans Proceedings of the 9th InternationalConference on Enterprise Information Systems (ICEIS 2007), p. 145-151

[4] Truong V., Amini M.-R., Gallinari P., Learning to Rank with Partially LabeledTraining Data dans Proceedings of the 1st International Conference on Multidis-ciplinary Information Sciences and Technologies (InSciT 2006)

Atelier international avec comité de relecture[5] Usunier N., Truong V., Amini M.-R., Gallinari P, Ranking with Unlabeled Data :

A first study dans Proceedings of the NIPS’05 workshop on Learning to Rank(NIPS-LR 2005)

Conférences francophones avec comité de relecture[6] Truong V., Amini M.-R, Gallinari P. : Apprentissage de fonctions d’ordonnan-

cement avec un flux de données non étiquetées dans Proceedings of the 11thConference francophone sur l’APprentissage artificiel (CAP’09)

[7] Truong V., Amini M.-R : Apprentissage de fonctions d’ordonnancement semi–supervisé inductives dans Proceedings of the 10th Conference francophone surl’APrentissage automatique (CAP’08)

[8] Pessiot J.-F., Truong V., Usunier N., Amini M.-R. et Gallinari P., Filtrage Col-laboratif avec un Algorithme d’Ordonnancement dans Proceedings of the 4thConférence en Recherche d’Information et Applications. (CORIA 2007), p. 165-180Prix du meilleur article

[9] Pessiot J.-F., Truong V., Usunier N. Amini M.-R., Gallinari P., Factorisation enMatrices Non-Négatives pour le Filtrage Collaboratif dans Proceedings of the

188 Bibliographie personnelle

3rd Conférence en Recherche d’Information et Applications (CORIA 2006), p.315-326

[10] Truong V., Amini M.-R, Apprentissage semi-supervisé de fonctions d’ordon-nancement dans Proceedings of the 7th Conférence on Extraction et Gestion desConnaissances (EGC 2007), p. 497-507

[11] Pessiot J.-F., Truong V., Usunier N. Amini M.-R., Gallinari P., Factorisation enMatrices Non-Négatives pour le Filtrage Collaboratif dans Proceedings of the3rd Conférence en Recherche d’Information et Applications (CORIA 2006), p.315-326

ALien entre l’AUC et l’erreur

d’ordonnancement

Nous détaillons dans cette annexe le lien étroit entre la mesure AUC et l’erreurd’ordonnancement. Pour cela, nous nous donnons un ensemble d’instances étiquetéesS à ordonner. Cet ensemble contient n+ instances positives S1 = {xi}

n+

i=1 et n− instancesnégatives S−1 = {xi}

n−i=1.

Rappelons que la courbe ROC trace le taux de vrais pertinents (TP) en fonction decelui des faux pertinents (FP). Soit s un seuil et h une fonction score. Le taux T P(s)(resp. FP(s)) est défini comme la probabilité d’avoir un score au-dessus du seuil s pourun exemple pertinent (resp. non–pertinent).

T P(s) = P(h(x) > s | y = 1

)FP(s) = P

(h(x′) > s | y′ = −1

)Sans perte de généralité, nous supposons que les instances positives sont indexées

dans l’ordre croissant de leur score :

h(x1) ≤ h(x2) ≤ · · · ≤ h(xn+)

Comme la base est finie, la courbe ROC est une fonction constante par morceaux.Soit h(x0) tel que : ∀x ∈ SL, h(x0) < h(xi).

Nous pouvons alors calculer la valeur exacte de l’AUC :

AUC(h,S) =

n+∑i=1

T P(h(xi)).(FP

(h(xi−1)

)− FP

(h(xi)

))Or par construction, nous avons :

T P(h(xi)) =n+ + 1 − i

n+

(A.1)

FP(h(xi)) =1n−

∑x′∈S−1

[[h(x′) ≥ h(xi)]] (A.2)

190 Lien entre l’AUC et l’erreur d’ordonnancement

En remplaçant les termes dans l’équation de l’AUC, nous obtenons :

AUC(h,S) =

n+∑i=1

n+ + 1 − in+n−

∑x′∈S−1

[[h(x′) ≥ h(xi−1)]]

−∑

x′∈S−1

[[h(x′) ≥ h(xi)]]

(A.3)

=

n+∑i=1

n+ + 1 − in+n−

∑x′∈S−1

[[h(x′) ≥ h(xi−1)]]

−

n+∑i=1

n+ + 1 − in+n−

∑x′∈S−1

[[h(x′) ≥ h(xi)]]

(A.4)

=

n+−1∑i=0

n+ − in+n−

∑x′∈S−1

[[h(x′) ≥ h(xi)]]

−

n+∑i=1

n+ + 1 − in+n−

∑x′∈S−1

[[h(x′) ≥ h(xi)]]

(A.5)

=−1

n+n−

n+−1∑i=1

∑x′∈S−1

[[h(x′) ≥ h(xi)]] +n+

n+n−

∑x′∈S−1

[[h(x′) ≥ h(x0)]](A.6)

=−1

n+n−

n+∑i=1

∑x′∈S−1

[[h(x′) ≥ h(xi)]] +1n−

∑x′∈S−1

[[h(x′) ≥ h(x0)]]︸︷︷︸= 1 par définition

(A.7)

La première équation (équation A.3) est simplement obtenue en remplaçant lesformules de TP (équation A.1) et FP (équation A.2) dans la définition de l’AUC. Àl’intérieur de la première somme, on distribue le facteur n++1−i

n+n−(équation A.4).

On fait ensuite un changement d’indice dans la première somme pour éliminer le terme1 dans le facteur n++1−i

n+n−et faire apparaître [[h(x′) ≥ h(xi)]] dans cette somme (équation

A.5).On peut remarquer que le dernier terme peut s’écrire de la manière suivante :

−

n+∑i=1

n+ + 1 − in+n−

∑x′∈S−1

[[h(x′) ≥ h(xi)]]

= −

n+∑i=1

n+ − in+n−

∑x′∈S−1

[[h(x′) ≥ h(xi)]]

︸︷︷︸terme A

−

n+∑i=1

1n+n−

∑x′∈S−1

[[h(x′) ≥ h(xi)]]

︸︷︷︸terme B

En regroupant la somme du terme A et la première somme dans l’équation A.5, onaboutit à l’équation A.6. De cette dernière somme, il ne reste que le terme d’indicei = 0 (deuxième terme dans les équations A.6 et A.7). Or, par construction, les scoresde tous les instances négatives sont strictement plus grandes que h(x0). De plus, lecardinal de S−1 est n−.

191

Nous en déduisons que :

AUC(h,S) = 1 −1

n+n−

n+∑i=1

∑x′∈S−1

[[h(x′) ≥ h(xi)]]

= 1 − EAUC(h,S)

192 Lien entre l’AUC et l’erreur d’ordonnancement

BCalcul de l’erreur d’ordonnancement

et du gradient

SommaireB.0.4 Nombre de paires critiques mal ordonnées . . . . . . . . . 191B.0.5 Erreur d’ordonnancement avec la fonction perte hinge . . 191

Cette annexe décrit des algorithmes efficaces pour calculer l’AUC et l’erreur declassification de paires critiques avec une fonction de perte hinge. Ces algorithmespeuvent être étendus pour des fonctions perte quelconques mais basées sur les pairescritiques mal ordonnées.

Soit SL = {xi,yi}, un ensemble d’instances étiquetées. Nous considérons aussi unefonction score h.

B.0.4 Nombre de paires critiques mal ordonnéesLe nombre de paires inversées est déterminé par :

EAUC(h,SL) =∑

i:yi=1

∑j:y j=−1

[[h(xi) < h(x j)]]︸︷︷︸height(h,xi)

La fonction height(h,xi) retourne le nombre d’instances non–pertinentes qui ont obte-nue un score plus élevé que xi. En ordonnant l’ensemble d’apprentissage, nous pouvonsainsi déterminer cette erreur sans faire de comparaison de scores une à une. Le pseudo–code est décrit par l’algorithme 23.

B.0.5 Erreur d’ordonnancement avec la fonction perte hingeNous décrivons ici un algorithme simple pour calculer l’erreur en utilisant une

fonction perte de type hinge. Dans ce cas, la fonction perte vaut 1 + h(x′) − h(x) sih(x) − h(x′) < 1. Nous allons alors ordonner les instances par rapport à un score modi-fié :

h′(x) =

{h(x) − 1 si x est pertinenth(x) sinon (B.1)

194 Calcul de l’erreur d’ordonnancement et du gradient

Algorithme 23 Algorithme pour calculer le nombre de paires critiques mal ordonnéesE: une base étiquetée SL, une fonction score h, une fonction de coût l(h,x,x′)

1: Calculer les scores de chaque instance2: Ordonner dans l’ordre décroissant les instances en fonction de leurs scores3: pour i=1,. . .,n faire4: si l’instance de rang i est non pertinente alors5: height← height + 16: sinon7: EAUC ← AUC + 18: finsi9: fin pour

10: EAUC ← AUC/n+n−S: EAUC

Si une instance non pertinente x′ a un meilleur rang qu’une instance pertinente x, alorsh′(x) < h′(x′) soit h(x)−h(x′) < 1. Nous pouvons en déduire l’algorithme 24 permettantde calculer rapidement l’erreur. Dans l’algorithme, nous déterminons aussi c[x] quiretourne le nombre de fois que l’instance x fait partie d’une paire critique mal ordonnée.Ces valeurs permettent de calculer rapidement le gradient de l’erreur lorsque h est unefonction linéaire paramétrée par w (algorithme 25).

Algorithme 24 Algorithme pour l’erreur d’ordonnancement en utilisant la fonctionhingeE: une base étiquetée SL, une fonction score h

1: Calculer les scores modifiés de chaque instance avec l’équation B.12: Ordonner dans l’ordre décroissant les instances en fonction de leurs scores3: sumNeg← 04: nbPos← 05: nbNeg← 06: loss← 07: pour i=1,. . .,n faire8: Soit x l’instance de rang i9: si x est une instance non pertinente alors

10: sumNeg← sumNeg + h(x)11: nbNeg← nbNeg + 112: c[x]← nbPos13: sinon14: loss← loss + nbNeg + sumNeg − nbNeg.h(x)15: nbPos← nbPos + 116: c[x]← nbNeg17: finsi18: fin pour19: loss← loss/n+n−S: loss

Ainsi, pour une fonction linéaire, le calcul de l’erreur d’ordonnancementavec une fonction perte hinge requiert un algorithme de tri comme [Hoare,

195

Algorithme 25 Algorithme pour calculer le sous–gradient de l’erreur d’ordonnance-mentE: une base étiquetée SL, une fonction score h

1: g = 02: pour chaque instance x de SL faire3: si l’instance x est non pertinente alors4: g← g + c[x]

n+n−h(x)

5: sinon6: g← g − c[x]

n+n−h(x)

7: finsi8: fin pour

S: sous–gradient g

1962], qui nécessite O(n. log n) opérations et une passe sur l’ensemble d’apprentissage.

Par conséquent, nous en déduisons les complexités de calcul de l’erreur et du gra-dient au point w :

complexité de calcul de l’erreur = O(d.n + n log(n))

complexité de calcul du gradient = O(d.n)

196 Calcul de l’erreur d’ordonnancement et du gradient

CAnnexe : Factorisation de matrices nonnégatives pour le filtrage collaboratif

SommaireC.1 La factorisation en matrices non négatives . . . . . . . . . . . 195

C.1.1 Formalisme de la . . . . . . . . . . . . . . . . . . . . 197C.1.2 Algorithmes pour la . . . . . . . . . . . . . . . . . . 197

C.2 Extension au filtrage collaboratif . . . . . . . . . . . . . . . . . 198C.2.1 Algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . 198C.2.2 Formalisme avec les données manquantes et procédure EM 199

C.3 Résultats complémentaires : interprétation et visualisation . . 201

Les techniques de factorisation matricielle ont été utilisées avec succès pour le fil-trage collaboratif. Nous avons décrit dans le chapitre 6, la décomposition en valeurs

singulières, qui est l’une des plus connues. Nous allons présenter dans cette annexe laméthode de factorisation en matrices non négatives [Lee and Seung, 1999] ainsique l’intérêt d’une telle décomposition par rapport aux méthodes existantes. Nous al-lons ensuite décrire l’algorithme basé sur la , que nous avons adapté pour le filtragecollaboratif. Ce travail a été conjointement réalisé avec J.–F. Pessiot et N. Usunier.

C.1 La factorisation en matrices non négativesLa factorisation en matrices non négatives () est une méthode générale de dé-

composition matricielle, introduite par [Lee and Seung, 1999]. Elle permet d’approchertoute matrice Y non négative de dimensions n × p par un produit de deux matrices nonnégatives B et C de dimensions respectives n × d et d × p. Rappelons qu’une matricenon négative est une matrice dont les éléments sont tous positifs.

En analyse statistique, les données sont généralement décrites par les vecteurs co-lonne de Y. Quand la dimension d est suffisamment petite, le produit BC permet nonseulement d’approcher Y mais constitue une représentation plus compacte1. De plus,un vecteur colonne de Y s’écrit comme une combinaison linéaire de vecteurs colonnede B puisque :

vi = Bci

1Les matrices B et C prennent moins de place en mémoire que Y.

198 Annexe : Factorisation de matrices non négatives pour le filtrage collaboratif

avec vi et ci les vecteurs colonne de Y et C.

Les vecteurs de B s’interprètent alors comme une base utilisée pour représenter lesdonnées initiales. La dimension d des matrices en est le nombre de facteurs latents.La factorisation en matrices non négatives introduit en plus des contraintes de nonnégativité sur les différentes matrices.

Ces contraintes s’accordent avec la notion intuitive qu’un tout est formé de petitesparties distinctes. On parle de représentation par parties. Par exemple, un visage peutêtre vu comme une combinaison de deux yeux, d’un nez, d’une bouche, . . . L’exempledonné par la figure C.1 illustre cette décomposition (exemple pris dans [Lee and Seung,1999]). La représentation initiale d’une donnée (c’est–à–dire un vecteur colonne de Y)est reconstruite en additionnant les vecteurs de base.

F. C.1 – Application de la pour la reconnaissance de visage. L’algorithme ap-prend une représentation en utilisant des parties de visages (nez, oeil, . . .).

Les contraintes de non négativité permettent non seulement d’avoir une représen-tation par parties mais aussi une représentation locale et creuse. Plus précisément, lesvecteurs de base contiennent beaucoup de zéro et ont peu de composantes non nulles encommun. C’est pourquoi les vecteurs de base dans notre exemple correspondent bienà des parties du visage. Cette propriété est intéressante en terme de visualisation etd’interprétabilité. Mais elle n’est pas toujours garantie par les seules contraintes de nonnégativité [Donoho and Stodden, 2003]. Certains travaux ajoutent d’autres contraintespour obtenir une représentation creuse [Hoyer, 2004].

La a été initialement appliquée pour la reconnaissance des visages et pourl’analyse des textes [Lee and Seung, 1999; Lee and Seung, 2000; Xu et al., 2003]. Uneapproche similaire et plus ancienne de a été formulée pour les sciences de l’envi-ronnement et l’astrophysique [Paatero and Tapper, 1994]. Depuis, la a été utiliséedans un grand nombre de domaines. Citons par exemple l’analyse de documents tex-tuels [Shahnaz et al., 2006; Pauca et al., 2004], le traitement d’image ou la biologie (cf.[Devarajan, 2008] pour les différentes utilisations dans ce domaine).

C.1 La factorisation en matrices non négatives 199

C.1.1 Formalisme de la Pour obtenir la factorisation de Y, il est nécessaire de définir une fonction coût, qui

estime la qualité de l’approximation. Cette fonction peut être vue comme une mesurede divergence D entre la matrice initiale Y et la matrice approchée BC. En pratique, lafactorisation revient à résoudre le problème de minimisation suivant :

minB,C

D(Y∣∣∣BC

)avec D

(Y∣∣∣BC

)=

∑i j d

(Yi j |BCi j

)et d(x,y) une fonction coût qui mesure la différence

entre x et y. La distance euclidienne (cf. équation C.1) et la divergence de Kullback–Leibler (cf. équation C.2) sont les plus utilisées. Notons que dans le premier cas, celarevient à minimiser la norme de Frobenius de Y − BC.

L(B,C) =∑

i j

(Yi j − (BC)i j

)2(C.1)

L(B,C) =∑

i j

dKL

(Yi j

∣∣∣ (BC)i j

)(C.2)

avec dKL ( x | y ) = x. log(

xy

)− x + y.

Récemment, [Dhillon and Sra, 2005] ont généralisé ces deux approches en utilisantles divergences de Bregman. Une divergence de Bregman est similaire à une métriquemais elle ne vérifie pas obligatoirement l’inégalité triangulaire. Elle est associée à unefonction réelle strictement convexe et continûment différentiable φ et est définie par :

dφ(x|y) = φ(x) − φ(y) − ∇φ(y)T (x − y)

avec ∇ la dérivée de f . Nous retrouvons la distance euclidienne avec φ(x) = x2 etla divergence de Kullback–Leibler avec φ(x) = x log x. Notons que [Dhillon and Sra,2005; Heiler et al., 2006] introduisent des termes de régularisation pour renforcer lescontraintes sur les matrices B et C. Les normes de Frobenius peuvent être utilisées.Notons aussi les travaux de [Cichocki et al., 2006] qui utilisent une autre famille dedivergences : celles de Csizár.

C.1.2 Algorithmes pour la Dans cette section, nous décrivons l’algorithme de base introduit par Lee et Sung

[Lee and Seung, 2000] puis l’algorithme généralisé de [Dhillon and Sra, 2005]. Pourles détails, nous renvoyons les lecteurs aux différents articles. Rappelons que � est lamultiplication de Schur, la division présente dans les algorithmes est une division termeà terme et φ(A) est la matrice d’élément φ

(Ai j

)avec A une matrice quelconque.

Algorithme 26 pour minimiser la norme de Frobenius de Y − BC1: Initialiser B et C aléatoirement2: répéter3: B← B � YCT

BCCT

4: C← C � BT YBT BC

5: jusqu’à convergence


Algorithme 27 généralisée1: Initialiser B et C aléatoirement2: répéter3: B← B � (∇2φ(BC)�Y)CT

(∇2φ(BC)�BC)CT

4: C← C � BT (∇2φ(BC)�Y)BT (∇2φ(BC)�BC)


Les deux algorithmes utilisent simplement des mises à jour multiplicatives. Chaqueitération nécessite des multiplications matricielles. Soulignons deux remarques sur laconvergence. En premier, la convergence de l’algorithme n’est pas prouvée commele soulignent les auteurs de [Févotte et al., 2009]. Elle est uniquement démontrée pourdes cas particuliers comme la distance euclidienne, la divergence KL ou leurs versionspondérées2. Dans ce cas, les démonstrations montrent que les mises à jour multiplica-tives ne diminuent pas la fonction d’erreur.

Cependant, il n’est pas prouvé que la fonction converge vers un point stationnaire[Lin, 2007a; Berry et al., 2007; Kim et al., 2007; Lin, 2007b; Zdunek and Cichocki,2007; Zdunek and Cichocki, 2008]. Ces travaux proposent des alternatives en utilisantd’autres méthodes d’optimisation (descente de gradient projetée, méthode de Newton,. . .). Contrairement aux deux algorithmes présentés, elles nécessitent le calcul du gra-dient voire de l’hessien de la fonction objectif. Dans le cas de , cela définit plusieursproblèmes d’optimisation avec des contraintes de non négativité. Finalement, les algo-rithmes avec des mises à jour multiplicatives restent simples et sont faciles à mettre enœuvre.

C.2 Extension au filtrage collaboratif

C.2.1 AlgorithmesSoit Y la matrice utilisateur–article et W une matrice booléenne indiquant les élé-

ments manquants ou non (cf. chapitre 9). Y contient les notes utilisateur supposéestoutes positives. Y est donc une matrice n × p non négative. Nous cherchons une ma-trice non négative de rang k ou moins qui minimise la norme pondérée de Frobenius :

J(X) =∑

i j

Wi j(Yi j − Xi j)2

Nous avons proposé une méthode simple inspirée de [Srebro and Jaakkola, 2003],qui est décrite par l’algorithme 28. Elle se fonde sur une méthode de factorisationmatricielle non négative FMNd. C’est en fait un cas particulier de EM [Dempster et al.,1977; Collins, 1997] dans le cadre des données incomplètes. Elle alterne une étaped’estimation des données manquantes par la matrice approchée, puis calcule à nouveaula factorisation matricielle non négative. Nous pouvons montrer que l’algorithme nonseulement converge mais la limite est au pire un point stationnaire (cf. section C.2.2).

Pour éviter ces points (et obtenir un minimum), nous pouvons lancer plusieurs foisl’algorithme avec des initialisations différentes. Comme préconisé dans [Srebro andJaakkola, 2003], nous pouvons commencer par chercher une approximation matricielle

2de façon similaire à la pondérée

C.2 Extension au filtrage collaboratif 201

à un rang plus élevé et le diminuer au fur à mesure des itérations jusqu’à atteindre lavaleur de d.

Algorithme 28 Algorithme générique pour le filtrage collaboratif basé sur la factorisa-tion en matrices non négatives.

1: t ← 02: Initialiser aléatoirement B et C3: répéter4: Y←W � Y + (1 −W) � BC5: BC← FMNd (Y)6: jusqu’à convergence

En utilisant les divergences de Bregman, nous pouvons formuler une méthodesimple pour minimiser la norme pondérée de Frobenius. La convergence est démontréedans [Blondel et al., 2005]. Nous donnons juste l’algorithme proposé dans [Pessiot,2008] pour minimiser sa forme régularisée avec les normes de Frobenius de B et C.Nous notons les paramètres respectifs β et µ. Comme pour l’algorithme 26, nous nesavons pas vers quel point l’algorithme converge : un minimum local, un point sta-tionnaire, ou un point quelconque ? Malgré cette déficience théorique, la procédure estsimple et elle est moins coûteuse que l’algorithme générique.

Algorithme 29 Algorithme avec mises à jour multiplicatives pour le filtrage collabora-tif basé sur la factorisation en matrices non négatives.

1: Initialiser aléatoirement B et C2: répéter3: B← B � (W�W�Y) CT

W�WBC)CT +βB

4: C← C � BT (W�W�Y)BT (W�W�BC+µC


C.2.2 Formalisme avec les données manquantes et procédure EMNous justifions dans cette section l’algorithme générique de filtrage collaboratif

basé sur la méthode .Rappelons que seules les notes fournies par les utilisateurs sont observées. Si

on avait les notes manquantes, il serait facile d’obtenir l’approximation matricielleX = BC. Suivant [Srebro and Jaakkola, 2003], ce constat nous suggère un cadre oùles données observées sont les notes disponibles, les données latentes sont les notesabsentes. Nous supposons de plus que :

Y = X + Z

avec Z une matrice de bruit gaussien, c’est–à–dire Zi j ∼ N(0,σ2).

Cette hypothèse signifie que les notes fournies Yi j suivent une loi normale centréeen Xi j de variance σ2. Elle a surtout l’avantage d’exprimer la log–vraisemblance desdonnées observéesL(W�Y,X) avec la fonction objectif J(X). Après quelques calculs,nous pouvons en effet démontrer que :

L(W � Y,X) ∝ −J(X) + cte (C.3)


Maximiser la log–vraisemblance revient donc à minimiser notre fonction objectif.L’algorithme EM (Espérance–Maximisation) est justement un algorithme adapté pourtrouver les paramètres qui maximisent le maximum de vraisemblance dans les modèlesprobabilistes lorsqu’ils dépendent de variables cachées.

L’algorithme alterne deux étapes jusqu’à convergence : l’étape E (Espérance) etl’étape M (Maximisation). La première étape consiste à calculer l’espérance condi-tionnelle de la log–vraisemblance complétée 3 sachant les données observées et lesparamètres courants du modèle.

Q(X|X(t)) = E[logL (Y,X)

∣∣∣X(t)]

À l’étape M, la fonction Q(X|X(t)) est maximisée et les paramètres sont mis à jour :

X(t+1) = argmax Q(X|X(t))

Quel est le lien avec la méthode de factorisation ? En fait, l’espérance condition-nelle Q(X|X(t)) est proportionnelle à une constante près à l’opposé de la norme deFrobenius de ‖Y(t) − X‖2Fro, avec Y(t) égale à Y en remplaçant les données manquantesYi j par les éléments X(t−1)

i j .

Q(X,X(t)) ∝ −‖Y(t) − X‖2Fro + cte

avec Y(t) = W � Y + (1 −W) � X(t−1).

En d’autres termes, l’étape E revient simplement à estimer les valeurs manquantespar le modèle courant et l’étape M revient à en trouver une approximation de rang k.Sous contraintes de non négativité, cette étape revient simplement à faire une factorisa-tion en matrices non négatives. Nous obtenons la méthode décrite par l’algorithme 28.Notons que sans les contraintes, l’étape M revient à faire une approximation avec unedécomposition en valeurs singulières.

De plus, les conditions [Wu, 1983; Collins, 1997] sont vérifiées pour que tous lespoints limites de l’algorithme EM soient des points stationnaires de L(W�Y,X) et quela suite L(W � Y,X(t)) converge vers L(W � Y,X∗) avec X∗ un point stationnaire. Ceciest aussi vrai pour J(X).

Remarques

La convergence de l’algorithme peut s’obtenir en s’assurant uniquement queQ(X,X(t)) croît à l’étape M (EM généralisé). Cette remarque nous offre plus de liberté àcette étape. Nous pouvons par exemple utiliser une version régularisée de avec lesnormes de Frobenius et/ou les normes max. L’optimisation est possible en faisant uneminimisation alternée avec des méthodes d’optimisation de fonctions convexes pouvantêtre non différentiables. Ces variantes permettent de rendre les matrices plus creuses etde renforcer une représentation locale. De plus, la factorisation peut ne pas être menéejusqu’au bout. Le tout est de s’assurer de la croissance de Q(X,X(t)).

3c’est–à–dire en tenant compte des données non observées

C.3 Résultats complémentaires : interprétation et visualisation 203

C.3 Résultats complémentaires : interprétation et vi-sualisation

Pour le filtrage collaboratif, la décomposition matricielle avec la permet demettre en évidence d vecteurs de bases, tous à coefficients positifs. Ils peuvent êtreinterprétés comme étant des comportements types. Bien que cette terminologie soitimparfaite, nous allons l’utiliser pour plus de simplicité. En réalité, ils correspondentplutôt à des parties typiques de comportement. En effet, chaque profil utilisateur estune somme pondérée de ces comportements types, qui se focalisent chacun sur un en-semble de films différents. Un comportement type correspond donc à un ensemble defilms auxquels un certain nombre d’utilisateurs tendent à allouer des scores importantsen même temps. Ils apportent donc une information importante sur le comportementdes utilisateurs. Un comportement type ne représente toutefois pas un profil utilisateurmoyen, car il ne prend en compte qu’un sous-ensemble des films de la base.

Une première étape dans l’analyse des utilisateurs de la base est d’interpréter cescomportements types, ou plus spécifiquement de comprendre à quoi ils correspondent.Dans ce but, nous proposons trois techniques de visualisations simples, cependantriches en information, de ces parties de comportement. Dans la suite, tous les exemplessont donnés à partir de la base L (décrite dans la section 9.4.1) en fixant lerang à 10. Nous avons aussi utilisé l’algorithme générique (algorithme 28).

La première visualisation, issue d’une analogie avec les modèles d’aspects de [Ren-nie and Srebro, 2005] et de [Polcicová, 2004], consiste à donner les films les plus repré-sentatifs par comportement type (tableau C.1). Bien qu’elle permette d’avoir un aperçurapide de la différence entre les comportements types, cette représentation est impar-faite, car c’est une vision extrêmement restreinte de l’ensemble des films considéréspar chaque comportement.

Nous proposons alors d’exploiter, comme dans [Polcicová, 2004], la répartition desfilms selon les comportements types, ainsi qu’une nouvelle représentation en considé-rant la date de réalisation des films. Deux exemples de répartition par genres sont don-nés en figure C.2. Nous voyons que les deux comportements diffèrent sensiblement :le comportement 0 a un penchant pour les films mystérieux et pour les documentairestandis que le comportement 3 a une préférence pour les films des genres fantastique etcomédie. D’une façon générale, l’ensemble des comportements tend à se focaliser surdes genres différents.

La répartition des films par période, dont les exemples sont donnés figure C.3 pourles comportements 0 et 7, nous permettent de remarquer que le comportement 0 estprincipalement focalisé sur des films récents, alors que le 7 l’est sur des films anciens.La répartition par période est en général moins caractéristique des comportements,mais elle fournit cependant une information non négligeable.


F. C.2 – Visualisation des notes moyennes par genre pour les comportements types0 (à gauche) et 3 (à droite). Les différents genres identifiés sont inconnu(unk), action(act), aventure (adv), animation (ani), enfant (chil), policier (crime), comédie (com),documentaire (doc), drame (dram), fantastique (fant), noir (noir), horreur (hor), musical(mus), mystérieux (mist), romantique (rom), science fiction (sf), thriller (thri), guerre(war) et enfin western (wes).

F. C.3 – Notes moyennes par période pour les comportements types 1 (à gauche) et7 (à droite). Les périodes considérées sont les suivantes : <1960, entre 1960 et 1970,entre 1980, entre 1980 et 1990, entre 1990 et 1995 et > 1995.

C.3 Résultats complémentaires : interprétation et visualisation 205

CT 0 CT 1 CT 2Sum of us Wild things The Joy Luck Club

FreshParadise Lost :

the Child Murdersat Robin Hood Hills

Men with Guns

Hotel of Love Lost in Space To live (Huozhe)Now and then the Big Bang Theory Widow’s PeakI can’t sleep Night Watch The big Blue

CT 3 CT 4 CT 5Schizopolis les boys

Santa with Muscles They Made Mea Criminal

The lady whowalked in the sea

Underground Marlene Dietrich :Shadows and Light A Strong Clear Vision

American Dream Crossfire You So Crasy

the Butcher Boy AparajitoThe Quiet RoomMicrocosmos :

le peuple de l’herbe

CT 6 CT 7 CT 8Far From Home :The Adventure of

Yellow DogNew York Cop Safe Passage

Angel Baby Golden Earrings StripesLove Serenade The Thin Blue Line Killer : A Journal of Murder

Mondo The Little Princess The ShowHighlander III :The Sorcerer The Innoncent He Walked By Night

CT 9Shiloh

The ShooterPie in the SkyTotal Eclipse

Zeus and Roxanne

T. C.1 – Les 5 films les mieux notés par comportement type (CT)


Bibliographie

[Adomavicius and Tuzhilin, 2005] Adomavicius, G. and Tuzhilin, E. (2005). Towardthe next generation of recommender systems : A survey of the state-of-the-art andpossible extensions. IEEE Transactions on Knowledge and Data Engineering,17 :734–749.

[Agarwal, 2006] Agarwal, S. (2006). Ranking on graph data. In Cohen, W. W. andMoore, A., editors, ICML, volume 148 of ACM International Conference Procee-ding Series, pages 25–32. ACM.

[Agarwal et al., 2005] Agarwal, S., Graepel, T., Herbrich, R., Har-Peled, S., and Roth,D. (2005). Generalization bounds for the area under the ROC curve. Journal ofMachine Learning Research, 6 :393–425.

[Agarwal and Niyogi, 2005] Agarwal, S. and Niyogi, P. (2005). Stability and genera-lization of bipartite ranking algorithms. In Auer, P. and Meir, R., editors, COLT,volume 3559 of Lecture Notes in Computer Science, pages 32–47. Springer.

[Agarwal and Roth, 2005] Agarwal, S. and Roth, D. (2005). Learnability of bipartiteranking functions. In Auer, P. and Meir, R., editors, COLT, volume 3559 of LectureNotes in Computer Science, pages 16–31. Springer.

[Ailon and Mohri, 2008] Ailon, N. and Mohri, M. (2008). An efficient reduction ofranking to classification. In Servedio, R. A. and Zhang, T., editors, COLT, pages87–98. Omnipress.

[Aiolli et al., 2007] Aiolli, F., Sebastiani, F., and Sperduti, A. (2007). Preference lear-ning for category-ranking based interactive text categorization. In Proceedings ofthe International Joint Conference on Neural Networks, Celebrating 20 years ofneural networks, pages 2034–2039. IEEE.

[Aiolli and Sperduti, 2004] Aiolli, F. and Sperduti, A. (2004). Learning preferencesfor multiclass problems. In Saul, L. K., Weiss, Y., and Bottou, L., editors, NIPS.MIT Press.

[Aiolli and Sperduti, 2008] Aiolli, F. and Sperduti, A. (2008). Supervised learning aspreference optimization : Recent applications. In Proceedings of the ECML/PKDD-Workshop on Preference Learning.

[Amini, 2001] Amini, M.-R. (2001). Apprentissage Automatique et Recherche de l’In-formation : application à l’Extraction d’Information de Surface et au Résumé detexte. PhD thesis, Université Pierre et Marie Curie, LIP6.

[Amini et al., 2008a] Amini, M.-R., Laviolette, F., and Usunier, N. (2008a). A trans-ductive bound for the voted classifier with an application to semi-supervised lear-ning. In Koller, D., Schuurmans, D., Bengio, Y., and Bottou, L., editors, Advancesin Neural Information Processing Systems 21. MIT Press.

208 Bibliographie

[Amini et al., 2007] Amini, M.-R., Tombros, A., Usunier, N., and Lalmas, M. (2007).Learning-based summarisation of XML documents. Information Retrieval,10(3) :233–255.

[Amini et al., 2008b] Amini, M.-R., Truong, T.-V., and Goutte, C. (2008b). A boostingalgorithm for learning bipartite ranking functions with partially labeled data. InMyaeng, S.-H., Oard, D. W., Sebastiani, F., Chua, T.-S., and Leong, M.-K., editors,SIGIR, pages 99–106. ACM.

[Amini et al., 2005] Amini, M.-R., Usunier, N., and Gallinari, P. (2005). Automa-tic text summarization based on word-clusters and ranking algorithms. In Losada,D. E. and Fernández-Luna, J. M., editors, ECIR, volume 3408 of Lecture Notes inComputer Science, pages 142–156. Springer.

[Ando and Zhang, 2005] Ando, R. K. and Zhang, T. (2005). A framework for learningpredictive structures from multiple tasks and unlabeled data. Journal of MachineLearning Research, 6 :1817–1853.

[Angluin, 1988] Angluin, D. (1988). Queries and concept learning. Machine Lear-ning, 2(4) :319–342.

[Aupetit, 2009] Aupetit, M. (2009). Nearly homogeneous multi-partitioning with adeterministic generator. Neurocomputing, 72(7-9) :1379–1389.

[Bakker and Heskes, 2003] Bakker, B. and Heskes, T. (2003). Task clustering andgating for bayesian multitask learning. Journal of Machine Learning Research,4 :2003.

[Balcan et al., 2008] Balcan, M.-F., Bansal, N., Beygelzimer, A., Coppersmith, D.,Langford, J., and Sorkin, G. B. (2008). Robust reductions from ranking to clas-sification. Machine Learning, 72(1-2) :139–153.

[Baram et al., 2004] Baram, Y., El-Yaniv, R., and Luz, K. (2004). Online choice ofactive learning algorithms. Journal of Machine Learning Research, 5 :255–291.

[Bartlett et al., 2006] Bartlett, P. L., Jordan, M. I., and McAuliffe, J. D. (2006).Convexity, classification, and risk bounds. Journal of the American Statistical Asso-ciation, 101(473) :138–156. (Was Department of Statistics, U.C. Berkeley TechnicalReport number 638, 2003).

[Basilico and Hofmann, 2004] Basilico, J. and Hofmann, T. (2004). A joint frameworkfor collaborative and content filtering. In Sanderson, M., Järvelin, K., Allan, J., andBruza, P., editors, SIGIR, pages 550–551. ACM.

[Baxter, 2000] Baxter, J. (2000). A model of inductive bias learning. Journal of Arti-ficial Intelligence Research, 12 :149–198.

[Beaulieu, 1989] Beaulieu, N. (1989). A simple series for personal computer compu-tation of the error function Q(.). IEEE transactions on communications, vol 37, no9 :989–991.

[Belkin and Niyogi, 2007] Belkin, M. and Niyogi, P. (2007). Convergence of laplacianeigenmaps. In Advances in Neural Information Processing Systems 19. MIT Press.

[Belkin et al., 2006] Belkin, M., Niyogi, P., and Sindhwani, V. (2006). Manifoldregularization : A geometric framework for learning from labeled and unlabeledexamples. Journal of Machine Learning Research, 7 :2399–2434.

[Bell and Koren, 2007] Bell, R. M. and Koren, Y. (2007). Improved neighborhood-based collaborative filtering. In Proceedings of the KDDCup.

Bibliographie 209

[Berry et al., 2007] Berry, M. W., Browne, M., Langville, A. N., Pauca, P. V., andPlemmons, R. J. (2007). Algorithms and applications for approximate nonnegativematrix factorization. Computational Statistics and Data Analysis, 52(1) :155–173.

[Blondel et al., 2005] Blondel, V., diep Ho, N., and Dooren, P. V. (2005). Algorithmsfor weighted non-negative matrix factorization.

[Bordes et al., 2007] Bordes, A., Bottou, L., Gallinari, P., and Weston, J. (2007). Sol-ving multiclass support vector machines with larank. In Ghahramani, Z., editor,ICML, volume 227 of ACM International Conference Proceeding Series, pages 89–96. ACM.

[Bordes et al., 2005] Bordes, A., Vauquelin, R., Ertekin, S., Weston, J., Bottou, L., andCristianini, N. (2005). Fast kernel classifiers with online and active learning. Journalof Machine Learning Research, 6 :1579–1619.

[Boyd and Vandenberghe, 2004] Boyd, S. and Vandenberghe, L. (2004). Convex Op-timization. Cambridge University Press.

[Breese et al., 1998] Breese, J. S., Heckerman, D., and Kadie, C. M. (1998). Empiricalanalysis of predictive algorithms for collaborative filtering. In Cooper, G. F. andMoral, S., editors, UAI, pages 43–52. Morgan Kaufmann.

[Brefeld and Scheffer, 2005] Brefeld, U. and Scheffer, T. (2005). AUC maximizingsupport vector learning. In In Proceedings of the ICML workshop on ROC Analysisin Machine Learning.

[Brinker, 2004] Brinker, K. (2004). Active learning of label ranking functions. In Bro-dley, C. E., editor, ICML, volume 69 of ACM International Conference ProceedingSeries. ACM.

[Burges, 1998] Burges, C. J. C. (1998). A tutorial on support vector machines forpattern recognition. Data Mining and Knowledge Discovery, 2 :121–167.

[Burges et al., 2006] Burges, C. J. C., Ragno, R., and Le, Q. V. (2006). Learning torank with nonsmooth cost functions. In Schölkopf, B., Platt, J. C., and Hoffman, T.,editors, NIPS, pages 193–200. MIT Press.

[Burges et al., 2005] Burges, C. J. C., Shaked, T., Renshaw, E., Lazier, A., Deeds, M.,Hamilton, N., and Hullender, G. N. (2005). Learning to rank using gradient descent.In Raedt, L. D. and Wrobel, S., editors, ICML, volume 119 of ACM InternationalConference Proceeding Series, pages 89–96. ACM.

[Burke, 2007] Burke, R. D. (2007). Hybrid web recommender systems. In Brusi-lovsky, P., Kobsa, A., and Nejdl, W., editors, The Adaptive Web, volume 4321 ofLecture Notes in Computer Science, pages 377–408. Springer.

[Calders and Jaroszewicz, 2007] Calders, T. and Jaroszewicz, S. (2007). EfficientAUC optimization for classification. In Kok, J. N., Koronacki, J., de Mántaras,R. L., Matwin, S., Mladenic, D., and Skowron, A., editors, PKDD, volume 4702 ofLecture Notes in Computer Science, pages 42–53. Springer.

[Campbell et al., 2000] Campbell, C., Cristianini, N., and Smola, A. J. (2000). Querylearning with large margin classifiers. In Langley, P., editor, ICML, pages 111–118.Morgan Kaufmann.

[Caruana et al., 2008] Caruana, R., Karampatziakis, N., and Yessenalina, A. (2008).An empirical evaluation of supervised learning in high dimensions. In Cohen, W. W.,McCallum, A., and Roweis, S. T., editors, ICML, volume 307 of ACM InternationalConference Proceeding Series, pages 96–103. ACM.

210 Bibliographie

[Caruana and Niculescu-Mizil, 2004] Caruana, R. and Niculescu-Mizil, A. (2004).Data mining in metric space : an empirical analysis of supervised learning perfor-mance criteria. In Kim, W., Kohavi, R., Gehrke, J., and DuMouchel, W., editors,KDD, pages 69–78. ACM.

[Caruana, 1993] Caruana, R. A. (1993). Multitask learning : A knowledge-basedsource of inductive bias. In Proceedings of the Tenth International Conference onMachine Learning, pages 41–48. Morgan Kaufmann.

[Chapelle, 2005] Chapelle, O. (2005). Active learning for parzen window classifier.In AI STATS, pages 49–56.

[Chapelle et al., 2006] Chapelle, O., Schölkopf, B., and Zien, A., editors (2006). Semi-Supervised Learning (Adaptive Computation and Machine Learning). The MITPress.

[Chapelle et al., 2008] Chapelle, O., Sindhwani, V., and Keerthi, S. S. (2008). Optimi-zation techniques for semi-supervised support vector machines. Journal of MachineLearning Research, 9 :203–233.

[Chapelle et al., 2002] Chapelle, O., Weston, J., and Schölkopf, B. (2002). Clusterkernels for semi-supervised learning. In Becker, S., Thrun, S., and Obermayer, K.,editors, NIPS, pages 585–592. MIT Press.

[Chapelle and Zien, 2005] Chapelle, O. and Zien, A. (2005). Semi-supervised classi-fication by low density separation. In Cowell, R., Z. G., editor, Tenth InternationalWorkshop on Artificial Intelligence and Statistics, pages 57–64.

[Chu and Ghahramani, 2005a] Chu, W. and Ghahramani, Z. (2005a). Gaussian pro-cesses for ordinal regression. Journal of Machine Learning Research, 6 :1019–1041.

[Chu and Ghahramani, 2005b] Chu, W. and Ghahramani, Z. (2005b). Preference lear-ning with gaussian processes. In Raedt, L. D. and Wrobel, S., editors, ICML, volume119 of ACM International Conference Proceeding Series, pages 137–144. ACM.

[Chu and Keerthi, 2005] Chu, W. and Keerthi, S. S. (2005). New approaches to sup-port vector ordinal regression. In Raedt, L. D. and Wrobel, S., editors, ICML,volume 119 of ACM International Conference Proceeding Series, pages 145–152.ACM.

[Chu and Keerthi, 2007] Chu, W. and Keerthi, S. S. (2007). Support vector ordinalregression. Neural Computation, 19(3) :792–815.

[Cichocki et al., 2006] Cichocki, A., Zdunek, R., and ichi Amari, S. (2006). Csiszár’sdivergences for non-negative matrix factorization : Family of new algorithms. InRosca, J. P., Erdogmus, D., Príncipe, J. C., and Haykin, S., editors, ICA, volume3889 of Lecture Notes in Computer Science, pages 32–39. Springer.

[Clémençon and Vayatis, 2007] Clémençon, S. and Vayatis, N. (2007). Ranking thebest instances. Journal of Machine Learning Research, 8 :2671–2699.

[Cohen et al., 1997] Cohen, W. W., Schapire, R. E., and Singer, Y. (1997). Learningto order things. In Jordan, M. I., Kearns, M. J., and Solla, S. A., editors, NIPS. TheMIT Press.

[Cohn et al., 1994] Cohn, D., Atlas, L., and Ladner, R. (1994). Improving generaliza-tion with active learning. Machine Learning, 15(2) :201–221.

[Collins, 1997] Collins, M. (1997). The EM algorithm. In In fulfillment of WrittenPreliminary Exam II requirement.

Bibliographie 211

[Collins and Koo, 2003] Collins, M. and Koo, T. (2003). Discriminative reranking fornatural language parsing. In Computational Linguistics, pages 175–182. MorganKaufmann.

[Collobert et al., 2006] Collobert, R., Sinz, F., Weston, J., Bottou, L., and Joachims, T.(2006). Large scale transductive SVMs. Journal of Machine Learning Research,7 :2006.

[Cortes and Mohri, 2003] Cortes, C. and Mohri, M. (2003). Auc optimization vs. errorrate minimization. In Thrun, S., Saul, L. K., and Schölkopf, B., editors, NIPS. MITPress.

[Crammer et al., 2006] Crammer, K., Dekel, O., Shalev-shwartz, S., and Singer, Y.(2006). Online passive-aggressive algorithms. Journal of Machine Learning Re-search, 7 :551–585.

[Crammer and Singer, 2001] Crammer, K. and Singer, Y. (2001). Pranking with ran-king. In Dietterich, T. G., Becker, S., and Ghahramani, Z., editors, NIPS, pages641–647. MIT Press.

[Das et al., 2007] Das, A., Datar, M., Garg, A., and Rajaram, S. (2007). Google newspersonalization : scalable online collaborative filtering. In Williamson, C. L., Zurko,M. E., Patel-Schneider, P. F., and Shenoy, P. J., editors, WWW, pages 271–280.ACM.

[David A. Cohen, 1996] David A. Cohen, Zoubin Ghahramani, M. I. J. (1996). Activelearning with statistical models. Journal of Artificial Intelligence Research, 4 :129–145.

[Davis and Goadrich, 2006] Davis, J. and Goadrich, M. (2006). The relationship bet-ween precision-recall and ROC curves. In Cohen, W. W. and Moore, A., editors,ICML, volume 148 of ACM International Conference Proceeding Series, pages 233–240. ACM.

[Dekel et al., 2003] Dekel, O., Manning, C. D., and Singer, Y. (2003). Log-linear mo-dels for label ranking. In Thrun, S., Saul, L. K., and Schölkopf, B., editors, NIPS.MIT Press.

[Dempster et al., 1977] Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maxi-mum likelihood from incomplete data via the EM algorithm. Journal of the RoyalStatistical Society, series B, 39(1) :1–38.

[Devarajan, 2008] Devarajan, K. (2008). Nonnegative matrix factorization : An analy-tical and interpretive tool in computational biology. PLoS Computational Biology,4(7) :e1000029+.

[Dhillon and Sra, 2005] Dhillon, I. S. and Sra, S. (2005). Generalized nonnegativematrix approximations with bregman divergences. In NIPS.

[Dietterich et al., 1997] Dietterich, T. G., Lathrop, R. H., Lozano-Perez, T., and Phar-maceutical, A. (1997). Solving the multiple-instance problem with axis-parallelrectangles. Artificial Intelligence, 89 :31–71.

[Donmez and Carbonell, 2008] Donmez, P. and Carbonell, J. G. (2008). Optimizingestimated loss reduction for active sampling in rank learning. In Cohen, W. W.,McCallum, A., and Roweis, S. T., editors, ICML, volume 307 of ACM InternationalConference Proceeding Series, pages 248–255. ACM.

[Donmez and Carbonell, 2009] Donmez, P. and Carbonell, J. G. (2009). Active sam-pling for rank learning via optimizing the area under the roc curve. In Boughanem,

212 Bibliographie

M., Berrut, C., Mothe, J., and Soulé-Dupuy, C., editors, ECIR, volume 5478 of Lec-ture Notes in Computer Science, pages 78–89. Springer.

[Donoho and Stodden, 2003] Donoho, D. L. and Stodden, V. (2003). When does non-negative matrix factorization give a correct decomposition into parts ? In Thrun, S.,Saul, L. K., and Schölkopf, B., editors, NIPS. MIT Press.

[Duh and Kirchhoff, 2008] Duh, K. and Kirchhoff, K. (2008). Learning to rank withpartially-labeled data. In Myaeng, S.-H., Oard, D. W., Sebastiani, F., Chua, T.-S.,and Leong, M.-K., editors, SIGIR, pages 251–258. ACM.

[Fawcett, 2003] Fawcett, T. (2003). ROC graphs : Notes and practical considerationsfor researchers. Technical report, HP Laboratories.

[Févotte et al., 2009] Févotte, C., Bertin, N., and Durrieu, J.-L. (2009). Nonnegativematrix factorization with the itakura-saito divergence : With application to musicanalysis. Neural Computation, 21(3) :793–830.

[Freund et al., 2003] Freund, Y., Iyer, R., Schapire, R. E., and Singer, Y. (2003). An ef-ficient boosting algorithm for combining preferences. Journal of Machine LearningResearch, 4 :933–969.

[Freund and Schapire, 1995] Freund, Y. and Schapire, R. E. (1995). A decision-theoretic generalization of on-line learning and an application to boosting. In Vitá-nyi, P. M. B., editor, EuroCOLT, volume 904 of Lecture Notes in Computer Science,pages 23–37. Springer.

[Freund et al., 1997] Freund, Y., Seung, H. S., Shamir, E., and Tishby, N. (1997). Se-lective sampling using the query by committee algorithm. Machine Learning, 28(2-3) :133–168.

[Goffin and Vial, 1999] Goffin, J.-L. and Vial, J.-P. (1999). Convex nondifferentiableoptimization : a survey focussed on the analytic center cutting plane method. Tech-nical Report 99.02, Logilab, Geneva, Switzerland.

[Goldberg et al., 2008] Goldberg, A. B., Li, M., and Zhu, X. (2008). Online manifoldregularization : A new learning setting and empirical study. In Daelemans, W.,Goethals, B., and Morik, K., editors, ECML/PKDD (1), volume 5211 of LectureNotes in Computer Science, pages 393–407. Springer.

[Goldberg et al., 2001] Goldberg, K., Roeder, T., Gupta, D., and Perkins, C. (2001).Eigentaste : A constant time collaborative filtering algorithm. Information Retrieval,4(2) :133–151.

[Goldstein et al., 1999] Goldstein, J., Kantrowitz, M., Mittal, V. O., and Carbonell,J. G. (1999). Summarizing text documents : Sentence selection and evaluation me-trics. In SIGIR, pages 121–128. ACM.

[Golub and van Loan, 1989] Golub, G. and van Loan, C. (1989). Matrix Computa-tions. Johns Hopkins University Press, 2bd edition.

[Grangier and Bengio, 2008] Grangier, D. and Bengio, S. (2008). A discriminativekernel-based approach to rank images from text queries. Pattern Analysis and Ma-chine Intelligence, IEEE Transactions on, 30(8) :1371–1384.

[Har-Peled et al., 2002] Har-Peled, S., Roth, D., and Zimak, D. (2002). Constraintclassification : A new approach to multiclass classification and ranking. Technicalreport, University of Illinois at Urbana-Champaign, Champaign, IL, USA.

[He et al., 2004] He, J., Li, M., Zhang, H., Tong, H., and Zhang, C. (2004). Manifold-ranking based image retrieval. In Schulzrinne, H., Dimitrova, N., Sasse, M. A.,Moon, S. B., and Lienhart, R., editors, ACM Multimedia, pages 9–16. ACM.

Bibliographie 213

[Heiler et al., 2006] Heiler, M., Schnürr, C., Bennett, P., and Parrado-hernändez, E.(2006). Learning sparse representations by non-negative matrix factorization andsequential cone programming. Journal of Machine Learning Research, 7 :2006.

[Herbrich et al., 2000] Herbrich, R., Graepel, T., and Obermayer, K. (2000). Largemargin rank boundaries for ordinal regression, pages 115–132. MIT Press, Cam-bridge, MA.

[Herlocker et al., 1999] Herlocker, J. L., Konstan, J. A., Borchers, A., and Riedl, J.(1999). An algorithmic framework for performing collaborative filtering. In SIGIR,pages 230–237. ACM.

[Hoare, 1962] Hoare, C. A. R. (1962). Quicksort. The Computer Journal, 5(1) :10–16.[Hofmann, 2004] Hofmann, T. (2004). Latent semantic models for collaborative filte-

ring. ACM Transactions on Information Systems, 22(1) :89–115.[Hoyer, 2004] Hoyer, P. O. (2004). Non-negative matrix factorization with sparseness

constraints. Journal of Machine Learning Research, 5 :1457–1469.[Iyer et al., 2000] Iyer, R. D., Lewis, D. D., Schapire, R. E., Singer, Y., and Singhal,

A. (2000). Boosting for document routing. In CIKM, pages 70–77. ACM.[Joachims, 2002] Joachims, T. (2002). Optimizing search engines using clickthrough

data. In KDD, pages 133–142. ACM.[Joachims, 2005] Joachims, T. (2005). A support vector method for multivariate per-

formance measures. In Raedt, L. D. and Wrobel, S., editors, ICML, volume 119 ofACM International Conference Proceeding Series, pages 377–384. ACM.

[Joachims, 2006] Joachims, T. (2006). Training linear svms in linear time. In Eliassi-Rad, T., Ungar, L. H., Craven, M., and Gunopulos, D., editors, KDD, pages 217–226.ACM.

[Kääriäinen, 2005] Kääriäinen, M. (2005). Generalization error bounds using unlabe-led data. In Auer, P. and Meir, R., editors, COLT, volume 3559 of Lecture Notes inComputer Science, pages 127–142. Springer.

[Kääriäinen, 2006] Kääriäinen, M. (2006). Semi-supervised model selection based oncross-validation. In IJCNN, pages 1894–1899. IEEE.

[Kääriäinen and Langford, 2005] Kääriäinen, M. and Langford, J. (2005). A compa-rison of tight generalization error bounds. In Raedt, L. D. and Wrobel, S., editors,ICML, volume 119 of ACM International Conference Proceeding Series, pages 409–416. ACM.

[Karlen et al., 2008] Karlen, M., Weston, J., Erkan, A., and Collobert, R. (2008). Largescale manifold transduction. In Cohen, W. W., McCallum, A., and Roweis, S. T.,editors, ICML, volume 307 of ACM International Conference Proceeding Series,pages 448–455. ACM.

[Kim et al., 2007] Kim, D., Sra, S., and Dhillon, I. S. (2007). Fast newton-type me-thods for the least squares nonnegative matrix approximation problem. In SDM.SIAM.

[Krithara et al., 2006] Krithara, A., Goutte, C., Amini, M.-R., and Renders, J.-M.(2006). Reducing the annotation burden in text classification. In Proceedings of the1st International Conference on Multidisciplinary Information Sciences and Tech-nologies (InSciT 2006),.

214 Bibliographie

[Kupiec et al., 1995] Kupiec, J., Pedersen, J. O., and Chen, F. (1995). A trainabledocument summarizer. In Fox, E. A., Ingwersen, P., and Fidel, R., editors, SIGIR,pages 68–73. ACM Press.

[Le and Smola, 2007] Le, Q. V. and Smola, A. J. (2007). Direct optimization of ran-king measures.

[Lee and Seung, 1999] Lee, D. D. and Seung, H. S. (1999). Learning the parts ofobjects by non-negative matrix factorization. Nature, 401(6755) :788–791.

[Lee and Seung, 2000] Lee, D. D. and Seung, H. S. (2000). Algorithms for non-negative matrix factorization. In Leen, T. K., Dietterich, T. G., and Tresp, V., editors,NIPS, pages 556–562. MIT Press.

[Lehmann, 1975] Lehmann, E. L. (1975). Nonparametric Statistical Methods basedon Ranks. McGraw-Hill.

[Lewis et al., 2004] Lewis, D. D., Yang, Y., Rose, T. G., and Li, F. (2004). Rcv1 :A new benchmark collection for text categorization research. Journal of MachineLearning Research, 5 :361–397.

[Li et al., 2009] Li, M., Li, H., and Zhou, Z.-H. (2009). Semi-supervised documentretrieval. Information Processing and Management, 45(3) :341–355.

[Lin, 2007a] Lin, C.-J. (2007a). On the convergence of multiplicative update algo-rithms for nonnegative matrix factorization. IEEE Transactions on Neural Networks,18(6) :1589–1596.

[Lin, 2007b] Lin, C.-J. (2007b). Projected gradient methods for non-negative matrixfactorization. Technical report, Neural Computation.

[Liu et al., 2007] Liu, T.-Y., Xu, J., Qin, T., Xiong, W., and Li, H. (2007). Letor :Benchmark dataset for research on learning to rank for information retrieval. InLR4IR 2007, in conjunction with SIGIR 2007.

[Long et al., 2008] Long, J., Yin, J., Zhao, W., and Zhu, E. (2008). Graph-based activelearning based on label propagation. In Torra, V. and Narukawa, Y., editors, MDAI,volume 5285 of Lecture Notes in Computer Science, pages 179–190. Springer.

[Long and Servedio, 2007] Long, P. M. and Servedio, R. A. (2007). Boosting the areaunder the roc curve. In Platt, J. C., Koller, D., Singer, Y., and Roweis, S. T., editors,NIPS. MIT Press.

[Mani, 2001] Mani, I. (2001). Automatic Summarization (Natural Language Proces-sing, 3 (Paper)). John Benjamins Publishing Co.

[Marcu, 1999] Marcu, D. (1999). The automatic construction of large-scale corporafor summarization research. In SIGIR, pages 137–144. ACM.

[Marlin, 2003] Marlin, B. (2003). Modeling user rating profiles for collaborative filte-ring. In Thrun, S., Saul, L. K., and Schölkopf, B., editors, NIPS. MIT Press.

[Marlin, 2004] Marlin, B. (2004). Collaborative filtering : A machine learning pers-pective.

[Marlin and Zemel, 2004] Marlin, B. and Zemel, R. S. (2004). The multiple multi-plicative factor model for collaborative filtering. In Brodley, C. E., editor, ICML,volume 69 of ACM International Conference Proceeding Series. ACM.

[McCallum and Nigam, 1998] McCallum, A. and Nigam, K. (1998). Employing emand pool-based active learning for text classification. In Shavlik, J. W., editor, ICML,pages 350–358. Morgan Kaufmann.

Bibliographie 215

[McClosky et al., 2006] McClosky, D., Charniak, E., and Johnson, M. (2006). Effec-tive self-training for parsing. In Moore, R. C., Bilmes, J. A., Chu-Carroll, J., andSanderson, M., editors, HLT-NAACL. The Association for Computational Linguis-tics.

[Meir and Rätsch, 2002] Meir, R. and Rätsch, G. (2002). An introduction to boostingand leveraging. In Mendelson, S. and Smola, A. J., editors, Machine Learning Sum-mer School, volume 2600 of Lecture Notes in Computer Science, pages 118–183.Springer.

[Metzler et al., 2005] Metzler, D. A., Croft, W. B., and Mccallum, A. (2005). Di-rect maximization of rank-based metrics for information retrieval. Technical report,CIIR.

[Monteleoni and Kääriäinen, 2007] Monteleoni, C. and Kääriäinen, M. (2007). Prac-tical online active learning for classification. In CVPR. IEEE Computer Society.

[Moribe et al., 2008] Moribe, J.-I., Hatano, K., Takimoto, E., and Takeda, M. (2008).Smooth boosting for margin-based ranking. In Freund, Y., Györfi, L., Turán, G., andZeugmann, T., editors, ALT, volume 5254 of Lecture Notes in Computer Science,pages 227–239. Springer.

[Paatero and Tapper, 1994] Paatero, P. and Tapper, U. (1994). Positive matrix factori-zation : A non-negative factor model with optimal utilization of error estimates ofdata values. Environmetrics, 5(2) :111–126.

[Paice and Jones, 1993] Paice, C. D. and Jones, P. A. (1993). The identification of im-portant concepts in highly structured technical papers. In Korfhage, R., Rasmussen,E. M., and 0002, P. W., editors, SIGIR, pages 69–78. ACM.

[Pauca et al., 2004] Pauca, Shahnaz, Berry, and Plemmons (2004). Text mining usingnon-negative matrix factorizations. In SDM.

[Perny and Zucker, 1999] Perny, P. and Zucker, J.-D. (1999). Collaborative filteringmethods based on fuzzy preference relations. In EUROFUSE Workshop on prefe-rence modelling and applications, pages 279–295.

[Pessiot, 2008] Pessiot, J.-F. (2008). Apprentissage automatique pour l’extraction descaractéristiques. PhD thesis, Université Pierre et Marie Curie.

[Polcicová, 2004] Polcicová, G. (2004). Topographic Organization of User PreferencePatterns in Collaborative Filtering. PhD thesis, Slovak University of Technology inBrastilava.

[Rakotomamonjy, 2004] Rakotomamonjy, A. (2004). Optimizing AUC with SVMs.In Proceedings of the Workshop on ROC Curves and AI.

[Ratliff et al., 2007] Ratliff, N., Bagnell, J. D., and Zinkevich, M. (2007). (online)subgradient methods for structured prediction. In Eleventh International Conferenceon Artificial Intelligence and Statistics (AIStats).

[Raykar et al., 2008] Raykar, V. C., Duraiswami, R., and Krishnapuram, B. (2008). Afast algorithm for learning a ranking function from large-scale data sets. PatternAnalysis and Machine Intelligence, IEEE Transactions on, 30(7) :1158–1170.

[Rennie and Srebro, 2005] Rennie, J. D. M. and Srebro, N. (2005). Fast maximummargin matrix factorization for collaborative prediction. In Raedt, L. D. and Wrobel,S., editors, ICML, volume 119 of ACM International Conference Proceeding Series,pages 713–719. ACM.

216 Bibliographie

[Robertson and Soboroff, 2002] Robertson, S. E. and Soboroff, I. (2002). The TREC2002 filtering track report. In TREC.

[Rollet, 2009] Rollet, P. (2009). Boosting active learning to optimality. Technicalreport, LRI - Paris Sud University.

[Roy and McCallum, 2001] Roy, N. and McCallum, A. (2001). Toward optimal ac-tive learning through sampling estimation of error reduction. In Brodley, C. E. andDanyluk, A. P., editors, ICML, pages 441–448. Morgan Kaufmann.

[Rudin, 2006] Rudin, C. (2006). Ranking with a p-norm push. In Lugosi, G. andSimon, H.-U., editors, COLT, volume 4005 of Lecture Notes in Computer Science,pages 589–604. Springer.

[Rudin et al., 2005] Rudin, C., Cortes, C., Mohri, M., and Schapire, R. E. (2005).Margin-based ranking meets boosting in the middle. In Auer, P. and Meir, R.,editors, COLT, volume 3559 of Lecture Notes in Computer Science, pages 63–78.Springer.

[Salakhutdinov et al., 2007] Salakhutdinov, R., Mnih, A., and Hinton, G. E. (2007).Restricted boltzmann machines for collaborative filtering. In Ghahramani, Z., editor,ICML, volume 227 of ACM International Conference Proceeding Series, pages 791–798. ACM.

[Sarwar et al., 2000] Sarwar, B. M., Karypis, G., Konstan, J. A., and Riedl, J. T.(2000). Application of dimensionality reduction in recommender systems-a casestudy. In In ACM WebKDD Workshop.

[Schafer et al., 2007] Schafer, J. B., Frankowski, D., Herlocker, J. L., and Sen, S.(2007). Collaborative filtering recommender systems. In The Adaptive Web, pages291–324.

[Schapire, 1999] Schapire, R. E. (1999). A brief introduction to boosting. In Dean, T.,editor, IJCAI, pages 1401–1406. Morgan Kaufmann.

[Schohn and Cohn, 2000] Schohn, G. and Cohn, D. (2000). Less is more : Activelearning with support vector machines. In Langley, P., editor, ICML, pages 839–846. Morgan Kaufmann.

[Schölkopf and Smola, 2001] Schölkopf, B. and Smola, A. J. (2001). Learning withKernels : Support Vector Machines, Regularization, Optimization, and Beyond. MITPress, Cambridge, MA, USA.

[Seeger, 2001] Seeger, M. (2001). Learning with labeled and unlabeled data. Technicalreport, University of Edinburgh.

[Settles, 2008] Settles, B. (2008). Curious Machines : Active Learning with Struc-tured Instances. PhD thesis, Curious Machines : Active Learning with StructuredInstances.

[Settles, 2009] Settles, B. (2009). Active learning literature survey. ComputerSciences Technical Report 1648, University of Wisconsin–Madison.

[Settles and Craven, 2008] Settles, B. and Craven, M. (2008). An analysis of activelearning strategies for sequence labeling tasks. In EMNLP, pages 1070–1079. ACL.

[Settles et al., 2007] Settles, B., Craven, M., and Ray, S. (2007). Multiple instanceactive learning. NIPS, 20 :1289–1296.

[Seung et al., 1992] Seung, H. S., Opper, M., and Sompolinsky, H. (1992). Query bycommittee. In COLT ’92 : Proceedings of the fifth annual workshop on Computa-tional learning theory, pages 287–294, New York, NY, USA. ACM.

Bibliographie 217

[Shahnaz et al., 2006] Shahnaz, F., Berry, M. W., Pauca, V. P., and Plemmons, R. J.(2006). Document clustering using nonnegative matrix factorization. InformationProcessing and Management, 42(2) :373–386.

[Shalev-Shwartz et al., 2007] Shalev-Shwartz, S., Singer, Y., and Srebro, N. (2007).Pegasos : Primal estimated sub-gradient solver for svm. In Ghahramani, Z., editor,ICML, volume 227 of ACM International Conference Proceeding Series, pages 807–814. ACM.

[Shani et al., 2005] Shani, G., Heckerman, D., and Brafman, R. I. (2005). An mdp-based recommender system. Journal of Machine Learning Research, 6 :1265–1295.

[Shashua and Levin, 2002] Shashua, A. and Levin, A. (2002). Ranking with large mar-gin principle : Two approaches. In Becker, S., Thrun, S., and Obermayer, K., editors,NIPS, pages 937–944. MIT Press.

[Shor et al., 1985] Shor, N. Z., Kiwiel, K. C., and Ruszcaynski, A. (1985). Minimiza-tion methods for non-differentiable functions. Springer-Verlag New York, Inc., NewYork, NY, USA.

[Singer et al., 2006] Singer, Y., Bennett, P., and Parrado-hernändez, E. (2006). Effi-cient learning of label ranking by soft projections onto polyhedra. In Journal ofMachine Learning Research.

[Smola et al., 2007] Smola, A. J., Vishwanathan, S. V. N., and Le, Q. V. (2007).Bundle methods for machine learning. In Platt, J. C., Koller, D., Singer, Y., andRoweis, S. T., editors, NIPS. MIT Press.

[Srebro and Jaakkola, 2003] Srebro, N. and Jaakkola, T. (2003). Weighted low-rankapproximations. In Fawcett, T. and Mishra, N., editors, ICML, pages 720–727.AAAI Press.

[Srebro et al., 2005] Srebro, N., Rennie, J. D. M., and Jaakkola, T. S. (2005).Maximum-margin matrix factorization. Advances in Neural Information Proces-sing Systems, 17 :1329–1336.

[Teh and Seeger, 2005] Teh, Y. W. and Seeger, M. (2005). Semiparametric latent factormodels. In Workshop on Artificial Intelligence and Statistics 10.

[Teo et al., 2007] Teo, C. H., Smola, A. J., Vishwanathan, S. V. N., and Le, Q. V.(2007). A scalable modular convex solver for regularized risk minimization. InBerkhin, P., Caruana, R., and Wu, X., editors, KDD, pages 727–736. ACM.

[Tong and Koller, 2001] Tong, S. and Koller, D. (2001). Support vector machine ac-tive learning with applications to text classification. Journal of Machine LearningResearch, 2 :45–66.

[Truong, 2005] Truong, T. V. (2005). apprentissage semi-supervisé. mémoire de stage,LIP6.

[Truong et al., 2008] Truong, T.-V., Amini, M.-R., and Gallinari, P. (2008). Appren-tissage de fonctions d’ordonnancement semi-supervisé inductives. In Conférencefrancophone d’apprentissage Automatique.

[Tsai et al., 2007] Tsai, M.-F., Liu, T.-Y., Qin, T., Chen, H.-H., and Ma, W.-Y. (2007).Frank : a ranking method with fidelity loss. In Kraaij, W., de Vries, A. P., Clarke, C.L. A., Fuhr, N., and Kando, N., editors, SIGIR, pages 383–390. ACM.

[Usunier, 2007] Usunier, N. (2007). Apprentissage de fonctions d’ordonnancement :une étude théorique de la réduction à la classification et deux applications à laRecherche d’Information. PhD thesis, Université Pierre et Marie Curie - Paris VI.

218 Bibliographie

[Usunier et al., 2005a] Usunier, N., Amini, M.-R., and Gallinari, P. (2005a). A data–dependent generalisation error bound for the AUC. In ICML’05 workshop on ROCAnalysis in Machine Learning.

[Usunier et al., 2005b] Usunier, N., Amini, M.-R., and Gallinari, P. (2005b). Genera-lization error bounds for classifiers trained with interdependent data. In NIPS.

[Usunier et al., 2005c] Usunier, N., Truong, V., Amini, M.-R., and Gallinari, P.(2005c). Ranking with Unlabeled Data : A First Study. In NIPS’05 Workshopon Learning to Rank (NIPS’05-LR), page 4, Whistler, Canada.

[Vapnik, 1995] Vapnik, V. N. (1995). The nature of statistical learning theory.Springer-Verlag New York, Inc., New York, NY, USA.

[Vittaut and Gallinari, 2006] Vittaut, J.-N. and Gallinari, P. (2006). Supervised andsemi-supervised machine learning ranking. In Fuhr, N., Lalmas, M., and Trotman,A., editors, INEX, volume 4518 of Lecture Notes in Computer Science, pages 213–222. Springer.

[Wang et al., 2008] Wang, B., Spencer, B., Ling, C. X., and Zhang, H. (2008). Semi-supervised self-training for sentence subjectivity classification. In Bergler, S., editor,Canadian Conference on AI, volume 5032 of Lecture Notes in Computer Science,pages 344–355. Springer.

[Weimer et al., 2007] Weimer, M., Karatzoglou, A., Le, Q. V., and Smola, A. J. (2007).Cofi rank - maximum margin matrix factorization for collaborative ranking. In Platt,J. C., Koller, D., Singer, Y., and Roweis, S. T., editors, NIPS. MIT Press.

[Weimer et al., 2008] Weimer, M., Karatzoglou, A., and Smola, A. J. (2008). Impro-ving maximum margin matrix factorization. Machine Learning, 72(3) :263–276.

[Wellington and Stentz, 2004] Wellington, C. and Stentz, A. (2004). Online adaptiverough-terrain navigation vegetation. In ICRA, pages 96–101. IEEE.

[Weston, 2007] Weston, J. (2007). Large-scale semi-supervised learning. Technicalreport, Nec Laboratories America, Inc.

[Wu, 1983] Wu, J. F. J. (1983). On the convergence properties of the EM algorithm.The Annals of Statistics, 11(1) :95–103.

[Xu and Li, 2007] Xu, J. and Li, H. (2007). Adarank : a boosting algorithm for in-formation retrieval. In Kraaij, W., de Vries, A. P., Clarke, C. L. A., Fuhr, N., andKando, N., editors, SIGIR, pages 391–398. ACM.

[Xu et al., 2003] Xu, W., Liu, X., and Gong, Y. (2003). Document clustering based onnon-negative matrix factorization. In SIGIR, pages 267–273. ACM.

[Yu, 2005] Yu, H. (2005). Svm selective sampling for ranking with application to dataretrieval. In Grossman, R., Bayardo, R. J., and Bennett, K. P., editors, KDD, pages354–363. ACM.

[Yu and Tresp, 2005] Yu, K. and Tresp, V. (2005). Learning to learn and collaborativefiltering. In Neural Information Processing Systems Workshop on Inductive Trans-fer : 10 Years Later.

[Yue et al., 2007] Yue, Y., Finley, T., Radlinski, F., and Joachims, T. (2007). A supportvector method for optimizing average precision. In Kraaij, W., de Vries, A. P.,Clarke, C. L. A., Fuhr, N., and Kando, N., editors, SIGIR, pages 271–278. ACM.

[Zdunek and Cichocki, 2007] Zdunek, R. and Cichocki, A. (2007). Nonnegative ma-trix factorization with constrained second-order optimization. Signal Processing,87(8) :1904–1916.

Bibliographie 219

[Zdunek and Cichocki, 2008] Zdunek, R. and Cichocki, A. (2008). Fast nonnegativematrix factorization algorithms using projected gradient approaches for large-scaleproblems. Computational Intelligence and Neuroscience, 2008(3) :1–13.

[Zhang et al., 2005] Zhang, J., Ghahramani, Z., and Yang, Y. (2005). Learning mul-tiple related tasks using latent independent component analysis. In NIPS.

[Zhou and Schölkopf, 2004] Zhou, D. and Schölkopf, B. (2004). A regularization fra-mework for learning from graph data. In ICML Workshop on Statistical RelationalLearning, pages 132–137.

[Zhou and Schölkopf, 2005] Zhou, D. and Schölkopf, B. (2005). Regularization ondiscrete spaces. Pattern Recognition, 361 :361–368.

[Zhou et al., 2003] Zhou, D., Weston, J., Gretton, A., Bousquet, O., and Schölkopf, B.(2003). Ranking on data manifolds. In Thrun, S., Saul, L. K., and Schölkopf, B.,editors, NIPS. MIT Press.

[Zhu, 2005] Zhu, X. (2005). Semi-supervised learning literature survey. TechnicalReport 1530, Computer Sciences, University of Wisconsin-Madison.

[Zhu and Lafferty, 2003] Zhu, X. and Lafferty, J. (2003). Combining active learningand semi-supervised learning using gaussian fields and harmonic functions. InICML 2003 workshop on The Continuum from Labeled to Unlabeled Data in Ma-chine Learning and Data Mining, pages 58–65.

Documents

Apprentissage de Fonctions d’Ordonnancement avec peu d