98
Apprentissage statistique sur données longitudinales de grande taille et applications au design des jeux vidéo Soutenance de thèse 1 Thibault Allart

Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Apprentissage statistique sur données longitudinales degrande taille et applications au design des jeux vidéo

Soutenance de thèse

1

Thibault Allart

Page 2: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Déroulement

Contexte

Données issues des jeux vidéo

Problématique

Optimisation

Modèle statistique

Simulations

Applications au design des jeux vidéo Influence du design sur le temps de jeu des joueurs

Lien entre Difficulté et motivation du joueur

Conclusion

2

Page 3: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Contexte

3

Page 4: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

4

AgatheGuilloux

Stéphane Natkin

Guillaume Levieux

Michel Pierfitte

MokhtarZahdi Alaya

Sarah Lemler

ThibaultALLART

Encadrants de thèse

Collaborations

Page 5: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Les données

5

Page 6: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Réseau

Télémétrie

6

Il est possible de mesurer toutes les interactions entre le joueur et le jeu.En pratique, pour différentes raisons (coût du stockage, bande passante) seuls certains éléments sont conservés.

Page 7: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

7

Page 8: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

8

Page 9: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

9

Page 10: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Un grand nombre d’individus et des variables

𝑋1,1 ⋯ 𝑋1,𝑝

⋮ ⋱ ⋮

𝑋𝑛,1 ⋯ 𝑋𝑛,𝑝

10

𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠

Soit on essaye des résumer l’information temporelle pour la faire rentrer dans une matrice et utiliser les modèles classiques…

Page 11: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

… suivies dans le temps.

11

Temps

Soit on utilise toute l’information temporelle et on adapte nos modèles.

Page 12: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Le nombre d’observations au cours du temps dépend de l’individu et de la variable

n

p

f

≈ 107

[1; 105]

Tenseur

12

Page 13: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

13

De l’importance des données longitudinales

Playtime

Page 14: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Playtime2h 30h

Joueur 1

Joueur 2

J1 Stop J2 Stop

Retention Time varying data

Super Mario

liéNot correlated

Eau lié Correlated

Arrête avant la fin

Fin du Jeu

14

Page 15: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Playtime2h 30h

Joueur 1

Joueur 2

J1 Stop J2 Stop

Arrête avant la fin

Fin du jeu

Rétention

Agrégées Longitudinales

Super Mario

lié Pas lié

Eau lié lié

15

Page 16: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Problématique

16

Page 17: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

L’importance du temps de jeu

17

Jeu conçu pour être joué 10h

Les joueurs n’y jouent que 2hProblème

Éditeur et développeurs

Ont dépensé leurs ressources dans la création de 8h de contenu qui ne seront pas

jouées par les joueurs

S’attendaient à une expérience / un

divertissement de 10h

Joueurs

Page 18: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Différentes mesures du temps

On peut mesurer l’activité des joueurs de différentes manières

Le temps de jeu (playtime) est la durée que le joueur passe en jeu, i.e le temps cumulé de chacune de ses sessions de jeu.

18

24h

Image : Michel Pierfitte

Page 19: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Objectif

On cherche à comprendre pourquoi certains joueurs arrêtent de jouer avant la fin du jeu.

Évènement d’intérêt : arrêt définitif du jeu par le joueur

On peut calculer la proportion de joueurs encore en jeu après xx heures, c’est la courbe de survie ou rétention.

19

Page 20: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Rétention

20

Mesure la proportion de joueurs restant dans le jeu à un temps de jeu donné.

Soit 𝑇 la variable aléatoire positive associée au temps de jeu des joueurs.

Page 21: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Rétention au cinéma

21

0%

50%

100%

0,1 1 10 100 1000

Rétention en heuresCinema

Médiane : 1h30

Moyenne : 1h30

Temps de jeu en heures

Objectif : Comprendre pourquoi certains joueurs quittent le jeu rapidement.

Page 22: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Taux de risque instantané

22

Par la suite on cherchera à modéliser l’influence des variables sur .

Soit 𝑇 la variable aléatoire positive associée au temps de jeu des joueurs.

Taux de risque instantané :

Remarque:

Page 23: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Modèle de Cox dépendant du temps

23

Player behavior

Effect of player behavior

Quit rate

Baseline

Comment estimer les coefficients du modèle ?

Page 24: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

OptimisationComment estimer les paramètres du modèle ?

24

Page 25: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Optimisation

Soit 𝑓(𝛽) une fonction paramétrique convexe de ℝ𝑝 → ℝ

On cherche les coefficients 𝛽 qui minimisent la valeur de la fonction.

Idée : Utiliser un algorithme itératif, qui, à chaque étape, nous rapproche de la solution

25

Page 26: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Descente de gradient

26

Inconvénient : Chaque évaluation du gradient demande de parcourir tout le jeu de données ~𝑜(𝑛)

Page 27: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Descente de gradient stochastique

27

Avantage : Chaque itération se fait à partir des données d’un seul individu ~𝑜(1)

Page 28: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Optimisation

28

En pratique, pour les grands jeux de données, la descente de gradient stochastique est plus rapide que la descente de gradient.

Page 29: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Vraisemblance partielle de Cox

29

Habituellement utilisée pour estimer les coefficients du modèle de Cox.Pour simplifier : ni les variables ni les coefficients ne dépendent du temps.𝐷: l’ensemble des individus ayant réalisé l’évènement terminal (quitté le jeu)𝑅𝑖: les individus à risque (encore en jeu) au moment où l’individu i réalise son évènement terminal (le joueur i quitte le jeu)

Avantage : pas besoin d’estimer la baseline 𝜆0(𝑡)Inconvénient : pas du tout adaptée à la descente de gradient stochastique

Page 30: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Problème

Le calcul d’un gradient individuel fait intervenir tous les individus à risque au moment où 𝑖 quitte le jeu.

Conclusion : On ne peut pas exploiter pleinement les avantages de la descente de gradient stochastique sur la vraisemblance partielle de Cox.

30

Page 31: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Complexité d’une itération

Descente de gradientDescente de gradient

stochastique

Régression linéaire O(np) O(p)

Régression logistique O(np) O(p)

Régression de CoxVraisemblance partielle

O(np) O(np)

31

Page 32: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Problématique

Problématique statistique :• On cherche à modéliser des temps d’évènement

• Données longitudinales

• Coefficients dépendant du temps

• Interprétable

• Grand nombre d’observations

• Sélection de variables

Problématique jeu vidéo:• Peut-on extraire de l'analyse de l'activité des joueurs des

recommandations de design spécifiques au jeu étudié ?

• Est-il possible d'extraire des recommandations de design plus larges, sur des variables partagées entre plusieurs jeux ?

32

Page 33: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Modèle statistique

33

Page 34: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Modèle de Cox dépendant du temps

34

Player behavior

Effect of player behavior

Quit rate

Baseline

Page 35: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Proposition

Remplacer la vraisemblance partielle par la vraisemblance complète, issue des processus de comptage, voir [Martinussen et Scheike (2007)]. L’opposé de la log-vraisemblance s’écrit :

35

𝑁𝑖(𝑡) 𝑌𝑖(𝑡)

1

0

Arrêt du jeu par le joueur

𝑡

1

0

Arrêt du jeu par le joueur

𝑡

Compte le nombre d’évènement (ici limité à 1)

Le joueur est il toujours dans observé ?

Page 36: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Complexité d’une itération

36

Descente de gradientDescente de gradient

stochastique

Régression linéaire O(np) O(p)

Régression logistique O(np) O(p)

Régression de CoxVraisemblance partielle

O(np) O(np)

Régression de CoxVraisemblance complète

O(np) O(p)

Page 37: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Quelle forme pour les 𝛽(𝑡) ?

• Suffisamment simples pour calculer l’intégrale rapidement

• Capable de s’adapter à des formes complexes

• Avec peu de paramètres pour éviter l’explosion du nombre de dimensions

37

Page 38: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Coefficients constants par morceaux

38

Page 39: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Coefficients constants par morceaux

39

Si de plus les 𝑋𝑖,𝑗(𝑡) sont constants sur

de petits intervalles.

Page 40: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Variation totale

40

Pour éviter l’explosion du nombre de dimensions, on utilise la variation totale (ou Fused Lasso), qui pénalise la hauteur de sauts.

Page 41: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Pénalité

41

1) On veut sélectionner les variables les plus pertinentes

2) Et que le nombre de changements au cours du temps soit réduit (ce qui réduit le nombre de coefficients)

𝑗=1

𝑝

𝛽𝑗

𝑙=2

𝐿

|𝛽𝑗 − 𝛽𝑗−1|

Lasso

Variation totale

On combine les deux sous la forme d’une pénalité par groupe

Page 42: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Modèle pénalisé

42

Où :

On cherche donc les coefficients qui minimisent l’opposé de la log-vraisemblance et la pénalité.

Page 43: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Simulations

43

Page 44: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

vrai

44

Page 45: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

vrai

45

Page 46: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

vrai

sans pénalité

46

Page 47: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

vrai

sans pénalité

pénalisé

47

Page 48: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

vrai

sans pénalité

pénalisé

48

Page 49: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

vrai

sans pénalité

pénalisé

49

Page 50: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

vrai

sans pénalité

pénalisé

50

Page 51: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

51

Page 52: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Comparaison avec timereg

52

Différence :• L’optimisation repose sur une inversion matricielle et des itérés de

lissage par noyaux

Limitations :• Fonctionne uniquement sur les « petits » jeux de données.• Pas de sélection de variables• Retourne les coefficients cumulés, il faut ajouter un estimateur à

noyaux pour obtenir les coefficients.

Page 53: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

vrai

CoxTV

timereg

53

Page 54: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Résultats (n=1 000)

54

Page 55: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Résultats (n=10 000)

55

Page 56: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Résultats sur 100 répétitions Monté-Carlo

56

Timereg dépasse la capacité mémoire de 32Go de Ram

Page 57: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Temps de calcul

57

Page 58: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Implémentation

58

CORE LIBRARY

INTERFACE

R PACKAGE

STREAM DATA FROM DISK

(DATA BIGGER THAN RAM)RCPP

Page 59: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

ApplicationsSur le design des jeux vidéo

59

Page 60: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

60

Influence du design sur le temps de jeu des joueurs

Page 61: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Far Cry 4

Jeu de tir en vue à la première personne et monde ouvert.

On s’intéresse à l’effet de l’utilisation des armes sur la rétention.

61

Page 62: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

62

Page 63: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Résultats : l’arc

63

Interprétation:Effet négatif (sous la ligne rouge) signifie :• Moins de départ des joueurs• Meilleure rétention

𝛽(𝑡)

Page 64: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Les plus positives

64

64

Page 65: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Négative

65

Page 66: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Recommandations

• Modifier le design de l’arbalète : la visée est trop sensible pour être efficace de loin.

• Capte peut être une partie de l’effet « explorer » : Pour la débloquer il faut débloquer toutes les tours du jeu. Les joueurs uniquement intéressés par l’exploration quittent peut être naturellement le jeu à ce moment là.Le modèle permettrait de différencier ces hypothèses en intégrant comme variable le taux d’exploration

66

Page 67: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

67

Influence de la difficulté sur la motivation

Page 68: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Théorie du flow

68

Page 69: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Difficulté absolue et relative

69

Source : Levieux

Page 70: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Estimation de la difficulté

Estimée à partir des données de l’activité des joueurs.

Difficulté : probabilité d’échouer à un challenge sachant les caractéristiques du personnage, du challenge et les capacités du joueur

70

Exemple de caractéristique du personnage et du challenge au temps t :

• Santé• Dommages par seconde• Type de mission

• Endurance• Niveau des compétences

Pour prendre en compte la variabilité des compétence de chaque joueur, nous avons utilisé un modèle mixte.

Page 71: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Exemple de difficulté estimée pour un joueur de Rayman Legends

71

Page 72: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Difficulté estimée

72

La difficulté augmente rapidement dans les premières heures de jeu, puis atteint un plateau de 25% dans Rayman Legends et 33% dans The Division.

médiane

Quantile 0.25

Quantile 0.05

Quantile 0.75

Quantile 0.95

Page 73: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Résultat

73

Interprétation : Lorsque le challenge est plus élevé les joueurs ont tendance à jouer plus longtemps. Cependant une augmentation brutale de la difficulté au début de l’expérience est liée à une hausse du départ des joueurs.

Page 74: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Exemple quantitatif

74

Joueur A : difficulté 20%Joueur B : difficulté 40%Toute chose égale par ailleurs, après 12h de jeu.Le joueur B a 15% de chances en plus de rester dans le jeu que le joueur A

𝜆𝐵(𝑡 = 12)

𝜆𝐴(𝑡 = 12)= 𝑒 0.4−0.2 ∗(−0.7) = 0.86 =

1

1.15

Page 75: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Résultat

75

Interprétation : Une difficulté plus élevée est corrélée avec une plus grande rétention. Les variations de difficulté n’ont pas de lien avec la rétention.

Page 76: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Conclusion

76

Page 77: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Conclusion 1/2

Nous proposons un modèle statistique

• Prenant en compte les données longitudinales

• Avec des coefficients dépendants du temps

• Pénalisé par variation totale

• Optimisé pour les grands jeux de données (SGD et données > RAM)

• Implémenté dans un package R (développé en C++)

77

Page 78: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Conclusion 2/2

Appliqué au design des jeux vidéo, il permet :

• D’extraire des éléments de design qui ont un lien négatif avec la rétention sur n’importe quel jeu

• De quantifier l’impact de la difficulté sur la rétention

78

Page 79: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Ouverture

Le modèle mathématique et son implémentation permettent déjà de modéliser des évènements répétés, par exemple :

L’influence du design sur la monétisation.

79

Page 80: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Références

• Martinussen, T., & Scheike, T. H. (2007). Dynamicregression models for survival data. Springer Science & Business Media.

• Scheike, T., Martinussen, T., & Silver, J. (2010). Timereg: timereg package for flexible regressionmodels for survival data. R package version, 1-3.

80

Page 81: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Merci de votre attention

81

Page 82: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

82

Page 83: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Vraisemblance

83

Probabilité que les évènements aient eu lieu au moment où on les a observés, conditionnellement au passé du processus

Probabilité qu’il n’y ait pas d’évènement aux autres temps, conditionnellement au passé du processus

On cherche les paramètres qui maximisent les courbes jaunes et minimisent l’aire sous la courbe noire

Soit 𝑡𝑖 le temps de réalisation de l’évènement pour l’individu 𝑖 et 𝜏 le temps de fin d’observation, alors la vraisemblance se décompose comme suit :

Page 84: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Vraisemblance

84

Probabilité que les évènements aient eu lieu au moment où on les a observés, conditionnellement au passé du processus

Probabilité qu’il n’y ait pas d’évènement aux autres temps, conditionnellement au passé du processus

On cherche les paramètres qui maximisent les courbes jaunes et minimisent l’aire sous la courbe noire

Soit 𝑡𝑖 le temps de réalisation de l’évènement pour l’individu 𝑖 et 𝜏 le temps de fin d’observation, alors la vraisemblance se décompose comme suit :

Page 85: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Vraisemblance

85

Probabilité que les évènements aient eu lieu au moment où on les a observés, conditionnellement au passé du processus

Probabilité qu’il n’y ait pas d’évènement aux autres temps, conditionnellement au passé du processus

On cherche les paramètres qui maximisent les courbes jaunes et minimisent l’aire sous la courbe noire

Soit 𝑡𝑖 le temps de réalisation de l’évènement pour l’individu 𝑖 et 𝜏 le temps de fin d’observation, alors la vraisemblance se décompose comme suit :

Page 86: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Vraisemblance

86

Probabilité que les évènements aient eu lieu au moment où on les a observés, conditionnellement au passé du processus

Probabilité qu’il n’y ait pas d’évènement aux autres temps, conditionnellement au passé du processus

La log vraisemblance s’écrit :

On cherche les paramètres qui maximisent les courbes jaunes et minimisent l’aire sous la courbe noire

• Integrale• Quelle forme pour les 𝛽(𝑡) ?

Soit 𝑡𝑖 le temps de réalisation de l’évènement pour l’individu 𝑖 et 𝜏 le temps de fin d’observation, alors la vraisemblance se décompose comme suit :

Page 87: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Certaines trajectoires sont censurées

87

Temps

Individus

Fin d’observation

Évènement observé

Évènement censuré

Page 88: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Notations

88

𝑁𝑖(𝑡) 𝑌𝑖(𝑡)

1

0

1

0

3

2

$ $ $ Arrêt du jeupar le joueur

Nombre de réalisation de l’évènement

L’individu est il toujours à risque ?

Page 89: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Number of coefs TV cTV

Linear 5+5 2+2

Non-linear 25 2

89

Page 90: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

TV use only adjacent pixels

cTV use a fully connected graph

90

Page 91: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Publications

• Allart, T., Levieux, G., Pierfitte, M., Guilloux, A., & Natkin, S. (2016). Design influence on player retention: A method based on time varyingsurvival analysis. In Computational Intelligence and Games (CIG), 2016 IEEE Conference on (pp. 1-8). IEEE.

• Allart, T., Levieux, G., Pierfitte, M., Guilloux, A., & Natkin, S. (2017, August). Difficulty influence on motivation over time in video games using survival analysis. In Proceedings of the 12th International Conference on the Foundations of Digital Games(p. 2). ACM.

91

Page 92: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

92

Page 93: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

93

Page 94: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

100 répétitions Monte-Carlo

Timereg does not run on 32Go Ram

n 𝑜𝑏𝑠 ≈ 50 ∗ 𝑛

94

Page 95: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

95

Page 96: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

Objectif : Améliorer le jeu pour qu’il soit plus « FUN » pour le joueur.

Problème : On ne peut pas mesurer l’intensité du fun à partir des données

Hypothèse : On dispose d’une mesure approximative de la durée du fun : le temps de jeu du joueur.

96

De l’importance du temps de jeu

Page 97: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

97

Proximal Gradient Descent

Proximal TV algorithm is linear in practice (Condat)

Optimisation sous contraintes

Page 98: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique

98