18
Quart d'heure académique du SéminDoc 06/05/2009 LIRMM – Montpellier Estimation du nombre de citations de papillotes et de blagues Carambar Philippe Gambette (équipes MAB/AlGco)

Estimation du nombre de citations de papillotes et de blagues Carambar

Embed Size (px)

DESCRIPTION

Comment évaluer le nombre total de blagues Carambar (ou de citations dans les papillotes Révillon) d'après un échantillon...

Citation preview

Page 1: Estimation du nombre de citations de papillotes et de blagues Carambar

Quart d'heure académique du SéminDoc 06/05/2009LIRMM – Montpellier

Estimation du nombrede citations de papilloteset de blagues Carambar

Philippe Gambette (équipes MAB/AlGco)

Page 2: Estimation du nombre de citations de papillotes et de blagues Carambar

• Papillotes créées en 1790

- un billet doux pour enrober un chocolat, à l'origine

- depuis, rébus, dessins d'humour, citations

• Carambars créés en 1954

- mélange accidentel de caramel et cacao

- devinettes et blagues sur l'emballage depuis 1969

Introduction

papillotesrevillon.fr

http://fr.wikipedia.org/wiki/Carambar

Page 3: Estimation du nombre de citations de papillotes et de blagues Carambar

Combien de citations ou blagues différentes ?

• pour le fabricant :

- limiter les coûts de production → nombre fini

- satisfaire le consommateur

• pour le consommateur :

- frustration de retomber sur une blague déjà lue

- souci d'exhaustivité : combien en manger pour les lire toutes ?

• pour le statisticien :

- estimer ce nombre n d'après un échantillon

Problématique

Page 4: Estimation du nombre de citations de papillotes et de blagues Carambar

• tirer un échantillon aléatoire de k papillotes

on suppose que les citations sont uniformément réparties dans les sachets

• discrétiser les données

associer une citation à chaque papillote

• identifier les doublons

associer un entier unique à chaque citation

Modélisation de l'échantillonnage :

tirer un mot aléatoire de k lettres, choisies parmi un alphabet de n lettres.

Echantillonnage

choix de la citation la plus proche du centre du papier

Page 5: Estimation du nombre de citations de papillotes et de blagues Carambar

Sachant qu'il y a

n papillotes différentes au total

quelle est la probabilité

de tirer 40 citations

différentes, exactement,

parmi un échantillon de 52 papillotes

?

Modélisation du problème :

trouver la valeur de n qui maximise cette probabilité

Modélisation du problème

un alphabet de n lettres

d'avoir 40 lettres

dans un mot de 52 lettres

Page 6: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

Calculs

Page 7: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

Pd,k

(n) =

Calculs

nombre de mots de k lettres dont d différentesnombre de mots de k lettres

Page 8: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

Pd,k

(n) =

Nombre ad,k

(n) de mots de k lettres dont d différentes :

n=3, k=3, d=2 :

aab aba abb baa bab bbaaac aca acc caa cac ccabbc bcb bcc cbb cbc ccb

Calculs

nombre de mots de k lettres dont d différentesnombre de mots de k lettres

Page 9: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

Pd,k

(n) =

Nombre ad,k

(n) de mots de k lettres dont d différentes :

n=3, k=3, d=2 :

aab aba abb baa bab bbaaac aca acc caa cac ccabbc bcb bcc cbb cbc ccb

Calculs

nombre de mots de k lettres dont d différentesnombre de mots de k lettres

on trouve les mots sur d=2 lettreson en déduit les mots sur n lettres par projection.

Page 10: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

Pd,k

(n) =

Nombre ad,k

(n) de mots de k lettres dont d différentes :

n=3, k=3, d=2 :

aab aba abb baa bab bbaaac aca acc caa cac ccabbc bcb bcc cbb cbc ccb

Calculs

nombre de mots de k lettres dont d différentesnombre de mots de k lettres

on trouve les mots sur d=2 lettreson en déduit les mots sur n lettres par projection : a

d,k(n) = a

d,k(k) C

nd

Page 11: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

Pd,k

(n) =

Nombre ad,k

(n) de mots de k lettres dont d différentes :

ad,k

(n) = ad,k

(k) Cn

d

Calculs

nombre de mots de k lettres dont d différentesnombre de mots de k lettres nk

Page 12: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

Pd,k

(n) =

Calculs

ad,k

(k) Cn

d

nk

Page 13: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

Pd,k

(n) =

Calculs

ad,k

(k) Cn

d

nk

constante par rapport à n

Page 14: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

argmaxn P

d,k(n) = argmax

n

Calculs

Cn

d

nk

Page 15: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

argmaxn P

d,k(n) = argmax

n

Pour les papillotes Révillon “Festives” pour k=52 et d=40 :

Résultats

Cn

d

nk

40 10060 8045 50 55 65 70 75 85 90 95 105 110 115 120 125 130 135 140 145 150 155 160

Pd,k

(n)

n

n=93 ?

Page 16: Estimation du nombre de citations de papillotes et de blagues Carambar

Trouver la valeur de n qui maximise

la probabilité Pd,k

(n) de tirer un mot de k lettres ayant exactement d lettres

différentes dans un alphabet de n

lettres.

argmaxn P

d,k(n) = argmax

n

Pour les papillotes Révillon “Festives” pour k=52 et d=40 :

Résultats

Cn

d

nk

40 10060 8045 50 55 65 70 75 85 90 95 105 110 115 120 125 130 135 140 145 150 155 160

Pd,k

(n)

n

n=93 ? En fait, n=108,soit 14% d'erreur.

Page 17: Estimation du nombre de citations de papillotes et de blagues Carambar

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 400

5

10

15

20

25

30

35

40

45

Evolution du nombre de blagues Carambar “Caramel” estimé en fonction de la taille du tirage :

Résultats

nombre k de carambars ouverts

valeur de n estimée

nombre d de blagues différentes trouvées

Page 18: Estimation du nombre de citations de papillotes et de blagues Carambar

• étude de la précision de la méthode par simulations

• formule directe pour la valeur de n estimée

• utilisations d'autres caractéristiques du tirage pour une évaluation plus précise : - nombre de citations présentes deux fois - distribution des nombres d'apparition de citations - taille la plus longue d'une séquence de blagues consécutives

• estimation plus précise du nombre de blagues Carambar

• estimation du nombre de surprises Kinder

Perspectives

Bientôt sur http://gambette.blogspot.com

ebay.fr