71
Curs 2014-15 UPC APUNTS DE CLASSE: TEMA 4 COMPTATGES

lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

Curs 2014-15

UPC APUNTS DE CLASSE: TEMA 4 COMPTATGES

Page 2: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-2 Curs 201 4- 1 5

TAULA DE CONTINGUTS

4-1. INTRODUCCIÓN A LOS MODELOS PARA CONTAJES _____________________________________________________________________ 3

4-1.1 CLASIFICACION DE LOS MODELOS ESTADÍSTICOS LINEALES _____________________________________________________________________ 6 4-1.2 MLGZ DE RESPUESTA POISSONIANA ________________________________________________________________________________________ 7 4-1.3 MLGZ DE RESPUESTA BINOMIAL NEGATIVA _________________________________________________________________________________ 12

4-2. TEMA 4: MODELOS LOG-LINEALES Y MODELOS MULTINOMIALES _____________________________________________________ 15

4-3. TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONTINGENCIA _______________________________________________________ 16

4-3.1 HIPÓTESIS DE INDEPENDENCIA EN TABLAS DE DIMENSIÓN 2 ____________________________________________________________________ 18 4-3.2 HIPÓTESIS DE INDEPENDENCIA EN TABLAS DE DIMENSIÓN 3 CON TOTAL FIJADO ___________________________________________________ 20 4-3.3 HIPÓTESIS DE HOMOGENEIDAD EN TABLAS DE DIMENSIÓN 3 CON TOTAL BIVARIANTE FIJADO ________________________________________ 23 4-3.4 DIAGNOSIS DEL MODELO_________________________________________________________________________________________________ 28

4-4. TEMA 4: MODELOS LOG-LINEALES. EJEMPLOS ________________________________________________________________________ 29

4-4.1 EJEMPLO 1: DATOS DE INTENCIÓN DE SEGUIMIENTO DE ENSEÑANZA UNIVERSITARIA ______________________________________________ 29 4-4.2 EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (MCCULLAGH’89) ____________________________________________________________ 42 4-4.3 EJEMPLO 5: ASSEGURANCES D’AUTOMÒBILS-CLASSIFICACIÓ DEL RISC DE SINISTRE (LL.BERMÚDEZ, M.DENUIT, J.DHAENE) _____________ 61

Page 3: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-3 Curs 201 4- 1 5

4-1. INTRODUCCIÓN A LOS MODELOS PARA CONTAJES

En este tema se va a abordar la problemática de los contajes, no del tratamiento de proporciones. Los ejemplos más habituales tienen que ver con el contaje de observaciones en procesos poissonianos, por tanto las observaciones son no negativas y en principio no acotadas superiormente.

Un ejemplo curioso, de temática diferencial a los habitualmente ilustrados en los textos, se debe a McCullagh y modeliza el número de incidentes con daños en los barcos de una compañía a lo largo de un periodo de tiempo (cuidado, las diferencias entre barcos, nos llevan a un efecto de sobre-dispersión).

Idealmente, los procesos poissonianos modelizan la aparición de eventos independientes y de tasa constante por unidad de tiempo, por lo que en la práctica es fácil de encontrar situaciones que salgan

de las condiciones ideales de la hipótesis de varianza poissoniana [ ] [ ] iii YYV µ==Ε .

Nelder y Wedderburn propusieron la posibilidad de especificar la media, la varianza y la relación entre la media y la varianza de las observaciones dentro del proceso iterativo de mínimos cuadrados ponderados, lo que lleva a unos estimadores denominados máximo casi verosímiles (MQLE, maximum quasi-likelihood estimates). Durante la exposición del tema y siempre que sea posible, se evitará la

restricción poissoniana y se asumirá [ ] [ ] iii YYV µφφ == Ε .

Page 4: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-4 Curs 201 4- 1 5

TEMA 4: INTRODUCCIÓN A LOS MODELOS PARA CONTAJES

• Si 1=φ la varianza coincide con la media nos hallamos ante la hipótesis poissoniana.

• Si 1>φ entonces hay sobre-dispersión y la varianza de los estimadores casi verosímiles es

[ ] ( ) 1−= WXXV Tφβ , lo que indica que bajo la hipótesis poissoniana la varianza de los estimadores

tiende a ser conservadora en presencia de sobre-dispersión. Diversos autores han propuesto estimar φ a partir del estadístico de Pearson dividido por sus grados de libertad,

pnX−

=2

φ̂

Hay que ir con cuidado, una valor alto de Pearson indica una falta de ajuste y se si emplea Pearson para estimar la sobre-dispersión, lo que se hace es confundir la falta de ajuste con una varianza extra poissoniana e inflar los errores estándar proporcionalmente. Por tanto hay que estar seguro que la falta de ajuste no es debida a la falta de variables explicativas en la componente sistemática del modelo.

En todos los modelos log- lineales, la esperanza matemática de cada una de las variables depende de un vector de covariables de manera multiplicativa, por lo que se suele describir el modelo en la escala logarítmica: …

Page 5: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-5 Curs 201 4- 1 5

TEMA 4: INTRODUCCIÓN A LOS MODELOS PARA CONTAJES

… Modelos log-lineales : aspecto funcional …

Sea un vector de observaciones de n componentes, ( )nT yy ,,y 1= , realización de un vector

aleatorio ( )nT YY ,,Y 1= , cuyas componentes son estadísticamente independientes y

distribuidas con medias ( )nT µµ ,,1 =µ : ( ) niT

iii ,,xlog 1=== βηµ .

Si las variables explicativas son factores, entonces existe una clara analogía con los modelos de regresión ordinarios para el análisis de la varianza.

Se ilustrará en el desarrollo del tema, la conexión entre los modelos log-lineales y los modelos de respuesta multinomial y que bajo determinadas condiciones la analogía llega hasta la equivalencia de los modelos.

Las distribuciones binomial y multinomial son adecuadas para modelizar las proporciones, en respuestas binarias y politómicas respectivamente, cuando el número total de observaciones por clase de covariable es fijo y conocido. Los contajes modelizados por MLGz con respuestas poissonianas no están acotados superiormente. La descripción básica de una variable de Poisson de parámetro µ es:

Función de probabilidad: ( ) ,,

!10== − ye

yyp

y

Yµµ

, [ ] µ=YΕ y [ ] µ=YV .

Page 6: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-6 Curs 201 4- 1 5

TEMA 4: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

4-1.1 Clasificacion de los modelos estadísticos lineales Explicative Variables

Response Variable Dicothomic or

Binary Polythomic Counts

(discrete) Continuous

Normal Time between events

Dicothomic Contingency tables Logistic regression Log-linear models

Contingency tables Log-linear models

Log-linear models

Tests for 2 subpopulation means: t.test

Survival Analysis

Polythomic Contingency tables Logistic regression Log-linear models

Contingency tables Log-linear models

Log-linear models

ONEWAY, ANOVA

Survival Analysis

Continuous (covariates)

Logistic regression * Log-linear models

Multiple regression

Survival Analysis

Factors and covariates

Logistic regression * Log-linear models

Covariance Analysis

Survival Analysis

Random Effects

Mixed models Mixed models Mixed models

Mixed models Mixed models

Page 7: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-7 Curs 201 4- 1 5

TEMA 4: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

4-1.2 MLGz de respuesta poissoniana

La componente aleatoria parte de la realización de un vector aleatorio ( )nT YY ,,Y 1= de n

componentes, estadísticamente independientes y distribuidas poissonianamente con esperanzas

( )nT µµ ,,1 =µ .

La componente sistemática del modelo consiste en la especificación de un vector η , el predictor lineal

a partir de un número reducido de parámetros a estimar y regresores; parámetros ( )pT ββ ,,1=β

y regresores ( )pT XX ,,X 1= . Esta especificación responde, en notación matricial a βη X=

donde η es nx1, X es nxp y β es px1.

El vector µ está habitualmente relacionado con el predictor lineal η , a través de la función de link

logarítmica : ( ) niTiii ,,xlog 1=== βηµ . El logaritmo es la función de link canónica para

la ley de Poisson.

Page 8: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-8 Curs 201 4- 1 5

TEMA 4: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

Como ya se ha visto repetidamente en el curso, una distribución pertenece a la familia exponencial si puede escribirse de la siguiente manera:

( ) ( )( ) ( )

+

−= φ

φθθφθ ,exp,, yc

abyyfY

Donde a(.), b(.) y c(.) son funciones específicas con φ conocido y donde se denomina al único

parámetro θ : parámetro canónico.

En la distribución de Poisson de parámetro µ :

( ) ( ) ( ) ( ) ( )

−=

−=−= !logexp!loglogexpexp

!,, yeyyy

yyf

y

Y 1θ

1µµµµφθ

θ

donde ( ) 1=φa , ( ) θθ eb = ( es decir, µθ log= ) y ( ) ( )!log, yyc −=φ .

Page 9: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-9 Curs 201 4- 1 5

TEMA 4: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

La contribución a la función de log-verosimilitud de una observación dada y es:

( ) ( ) ( )( ) ( ) ( )!log,,,log,, yeyyc

abyyfy Y −−=+

−== θθφ

φθθφθφθ

.

( ) ( ) µµθφθ θ −≅−−= log!log,, yyeyy

Las propiedades de los scores se concretan en el caso particular de respuesta poissoniana:

En la distribución de Poisson, [ ] µ=YΕ y ( ) ( ) ( )θθθµ exp' == b y ( ) µµθ log= .

En la distribución de Poisson, para la varianza, [ ] ( ) ( ) ( ) ( )θθ1θφ expexp'' =⋅== baYV y

[ ] µµ =V .

El link canónico se da cuando ( ) θµη == g (entiéndase ( )µθ ). Por tanto, para la ley de Poisson, la

función logaritmo es el link canónico: ( )µµθη glog === .

Page 10: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-10 Curs 201 4- 1 5

TEMA 4: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

La devianza de un conjunto de observaciones es

( ) ( ) ( )∑=

−−

==

n

iii

i

ii yyyDD

1

2 µµ

ˆˆ

logˆy,ˆy,' µµ.

Dado que para cada observación ii µθ log= y la contribución de cada observación a la funció de log-

verosimilitud es ( ) iiiy µµ −log .

( ) ( )

( )( ) ( )( ){ }

( )∑

=

=

−−=

=−−−−−=

=−=

n

iii

i

ii

n

iiiiiiiii

yyy

yyyyyy

D

1

1

2

22

22

µµ

µµ

φφ

ˆˆ

log

!logˆˆlog!loglog

y,,ˆy),(y,ˆy,' µµ

Page 11: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-11 Curs 201 4- 1 5

TEMA 4: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

… Si se incluye un término constante en el modelo, entonces se puede demostrar:

( ) 01

=−∑=

n

iiiy µ̂

y ( ) ( ) ∑∑

==

=

−−=n

i i

ii

n

iii

i

ii

yyyyyD11

22µ

µµ ˆ

logˆˆ

logˆy,µ

Una aproximación, debida a Pearson, cuando el parámetro µ es grande es,

( ) ( )∑=

−=≅

n

i i

iiyD1

22

µµ

ˆˆˆy, Χµ

Los estimadores máximo verosímiles son asintóticamente consistentes y normales, con matriz de

varianzas y covarianzas asintótica 1−ℑβφ̂ , donde βℑ es la matriz de información y el parámetro de

dispersión puede estimarse por ( ) ( )pny

pn

n

i i

ii −−

=−

= ∑=1

22

µµ

φˆ

ˆˆ Χ.

La aproximación normal o por la distribución t-Student si se desconoce la dispersión pueden dar problemas si los valores ajustados tienen mayoritariamente valores por debajo de 1. De todos modos, los grados de libertad en la distribución t-Student aproximada son inferiores a n- p. (la reducción depende de la media del momento de orden 4 de las respuestas, detalle técnico que se omite).

Page 12: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-12 Curs 201 4- 1 5

TEMA 4: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

4-1.3 MLGz de respuesta binomial negativa

Una aproximación alternativa para la modelización de observaciones que presentan sobre-dispersión [ ] ( )iiii hXYV μμ α+= con 0>α hay sobredispersion. El coeficiente de sobredispersión se puede

estimar mediante una regresion auxiliar por OLS (y contrastar su significación mediante el t.test standard

de la salida de los paquetes estadísticos). La function consiste ( )ih μ se suele definir como:

Modelo NB1 - ( ) [ ] ( ) iiiii XYVh μ1μμ α+=→= . En terminología estadística modelos cuasi-Poisson con parámetro de dispersión.

Modelo NB2 - ( ) [ ] ( ) iiiiii XYVh μμ1μμμμ 2i

2i αα +=+=→= .

El paquete AER en R dispone del método dispersiontest() para efectuar el contraste de equidispersión en terminus del parámetro alpha, en cualquiera de las alternativas: cuasi-Poisson (trafo=1) o en NB2 (trafo=2).

La modelización binomial negativa para conllevar la falta de equidispersión, se argumentaría a partir de una distribución mixtura que surge de una distribución de respuesta poissoniana y de añadir en su escala un efecto aleatorio iθ (distribuído según una ley gamma) para modelizar la heterogeneidad no observada en los datos.

Page 13: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-13 Curs 201 4- 1 5

TEMA 4: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

De manera que suponiendo que la distribución condicional de las respuestas Yi dado iθ es verdaderamente

poissoniana con media y varianza iiµθ .

La idea sería que si las iθ se observaran entonces las respuestas Yi serían poissonianas. Pero como no se observan, entonces se les supone una distribución gamma con parámetros de forma y escala θ== βα/1

(recuérdese que la esperanza es β/α , la varianza α/β2 con fdp { }( ) ( )( )

β/1

e1/αββ/ α

1

yyyYP −−

Γ== ).

En este caso, la distribución de las respuestas Y resulta ser binomial negativa NB2 con función de

probabilidad de parámetros θ=α/1 y mediaµ (su varianza [ ] 22 μ1μμμθ

α +=+=YV ),

{ }( ) ( )( ) ( ) ( )

00μ,2,1,0μμ

μ!>>=

++Γ+Γ

== θθθ

θθ

θθ

θ

yy

yyYP y

y

… con esperanza [ ] µ=YΕ y [ ] 2μ1μθ

+=YV . La distribución de Poisson de parámetroµ se da cuando

∞→θ . La distribución geométrica es un caso particular de la binomial negativa cuando 1=θ .

Page 14: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-14 Curs 201 4- 1 5

En R, el paquete MASS permite estimar GLMs con parámetro desconocido mediante la especialización

glm.nb(), pero si previamente se estima θ conocido se puede estimar por el método glm con family=negative.binomial(theta=value).

TEMA 4: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

La función de link empleada es el logaritmo, por eso sigue siendo técnicamente un modelo log-lineal, donde la distribución binomial negativa de la respuesta afecta exclusivamente a la estructura de la función

varianza [ ] 2µµµθ1

+=V .

La distribución binomial negativa se presenta en cursos básicos de Estadística como el modelo probabilista dentro de un proceso de Bernoulli de parámetro π del número de éxitos de la experiencia base de Bernoulli hasta obtener r classes fracasos, si a los parámetros πiα (probabilidad éxito) de la función de probabilidad de la variable binomial negativa general se les da los valores,

r/1α-1

r-1

===ππ

ππθµ y ( )θ

µπ += μ

, entonces se obtiene la expresión de la función de probabilidad más intuitiva y conocida.

Page 15: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-15 Curs 201 4- 1 5

4-2. TEMA 4: MODELOS LOG-LINEALES Y MODELOS MULTINOMIALES

La relación entre los modelos log-lineales y los modelos de respuesta multinomial procede del hecho que la ley multinomial (y como caso particular la binomial) puede derivarse a partir de un conjunto de variables de Poisson condicionadas a un número total de observaciones fijado.

El resultado es de interés para la justificación de que ciertos modelos log-lineales son equivalentes a modelos de respuesta multinomial: cuando los parámetros de interés son los cocientes de las medias de las variables poissonianas o equivalentemente, los cocientes de las medias de Poisson respecto los totales, entonces la transformación de la log-verosimilitud de los modelos log-lineales haciendo intervenir el condicionamiento a totales observados nos lleva a un modelo de respuesta multinomial. Los modelos log-lineales vinculados a modelos multinomiales deben llevar un conjunto de parámetros molestos (nuisance parameters, τ ) vinculados a los totales multinomiales.

No todos los modelos log-lineales son equivalentes a modelos multinomiales y el recíproco también es falso.

Page 16: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-16 Curs 201 4- 1 5

4-3. TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONTINGENCIA

Una primera aproximación al análisis de las tablas de contingencia vía modelos log-lineales y su relación con los modelos ANOVA resulta más intuitiva si se trabajan las verosimilitudes en función de los parámetros

nµµ ,,1 .

Sean genéricamente LYY ,,1 , L variables aleatorias independientes de Poisson con esperanzas

respectivas Lµµ ,,1 , indexadas l=1, …, L.

Para tablas de dos dimensiones, con I niveles por fila representando el factor A y J niveles por columna representando el factor B, se tendrán índices que corren i=1, … , I (para filas) y j=1,…., J (para columnas).

Para tablas de tres dimensiones, con I niveles por fila representando el factor A , J niveles por columna representando el factor B, para cada subtabla identificativa de un nivel del factor C, de K niveles, se tendrán índices que corren i=1, … , I (para filas), j=1,…., J (para columnas) y índice de las subtablas k=1,…,K.

A continuación se ilustra una tabla de contingencia tridimensional y la terminología de marginales usada…

Page 17: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-17 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONTINGENCIA

FACTOR C

FACTOR B FACTOR B FACTOR B

FACTOR A

C1 … CK B1 … BJ TOTAL B1 … BJ TOTAL B1 … BJ TOTAL

A1 Y111 … Y1J1 Y1+1 … … … … Y11K … Y1JK Y1+K

A2 Y211 … Y2J1 Y2+1 … … … … Y21K … Y2JK Y2+K

… … … … … … … … … … … … …

AI YI11 … YIJ1 YI +1 … … … … YI1K … YIJK YI +K

TOTAL Y+11 … Y+J1 Y++1 … … … … Y+1K … Y+JK Y++K

Total marginal univariante del factor A: ∑ ∑=++ j k ijki YY . Total marginal bivariante de los factores A y C:

∑=+ j ijkki YY

Total marginal univariante del factor B: ∑∑=++ i k ijkj YY Total marginal bivariante de los factores B y C:

∑=+ i ijkjk YY

Total marginal univariante del factor C: ∑∑=++ i j ijkk YY Total trivariante de los factores A, B y C: ijkY .

Total marginal bivariante de los factores A y B: ∑=+ k ijkij YY Total: ∑∑ ∑=+++ i j k ijkYY .

Page 18: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-18 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. ANALOGÍAS ENTRE TABLAS DE

CONTINGENCIA Y MODELOS ANOVA

Las tablas de contingencia se emplean para determinar la asociación entre los factores implicados. Todas las hipótesis habituales sobre relaciones entre los factores en tablas de contingencia de dimensión 2 y 3 pueden formularse como modelos multiplicativos donde las frecuencias por celdas se expresan como productos de probabilidades marginales por celda y totales (marginales).

4-3.1 Hipótesis de independencia en tablas de dimensión 2 En tablas de dimensión 2, la hipótesis que las filas y las columnas son independientes (factores A y

B independientes) puede formularse como probabilidad total igual al producto de probabilidades marginales por la constante fija y conocida m, total de observaciones (distribución multinomial simple):

jiij ••= πππ , donde 1π1π == ∑∑ •• j ji i y de ahí las frecuencias esperadas en las celdas

[ ] jiij mY ••= ππΕ o desde el punto de vista poissoniano [ ] mY jiij ++=Ε µµ .

El modelo log-lineal equivalente se expresaría como A+B

( ) JjIijiijij ,,,,log 11 ==++== βαµηµ

I+J- 1 parámetros indep. (hay que hacer una reparametrización)

Page 19: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-19 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONT. Y ANOVA

El modelo log-lineal maximal se expresaría por analogía con el análisis de la varianza como A*B

( ) JjIijijiijij ,,,,log 11 ==+++== αββαµηµ

IJ parámetros indep. (hay que hacer una reparametrización)

El parámetro correspondiente a la constante m fijada es µ .

La relación (dependencia) entre los dos factores A y B puede resolverse con el contraste de las interacciones en el modelo log- lineal.

Los modelos log- lineales para el análisis de tablas de contingencia son jerárquicos, en el sentido que los términos de interacciones de orden superior, sólo se pueden incluir en el modelo si los términos de interacciones de orden inferior están presentes.

Los parámetros correspondientes a las constantes fijadas siempre deben incluirse en el modelo.

Page 20: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-20 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONT. Y ANOVA

4-3.2 Hipótesis de independencia en tablas de dimensión 3 con total fijado En tablas de dimensión 3, la hipótesis de independencia total entre las 3 respuestas (filas, columnas

y subtablas) … (variables de respuesta factores A, B y C, total fijado).

kjiijk ••••••= ππππ y en las celdas [ ] kjikjiijk ymY ••••••+++•••••• ==Ε ππππππ .

El modelo log-lineal equivalente se expresaría A+B+C

( ) kjiijkijk γβαµηµ +++==log

I+J+K- 2 parámetros indep. (reparametrización necesaria)

Que se contrastaría con la hipótesis alternativa [ ] ijkijkijk ymY ππ +++==Ε formulada en el modelo log-lineal maximal A*B*C:

( ) ijkjkikijkjiijkijk αβγβγαγαβγβαµηµ +++++++==log

IJK parámetros indep. (reparametrización necesaria)

Los parámetros correspondientes a las constantes fijadas son: µ .

Son modelos sin interacción de orden 2: A+B+C.

Page 21: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-21 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONT. Y ANOVA

En tablas de dimensión 3, la hipótesis de independencia por bloques, concretamente del factor A (filas) de las otras 2 respuestas (columnas y subtablas) … (variables de respuesta factores A, B y C, fijado el total).

jkiijk •••= πππ y en las celdas [ ] jkijkiijk ymY •••+++••• == ππππΕ .

El modelo log-lineal equivalente se expresaría A+B*C,

( ) jkkjiijkijk βγγβαµηµ ++++==log

I+JK- 1 parámetros indep. (reparametrización necesaria)

Que se contrastaría con la hipótesis alternativa [ ] ijkijkijk ymY ππ +++==Ε formulada en el modelo log-lineal maximal A*B*C:

( ) ijkjkikijkjiijkijk αβγβγαγαβγβαµηµ +++++++==log

IJK parámetros indep. (reparametrización necesaria)

Los parámetros correspondientes a las constantes fijadas son µ .

Son modelos con 1 interacción de orden 2: A+B*C o B+A*C o C+A*B.

Page 22: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-22 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONT. Y ANOVA

En tablas de dimensión 3, la hipótesis de independencia parcial contendría 2 de las posibles interacciones de orden 2, … (variables de respuesta factores A, B y C, fijado el total).

1. A*B+B*C (I+K-1)J parámetros.

2. A*C+B*C (I+J-1)K parámetros.

3. A*B+A*C (J+K-1)I parámetros.

En tablas de dimensión 3, la hipótesis de asociación uniforme contendría todas las posibles interacciones de orden 2, la asociación 2 a 2 es la misma para todos los niveles de la variable restante: … (variables de respuesta factores A, B y C, fijado el total):

1. A*B+A*C+B*C IJK-(I-1)(J-1)(K-1) parámetros.

Page 23: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-23 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONT. Y ANOVA

4-3.3 Hipótesis de homogeneidad en tablas de dimensión 3 con total bivariante fijado En tablas de dimensión 3, la hipótesis de homogeneidad, probabilidades idénticas por fila comunes a

todas las subtablas (probabilidad marginal univariante de B igual a probabilidad condicional) (variable de respuesta la columna, factor B, explicativas factores A y C con totales bivariantes según A y C fijados).

••= jikj ππ / o •••= jkiijk πππ , donde 1π =∑ ••j j y [ ] ••+•• == jkijikijk ymY ππΕ .

El modelo log-lineal equivalente se expresaría A*C+B (B independiente de A y C),

( ) ikkjiijkijk αγγβαµηµ ++++==log

IK+J- 1 parámetros indep. (reparametrización necesaria)

Que se contrastaría con la hipótesis alternativa [ ] ikjikijk mY /π=Ε formulada en el modelo log-lineal maximal A*B*C:

( ) ijkjkikijkjiijkijk αβγβγαγαβγβαµηµ +++++++==log

IJK parámetros indep. (reparametrización necesaria)

Los parámetros correspondientes a las constantes fijadas son ikki αγγαµ +++ .

Page 24: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-24 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONT. Y ANOVA

En tablas de dimensión 3, la hipótesis de homogeneidad, probabilidades idénticas por filas dentro de cada subtabla, donde la variable de respuesta es la columna, factor B, las variables explicativas son los factores A y C con totales bivariantes según A y C fijados (la función de probabilidad conjunta es por tanto, producto de fp multinomiales).

jkkiijk ••= πππ , con 1π =∑ •ji jk, y [ ] jkkijkikijk ymY •+• == ππΕ .

El modelo log-lineal equivalente se expresaría A*C+B*C (condicionado a C, A independiente de B)

( )jkjikkiijkijk βγβαγγαµηµ +++++==log

K(I+J- 1 ) parámetros indep. (reparametrización necesaria)

A contrastar con la hipótesis alternativa [ ] ikjikijk mY /π=Ε formulada en el modelo log-lineal como A*B*C:

( ) ijkjkikijkjiijkijk αβγβγαγαβγβαµηµ +++++++==log

IJK parámetros indep. (reparametrización necesaria)

Los parámetros correspondientes a las constantes fijadas son ikki αγγαµ +++ .

Page 25: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-25 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONT. Y ANOVA

La hipótesis de homogeneidad, asociación entre el factor C y B es la misma para todos los niveles de A-B (probabilidad marginal bivariante de C y B idéntica, para cada grupo de A-B) (variable de respuesta la columna, factor B, explicativas factores A y C con totales bivariantes según A y C fijados).

•••= ijjkkiijk ππππ y en las celdas [ ] ••+•• ==Ε ijjkkiijjkikijk ymY ππππ .

El modelo log-lineal equivalente se expresaría A*C+B*C+A*B,

( ) ijjkjikkiijkijk ββγβαγγαµηµ α++++++==log

IJK- (I- 1 )(J- 1 )(K- 1 ) parámetros indep. (reparametrización necesaria)

Que se contrastaría con la hipótesis alternativa [ ] ikjikijk mY /π=Ε formulada en el modelo log-lineal maximal A*B*C:

( ) ijkjkikijkjiijkijk αβγβγαγαβγβαµηµ +++++++==log

IJK parámetros indep. (reparametrización necesaria)

Page 26: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-26 Curs 201 4- 1 5

Los parámetros correspondientes a las constantes fijadas son ikki αγγαµ +++ .

Page 27: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-27 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONT. DIAGNOSIS

RELACIÓN REGRESIÓN LOGÍSTICA Y MODELOS LOG-LINEALES en tablas de dimensión 3: Factor B es la respuesta dicotómica y los Factores A y C las variables explicativas (totales bivariantes A y C fijados),

MODELOS LOG-LINEALES REGRESIÓN LOGÍSTICA

A*C+B Minimal

A*C+A*B A

A*C+B*C C

A*C+A*B+B*C A+C

A*B*C A*C (Maximal)

RELACIÓN MODELO POLITÓMICO NOMINAL Y MODELOS LOG-LINEALES:

( ) jjiijij x βαµηµ Tilog +++== θ y ( ) JJiiJiJ x βαµηµ T

ilog +++== θ , por tanto,

( ) ( ) ( ) ( )JjJjiJ

ijiJij x ββααµµ −+−=

=− T

ilogloglogππ

Page 28: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-28 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. TABLAS DE CONT. DIAGNOSIS

4-3.4 Diagnosis del modelo

El estadístico devianza tiene por expresión l

ll

yyD

µ̂log∑= 2 y si el modelo es correcto, para

muestras grandes tiene una distribución chi-cuadrado con grados de libertad calculados a la práctica como la diferencia entre el número de celdas no nulas menos el número de parámetros independientes del modelo.

El estadístico de Pearson, ( ) ( )∑

=

−=≅

n

i i

iiyD1

22

µµ

ˆˆˆy, Χµ

para muestras grandes tiene una

distribución chi-cuadrado con grados de libertad calculados a la práctica como la diferencia entre el número de celdas no nulas menos el número de parámetros independientes del modelo.

Los residuos estandarizados de Pearson son los que aparecen más frecuentemente en los paquetes estadísticos (SPSS, MINITAB no tiene modulo log-lineal), la diagnosis y validación del modelo contempla la detección de residuos de Pearson con valor absoluto superior a 2-3 (grosso modo la cola del 1% de la ley normal estándar):

i

iiP

yri µ

µˆ

ˆ−=

Page 29: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-29 Curs 201 4- 1 5

4-4. TEMA 4: MODELOS LOG-LINEALES. EJEMPLOS

4-4.1 Ejemplo 1: Datos de intención de seguimiento de Enseñanza Universitaria Un grupo de 4991 estudiantes de secundaria de Wisconsin se clasifican en la siguiente tabla de contingencia según su ESTATUS socio-económico (S, con 4 niveles), la MOTIVACIÓN recibida de los padres en sus estudios (E, 2 niveles BAJO-ALTO) y sus PLANES de continuación en la Universidad (P, 2 niveles SI-NO). Se consideran las 3 variables como respuesta. Datos de Fienberg (1977).

FACTOR C- Motivación (E) FACTOR B – Universidad? FACTOR B Universidad?

FACTOR A Estatus Social

C1 - Bajo CK=2 Alto B1 No BJ=2 Si TOTAL B1 No BJ=2 Si TOTAL

A1 Bajo 749 35 784 233 133 366

A2 Medio- Bajo 627 38 665 330 303 633

A2 Medio- Alto 420 37 457 374 467 841

AI=4 Alto 153 26 179 266 800 1066

TOTAL 1949 136 2085 1203 1703 2906

Page 30: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-30 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1.

La jerarquía de modelos a considerar es de menos a más saturado: Fijado el total m, es decir las 3 variables son explicativas:

MODELO DEVIANZA G.L.

A+B+C 2714 10 Motivación, Universidad y Estatus social independientes

A+B*C 1092 9 Estatus social es independiente de la Motivación y Universidad

B+A*C 1877.4 7 Asistencia a Universidad es independiente de Motivación y Estatus

C+A*B 1920.4 7 Motivación de los padres es independiente de Estatus y Universidad

A*B+A*C 1083.8 4 Condicionado al Estatus, Motivación y Universidad son independientes

A*B+B*C 298.5 6 Condicionado a Universidad, Estatus y Motivación son independientes

A*C+B*C 255.5 6 Condicionado a Motivación, Estatus y Universidad son independientes

A*B+A*C+B*C 1.575 3 Interpretación ausencia de interacción de orden 3 ¿??

Page 31: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-31 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1.

MODELO A+B+C: Modelo más simple en el contexto multinomial, donde la probabilidad conjunta es el producto de las probabilidades marginales.

En tablas de dimensión 3, la hipótesis de independencia total entre las 3 respuestas (filas, columnas y subtablas) … (variables de respuesta factores A, B y C, total fijado).

H0: kjiijk ••••••= ππππ y en las celdas [ ] kjikjiijk ymY ••••••+++•••••• ==Ε ππππππ .

El modelo log-lineal equivalente para el logaritmo de las observaciones esperadas por celda se expresaría A+B+C ,

( ) kjikjiijkijk y ••••••+++ +++=+++== πππγβαµηµ logloglogloglog

I+J+K- 2=4+2+2- 2=6 parámetros indep.

Que se contrastaría con la hipótesis alternativa [ ] ijkijkijk ymY ππ +++==Ε formulada en el modelo log-lineal maximal A*B*C: IJK=1 6 parámetros indep.

( ) ijkjkikijkjiijkijk αβγβγαγαβγβαµηµ +++++++==log

Los parámetros correspondientes a las constantes fijadas son: µ .

Page 32: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-32 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1.

Modelo sin interacción de orden 2: A+B+C donde los estimadores MV puede demostrarse son 2myyy kjiijk /ˆ ++++++=µ . El contraste de la hipótesis de independencia total lleva a comparar el

valor máximo de la función log-verosimilitud multinomial bajo el modelo de independencia y bajo el modelo saturado, pero en virtud de la equivalencia entre los modelos multinomiales y Poisson, el resultado del test de la devianza es exactamente el mismo que el resultante de comparar el modelo log-lineal aditivo frente al modelo saturado (maximal).

D(A+B+C)=2714 con 10 g.l., valor altamente significativo y por tanto se rechaza H0.

MODELOS DE INDEPENDENCIA POR BLOQUES: Modelos que en el contexto multinomial indica que 2 de las variables están asociadas, pero conjuntamente independientes de la tercera variable: por ejemplo, S+P*E, en general A+B*C, Motivación de los padres y Asistencia a la Universidad están asociados, pero son independientes del Estatus Social (modelo poco creíble por inspección visual).

En tablas de dimensión 3, la hipótesis de independencia por bloques, concretamente del factor A (filas) de las otras 2 respuestas (columnas y subtablas) … (variables de respuesta factores A, B y C, fijado el total).

H0: jkiijk •••= πππ y en las celdas [ ] jkijkiijk ymY •••+++••• ==Ε ππππ ya que,

{ } { }{ } { } { }( ) { } { } { }( )

{ }( )iAPkCjBiAPkCjBPiA

kCjBP=

=∩=∩===∩==

==∩=

Page 33: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-33 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1.

El modelo log-lineal equivalente se expresaría A+B*C,

( ) jkijkkjiijkijk y •••+++ ++=++++== ππβγγβαµηµ loglogloglog

I+JK- 1 =4+2*2- 1 =7 parámetros indep. (reparametrización necesaria)

Que se contrastaría con la hipótesis alternativa [ ] ijkijkijk ymY ππ +++==Ε formulada en el modelo log-lineal maximal A*B*C:

( ) ijkjkikijkjiijkijk αβγβγαγαβγβαµηµ +++++++==log

IJK=1 6 parámetros indep. (reparametrización necesaria)

Los parámetros correspondientes a las constantes fijadas son µ .

Son modelos con 1 interacción de orden 2: A+B*C o B+A*C o C+A*B: En el caso A+B*C los

estimadores MV puede demostrarse son myy jkiijk /ˆ +++=µ . El contraste de la hipótesis de independencia por bloques lleva a comparar el valor máximo de la función log-verosimilitud multinomial bajo el modelo H0 y bajo el modelo saturado (devianza del modelo H0), pero en virtud de la equivalencia entre los modelos multinomiales y Poisson, el test de la devianza es exactamente el mismo que el resultante del modelo log-lineal A+B*C.

D(A+B*C)=1092 con 9 =16-7 g.l., valor altamente significativo y por tanto se rechaza H0.

Page 34: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-34 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1.

MODELOS DE INDEPENDENCIA PARCIAL: Modelos que en el contexto multinomial indica que 2 parejas de variables están asociadas: por ejemplo, S*E+P*E, condicionado a la Motivación, la Asistencia a la Universidad y Estatus Social son independientes. En general A*C+B*C, indicaría que condicionado a C, A y B son independientes, pero A y C están asociadas y B y C también.

H0: kjkkiijk ••••= ππππ / y en las celdas [ ] kjkkikjkkiijk ymY ••••+++•••• ==Ε ππππππ // .

El modelo log-lineal se expresaría A*C+B*C, equivalente al multinomial jkkikij ••= πππ / ,

( ) kjkkijkikkjiijkijk m •••• −++=+++++== πππβγαγγβαµηµ logloglogloglog (I+J- 1 )K =(4+2- 1 )*2=1 0 parámetros indep. (reparametrización necesaria)

Que se contrastaría con la hipótesis alternativa [ ] ijkijkijk ymY ππ +++==Ε formulada en el modelo log-lineal maximal A*B*C:

( ) ijkjkikijkjiijkijk αβγβγαγαβγβαµηµ +++++++==log

IJK=1 6 parámetros indep. (reparametrización necesaria)

Los parámetros correspondientes a las constantes fijadas son µ .

D(A*C+B*C)=255.5 con 6 =16-10 g.l., valor significativo y por tanto se rechaza H0.

Page 35: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-35 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1.

En términos de probabilidades, la independencia parcial se expresa cómo,

{ } { }{ }

{ }{ }

{ }{ }

{ } { }( ) { } { }( ){ }( ) { }( )kCPkCP

kCjBPkCiAPkC

jBPkCiAPkC

jBiAP==

=∩==∩==

==

===

==∩=

Lo que permite reescribir la probabilidad trivariante a partir de las probabilidades marginales indicadas, { } { }

{ }{ } { } { }( )

{ }( )kCPkCjBiAP

kCjBiAP

==∩=∩=

=

==∩=

En tablas de dimensión 3, la hipótesis de independencia parcial contendría 2 de las posibles interacciones de orden 2, … (variables de respuesta factores A, B y C, fijado el total). Los estimadores MV tienen una expresión cerrada:

1. A*B+B*C (I+K-1)J parámetros. ++++= jjkijijk yyy /µ̂

2. A*C+B*C (I+J-1)K parámetros. kjkkiijk yyy ++++= /µ̂

3. A*B+A*C (J+K-1)I parámetros. ++++= ikiijijk yyy /µ̂

Page 36: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-36 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1

MODELOS DE ASOCIACIÓN UNIFORME: Modelos que en el contexto multinomial indica que 3 parejas de variables están asociadas: S*E+P*E+S*P. En general A*C+B*C+A*B, indicaría que todas las parejas de variables están asociadas, pero la asociación entre 2 variables cualesquiera es la misma para todos los niveles de la tercera restante. NO SE PUEDE FORMULAR LA HIPÓTESIS de manera que la probabilidad conjunta contenga términos de probabilidades marginales bivariantes, por tanto no se puede escribir en términos multinomiales de manera simple, pero sí en términos log-lineales.

El modelo log-lineal equivalente se expresaría A*C+B*C+A*B,

( ) jkjkijkjiijkijk αγβγαβγβαµηµ ++++++==log

IJK- (I- 1 )(J- 1 )(K- 1 )=1 6- 3*1 *1 =1 3 parámetros indep. (reparametrización necesaria)

Que se contrastaría con la hipótesis alternativa [ ] ijkijkijk ymY ππ +++==Ε formulada en el modelo log-lineal maximal A*B*C:

( ) ijkjkikijkjiijkijk αβγβγαγαβγβαµηµ +++++++==log

IJK=1 6 parámetros indep. (reparametrización necesaria)

Los parámetros correspondientes a las constantes fijadas son µ .

Page 37: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-37 Curs 201 4- 1 5

D(A*C+B*C+A*B)=1.575 con 3 =16-13 g.l., valor no significativo y por tanto SE ACEPTA H0.

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1

MTB > BLogistic 'Uni_SI' 'Uni_NO' = StatusS Estimul; SUBC> SF; SUBC> Factors 'StatusS' 'Estimul'; SUBC> Logit; SUBC> Brief 3. Binary Logistic Regression: Uni_SI; Uni_NO versus StatusS; Estimul Link Function: Logit Response Information Variable Value Count Uni_SI Success 1839 Uni_NO Failure 3152 Total 4991 Factor Information Factor Levels Values StatusS 4 1Baix; 2Mig-baix; 3Mig-alt; 4Alt Estimul 2 1Baix; 2Alt Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -3,19497 0,118491 -26,96 0,000 StatusS 2Mig-baix 0,420133 0,117675 3,57 0,000 1,52 1,21 1,92 3Mig-alt 0,738511 0,113821 6,49 0,000 2,09 1,67 2,62 4Alt 1,59311 0,115270 13,82 0,000 4,92 3,92 6,17 Estimul 2Alt 2,68292 0,0986602 27,19 0,000 14,63 12,06 17,75 Log-Likelihood = -2346,837 Test that all slopes are zero: G = 1875,806, DF = 4, P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P

Page 38: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-38 Curs 201 4- 1 5

Pearson 1,57281 3 0,666 Deviance 1,57547 3 0,665 Hosmer-Lemeshow 0,89577 4 0,925 Somers' D 0,66

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1

Model Log-Lineal en R > wisconsin <- read.table("wisconsin.txt",header=TRUE,sep="\t") > wisconsin Estimul StatusS Plans_Uni Y_ijk 1 1Baix 1Baix 1No 35 2 1Baix 2Mig-baix 1No 38 3 1Baix 3Mig-alt 1No 37 4 1Baix 4Alt 1No 26 5 2Alt 1Baix 1No 133 6 2Alt 2Mig-baix 1No 303 7 2Alt 3Mig-alt 1No 467 8 2Alt 4Alt 1No 800 9 1Baix 1Baix 2Si 749 10 1Baix 2Mig-baix 2Si 627 11 1Baix 3Mig-alt 2Si 420 12 1Baix 4Alt 2Si 153 13 2Alt 1Baix 2Si 233 14 2Alt 2Mig-baix 2Si 330 15 2Alt 3Mig-alt 2Si 374 16 2Alt 4Alt 2Si 266 > attach(wisconsin) > wis.ordre1 <-glm(Y_ijk~Estimul+StatusS+Plans_Uni, family=poisson(link=log)) > wis.ordre2 <-glm(Y_ijk~Estimul+StatusS+Plans_Uni+Estimul*StatusS+Estimul*Plans_Uni+StatusS*Plans_Uni, family=poisson(link=log)) > summary(wis.ordre1) Call: glm(formula = Y_ijk ~ Estimul + StatusS + Plans_Uni, family = poisson(link = log)) Deviance Residuals: Min 1Q Median 3Q Max -15.080 -11.383 -7.542 5.606 26.256 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 5.17624 0.03863 133.997 < 2e-16 *** Estimul2Alt 0.33201 0.02870 11.568 < 2e-16 *** StatusS2Mig-baix 0.12106 0.04050 2.989 0.00279 **

Page 39: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-39 Curs 201 4- 1 5

StatusS3Mig-alt 0.12106 0.04050 2.989 0.00279 ** StatusS4Alt 0.07937 0.04090 1.941 0.05230 . Plans_Uni2Si 0.53882 0.02934 18.362 < 2e-16 *** --- (Dispersion parameter for poisson family taken to be 1)

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1

Null deviance: 3211.0 on 15 degrees of freedom Residual deviance: 2714.0 on 10 degrees of freedom AIC: 2839.8 > summary(wis.ordre2) Call: glm(formula = Y_ijk ~ Estimul + StatusS + Plans_Uni + Estimul * StatusS + Estimul * Plans_Uni + StatusS * Plans_Uni, family = poisson(link = log)) Deviance Residuals: 1 2 3 4 5 6 7 8 0.73044 -0.16639 0.15116 -0.75147 -0.35578 0.05952 -0.04217 0.14245 9 10 11 12 13 14 15 16 -0.15119 0.04135 -0.04446 0.32807 0.27320 -0.05691 0.04719 -0.24539 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 3.42929 0.11931 28.743 < 2e-16 *** Estimul2Alt 1.49175 0.11148 13.381 < 2e-16 *** StatusS2Mig-baix 0.23517 0.12390 1.898 0.057697 . StatusS3Mig-alt 0.15668 0.12266 1.277 0.201493 StatusS4Alt -0.02735 0.13388 -0.204 0.838132 Plans_Uni2Si 3.19497 0.11850 26.962 < 2e-16 *** Estimul2Alt:StatusS2Mig-baix 0.55410 0.09469 5.852 4.87e-09 *** Estimul2Alt:StatusS3Mig-alt 1.07056 0.09649 11.095 < 2e-16 *** Estimul2Alt:StatusS4Alt 1.78588 0.11444 15.606 < 2e-16 *** Estimul2Alt:Plans_Uni2Si -2.68292 0.09867 -27.191 < 2e-16 *** StatusS2Mig-baix:Plans_Uni2Si -0.42013 0.11768 -3.570 0.000357 *** StatusS3Mig-alt:Plans_Uni2Si -0.73851 0.11382 -6.488 8.69e-11 *** StatusS4Alt:Plans_Uni2Si -1.59311 0.11527 -13.820 < 2e-16 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 3211.0014 on 15 degrees of freedom

Page 40: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-40 Curs 201 4- 1 5

Residual deviance: 1.5755 on 3 degrees of freedom AIC: 141.39 Number of Fisher Scoring iterations: 3

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 1

> anova(wis.ordre2,test="Chi") Analysis of Deviance Table Model: poisson, link: log Response: Y_ijk Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL 15 3211.0 Estimul 1 135.7 14 3075.3 2.360e-31 StatusS 3 11.9 11 3063.5 7.856e-03 Plans_Uni 1 349.5 10 2714.0 5.406e-78 Estimul:StatusS 3 836.6 7 1877.4 5.062e-181 Estimul:Plans_Uni 1 1621.9 6 255.5 0.0 StatusS:Plans_Uni 3 253.9 3 1.6 9.418e-55 > anova(wis.ordre2,test="Cp") Analysis of Deviance Table Model: poisson, link: log Response: Y_ijk Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev Cp NULL 15 3211.0 3213.001 Estimul 1 135.7 14 3075.3 3079.334 StatusS 3 11.9 11 3063.5 3073.468 Plans_Uni 1 349.5 10 2714.0 2725.954 Estimul:StatusS 3 836.6 7 1877.4 1895.382 Estimul:Plans_Uni 1 1621.9 6 255.5 275.468 StatusS:Plans_Uni 3 253.9 3 1.6 27.576

Page 41: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-41 Curs 201 4- 1 5

> save.image("G:/LIDIA/MLGz2000/MLGZ_04_1/Laboratori/wisconsin.RData")

Page 42: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-42 Curs 201 4- 1 5

TEMA 4: MODELOS LOG-LINEALES. EJEMPLO 2

4-4.2 Ejemplo 2: Nombre d’accidents en vaixells (McCullagh’89) La taula mostra dades d’un famós exemple proposat per McCullagh, on s’intenta modelar el nombre d’incidents totals amb dany dels vaixells en funció del tipus del vaixell (type), el temps total de servei (service) i el periode de construcció (construction). Hi ha observacions amb servei abans de la data de construcció i de fet, no està massa clar què vol dir el nombre d’incidents amb danys (resposta, incidents) per grup. No es disposa de dades desagregades, sinó del grup de vaixells definit pel type x construction x operation. Les dades corresponen a 5 tipus de vaixells, en 4 periodes de construcció i 2 periodes d’operació. Només es modelen les observacions amb temps de servei estrictament positius.

type factor with levels "A" to "E" for the different ship types,

construction factor with levels "1960-64", "1965-69", "1970-74", "1975-79" for the periods of construction,

operation factor with levels "1960-74", "1975-79" for the periods of operation,

service aggregate months of service,

incidents number of damage incidents.

Detalls

Dades originals de McCullagh and Nelder (1989, p. 205, Table 6.2) , també il.lustrades per Greene (2003, Ch. 21)

Page 43: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-43 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

Les observacions 7, 15, 23, 31, 39 tenen un periode d’operació anterior al periode de construcció.

No calen les observacions individuals per vaixell sinó el total per grup.

Sigui ijklY : Nb. Accidents per vaixell l-èssim del grup ijk, (i per type, j per construction, k per

operation) distribuït poissonianament amb mitjana ijkµ i independent de la resta del seu grup.

Sigui ijkY : Nb. accidents total dels vaixells del grup ijk (i per type, j per construction, k per operation)

durant tot el seu temps de servei ijkn , distribuït poissonianament amb mitjana ijkijkn μ .

Suposem una reparametrització base-line i=j=k=1, és a dir type A, construction 1960-64 i operation 1960-74. Per simplificar la notació notarem els factors A, C i D (type, construction, operation). Tantegem una proposta de resposta poissoniana.

Model additu amb els 3 factors per dades individuals de vaixell i mes:

[ ]0

2,14,...,15,...,1xloglog

111

Tijk ===

===+++===Ε

γβαγβαηβµ

ambkji

onY kjiijkijkl

Model additu amb els 3 factors per dades individuals de vaixells però agrupades per tots els anys de servei:

[ ]0

2,...,14,...,15,...,1xlogloglog

111

Tijk ===

===+++′=+==Ε

γβαγβαηβµ

ambkji

onnnY kjiijkijkijkijk

Page 44: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-44 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS

EN VAIXELLS (McCULLAGH’89)

Quin efecte principal us sembla més explicatiu? Són tots els efectes principals estadísticament significatius?

L’efecte brut més important és el que rebaixa més la deviança residual, és a dir, C – factor període de construcció.

Els efectes nets dels factors individuals, un cop els altres dos factors ja hi són al model, són estadísticament significatius?

Segons les sortides estadístiques que acompanyen l’exemple, tots els factors tenen efectes nets estadísticament significatius al llindar habitual, el que menys el periode d’operació. > data("ShipAccidents") # In AER library > df <- subset(ShipAccidents, service > 0); summary(df) type construction operation service incidents A:7 1960-64: 8 1960-74:14 Min. : 45 Min. : 0.00 B:7 1965-69:10 1975-79:20 1st Qu.: 371 1st Qu.: 1.00 C:7 1970-74:10 Median : 1095 Median : 4.00 D:7 1975-79: 6 Mean : 4811 Mean :10.47

MODEL DEVIANÇA G. LL. ( )ν ( ) 95.0.. 2 =< xPqtx νχ

Nul 1 46. 33 33 47.40 A 90. 89 29 42.56 C 73. 38 30 43.77 D 1 1 2. 89 32 46.19

A+C 49. 59 26 38.89 A+D 70. 36 28 41.34 C+D 62. 54 29 42.56

A+C+D 38.96 25 37.65 A+CD 37.20 23 35.17 C+AD 33.92 21 32.67 D+AC 1 4. 75 1 4 23. 69 AC+AD 8. 68 1 0 1 8. 31 AC+CD 1 3. 01 1 2 21 . 03 AD+CD 32.40 19 30.14

AC+AD+CD 7. 02 8 1 5. 51

Page 45: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-45 Curs 201 4- 1 5

E:6 3rd Qu.: 2223 3rd Qu.:11.75 Max. :44882 Max. :58.00

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

> anova(m2cd,m3,test="Chisq") Analysis of Deviance Table Model 1: incidents ~ construction + operation Model 2: incidents ~ type + construction + operation Resid. Df Resid. Dev Df Deviance Pr(>Chi) 1 29 62.536 2 25 38.963 4 23.573 9.725e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > anova(m2ad,m3,test="Chisq") Analysis of Deviance Table Model 1: incidents ~ type + operation Model 2: incidents ~ type + construction + operation Resid. Df Resid. Dev Df Deviance Pr(>Chi) 1 28 70.364 2 25 38.963 3 31.401 6.998e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > anova(m2ac,m3,test="Chisq") Analysis of Deviance Table Model 1: incidents ~ type + construction Model 2: incidents ~ type + construction + operation Resid. Df Resid. Dev Df Deviance Pr(>Chi) 1 26 49.591 2 25 38.963 1 10.628 0.001114 ** ---

Page 46: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-46 Curs 201 4- 1 5

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 >

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

Indiqueu si el model additiu (amb els 3 efectes principals) és estadísticament satisfactori?

• No ho és, la deviança residual són 38.96 unitats i el llindar de bondat de l’ajust està en 37,65, per tant, cal introduir alguna interacció. El model amb tots els efectes principals i la interacció del tipus de vaixell amb el periode de construcció conté 20 paràmetres i és el primer en la cadena constructive il.lustrada que satisfà el tenir una deviança residual per sota del llindar del 95% de confiança per la deviança residual.

Resulta necessari afegir dues interaccions dobles al model amb tots els efectes principals més la interacció entre el tipus de vaixell i el periode d’operació?

• No, un cop type:construction és al model, cap altre interacció doble resulta significativa.

La interpretació del factor operació en el model poissonià additiu:

• El logaritme del nb mig d’accidents mensual s’incrementa en 0.3839 unitats si el període d’operació és el 1975-79 respecte el grup de referència 1960-74 dins del mateix grup de la resta de variables.

• El nb mig d’accidents mensual s’incrementa en 100*(exp(0.3839)-1)=46.8% en el periode 1975-79 respecte el periode 1960-74 dins del mateix grup de la resta de variables.

Page 47: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-47 Curs 201 4- 1 5

Page 48: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-48 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

> anova(m3ac,m3acad,test="Chisq") Analysis of Deviance Table Model 1: incidents ~ type * construction + operation Model 2: incidents ~ type * (construction + operation) Resid. Df Resid. Dev Df Deviance Pr(>Chi) 1 14 14.7464 2 10 8.6803 4 6.0661 0.1943 > anova(m3ac,m3accd,test="Chisq") Analysis of Deviance Table Model 1: incidents ~ type * construction + operation Model 2: incidents ~ type * construction + construction * operation Resid. Df Resid. Dev Df Deviance Pr(>Chi) 1 14 14.746 2 12 13.005 2 1.7416 0.4186 > summary(m3) Call: glm(formula = incidents ~ type + construction + operation, family = poisson, data = df, offset = log(service)) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -6.40288 0.21752 -29.435 < 2e-16 *** typeB -0.54471 0.17761 -3.067 0.00216 ** typeC -0.68876 0.32903 -2.093 0.03632 * typeD -0.07431 0.29056 -0.256 0.79815 typeE 0.32053 0.23575 1.360 0.17396 construction1965-69 0.69585 0.14966 4.650 3.33e-06 *** construction1970-74 0.81746 0.16984 4.813 1.49e-06 *** construction1975-79 0.44497 0.23324 1.908 0.05642 .

Page 49: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-49 Curs 201 4- 1 5

operation1975-79 0.38386 0.11826 3.246 0.00117 **

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

(Dispersion parameter for poisson family taken to be 1) Null deviance: 146.328 on 33 degrees of freedom Residual deviance: 38.963 on 25 degrees of freedom AIC: 154.83

La predicció del nombre mig d’accidents mensual per un vaixell del grup de referència en el model additiu amb els 3 factors és de exp(-6.4029)=0.001655.

Quina és la probabilitat, segons el model additiu amb els 3 factors, de patir un accident Durant 1 any d’operació en el grup de referència?

> lambda<-12*exp(coef(m3)[1]); lambda

(Intercept)

0.01988

> # Prob 1 accident en 1 any: model poissonià

> lambda *exp(-lambda)

(Intercept)

0.0195

Page 50: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-50 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

El model triat segons el criteri d’informació d’Akaike seria el model amb tots 3 factors més l’interacció entre el type i el periode de construcció. Ara bé, hi ha un paràmetre que no pot estimar-se i de fet segons el criteri BIC, usant com a nombre d’observacions el tamany de la matriu de dades, el model resultant és l’additiu amb tots tres factors.

> step(m4) Start: AIC=156.88 incidents ~ type * operation + type * construction + construction * operation Df Deviance AIC - operation:construction 2 8.680 154.55 - type:operation 4 13.005 154.87 <none> 7.016 156.88 - type:construction 11 32.400 160.27 Step: AIC=154.55 incidents ~ type + operation + construction + type:operation + type:construction Df Deviance AIC - type:operation 4 14.746 152.61 <none> 8.680 154.55 - type:construction 11 33.918 157.78 Step: AIC=152.61

Page 51: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-51 Curs 201 4- 1 5

incidents ~ type + operation + construction + type:construction

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

Df Deviance AIC <none> 14.746 152.61 - type:construction 11 38.963 154.83 - operation 1 25.368 161.23 Call: glm(formula = incidents ~ type + operation + construction + type:construction, family = poisson, data = df, offset = log(service)) … Degrees of Freedom: 33 Total (i.e. Null); 14 Residual Null Deviance: 146.3 Residual Deviance: 14.75 AIC: 152.6 > > step(m4, k=log(34)) Start: AIC=196.57 incidents ~ type * operation + type * construction + construction * operation Df Deviance AIC - type:construction 11 32.400 183.16 - type:operation 4 13.005 188.45 - operation:construction 2 8.680 191.18 <none> 7.016 196.57

Page 52: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-52 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

Step: AIC=183.16 incidents ~ type + operation + construction + type:operation + operation:construction Df Deviance AIC - type:operation 4 37.196 173.85 - operation:construction 2 33.918 177.63 <none> 32.400 183.16 Step: AIC=173.85 incidents ~ type + operation + construction + operation:construction Df Deviance AIC - operation:construction 2 38.963 168.57 <none> 37.196 173.85 - type 4 60.797 183.35 Step: AIC=168.57 incidents ~ type + operation + construction Df Deviance AIC <none> 38.963 168.57 - operation 1 49.591 175.67 - type 4 62.536 178.03 - construction 3 70.364 189.39

Page 53: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-53 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

Call: glm(formula = incidents ~ type + operation + construction, family = poisson, data = df, offset = log(service)) … Degrees of Freedom: 33 Total (i.e. Null); 25 Residual Null Deviance: 146.3 Residual Deviance: 38.96 AIC: 154.8 >

Ara bé, hi ha sobredispersió? S’aplica un dispersiontest disponible en el package AER i tant, en la hipòtesi NB1, com NB2 s’accepta la hipòtesi d’equidispersió. >library(AER) dispersiontest(m3ac) Overdispersion test z = -1.2839, p-value = 0.9004 alternative hypothesis: true dispersion is greater than 1 sample estimates: dispersion 0.6660614 > dispersiontest(m3ac, trafo = 2) Overdispersion test z = -1.3955, p-value = 0.9186 alternative hypothesis: true alpha is greater than 0 sample estimates: alpha -0.01934909

Page 54: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-54 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

Si s’estimés el model binomial negatiu, quin seria el resultat pel paràmetre theta? Tendeix a infinit. > library(MASS) > summary(m3ac.nb) Call:glm.nb(formula = incidents ~ type + construction + operation + offset(log(service)), data = df, init.theta = 52521.06565, link = log) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -6.40286 0.21757 -29.429 < 2e-16 *** typeB -0.54471 0.17764 -3.066 0.00217 ** typeC -0.68875 0.32905 -2.093 0.03634 * typeD -0.07431 0.29058 -0.256 0.79816 typeE 0.32057 0.23578 1.360 0.17395 construction1965-69 0.69584 0.14971 4.648 3.35e-06 *** construction1970-74 0.81743 0.16988 4.812 1.50e-06 *** construction1975-79 0.44493 0.23328 1.907 0.05649 . operation1975-79 0.38387 0.11830 3.245 0.00117 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Negative Binomial(52521.07) family taken to be 1) Null deviance: 146.247 on 33 degrees of freedom Residual deviance: 38.958 on 25 degrees of freedom AIC: 156.83 Number of Fisher Scoring iterations: 1 Theta: 52521 Std. Err.: 565839 Warning while fitting theta: iteration limit reached 2 x log-likelihood: -136.832

Page 55: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-55 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCULLAGH’89)

> summary(m3.nb1) Call: glm(formula = incidents ~ type + construction + operation, family = neg.bin(52521.07), data = df, offset = log(service)) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -6.40286 0.28347 -22.588 < 2e-16 *** typeB -0.54471 0.23144 -2.354 0.02676 * typeC -0.68875 0.42871 -1.607 0.12071 typeD -0.07431 0.37859 -0.196 0.84598 typeE 0.32057 0.30718 1.044 0.30668 construction1965-69 0.69584 0.19505 3.567 0.00149 ** construction1970-74 0.81743 0.22134 3.693 0.00108 ** construction1975-79 0.44493 0.30394 1.464 0.15569 operation1975-79 0.38387 0.15413 2.491 0.01976 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Negative Binomial family taken to be 1.697477) Null deviance: 146.247 on 33 degrees of freedom Residual deviance: 38.958 on 25 degrees of freedom AIC: 154.83

Page 56: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-56 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCU LLAGH’89)

> influenceIndexPlot(m3.nb1,label=row.names(df),vars=c("Cook", "hat"), id.n=5)

> residualPlots(m3.nb1,label=row.names(df))

A B C D E

-10

12

3

type

Pea

rson

resi

dual

s

8

21

30

1960-64 1970-74

-10

12

3

construction

Pea

rson

resi

dual

s36

21

1960-74 1975-79

-10

12

3

operation

Pea

rson

resi

dual

s 21

-2 -1 0 1 2 3 4

-10

12

3

Linear Predictor

Pea

rson

resi

dual

s

Page 57: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-57 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCU LLAGH’89)

> par(mfrow=c(1,2)) > llista<-Boxplot(rstudent(m3.nb1),label=row.names(df),main="RStudent") > df[llista,] type construction operation service incidents 21 C 1970-74 1960-74 783 6 > ShipAccidents[llista,] type construction operation service incidents 21 C 1970-74 1960-74 783 6 > llista<-Boxplot(cooks.distance(m3.nb1),label=row.names(df),main="Cooks") > df[llista,] type construction operation service incidents 9 B 1960-64 1960-74 44882 39 21 C 1970-74 1960-74 783 6 22 C 1970-74 1975-79 1948 2 30 D 1970-74 1975-79 1208 11 32 D 1975-79 1975-79 2051 4 38 E 1970-74 1975-79 2161 12 >

Page 58: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-58 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCU LLAGH’89)

> outlierTest(m3.nb1) No Studentized residuals with Bonferonni p < 0.05 Largest |rstudent|: rstudent unadjusted p-value Bonferonni p 21 2.837995 0.0045398 0.15435 > marginalModelPlots(m3.nb1,labels=row.names(df),id.method=abs(cooks.distance(m3.nb1)), id.n=5)

Page 59: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-59 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCU LLAGH’89)

> matplot(dfbetas(m3.nb1),type="l") > lines(sqrt(cooks.distance(m3.nb1)),lwd=3) > #lines(-sqrt(cooks.distance(m3.nb1)),lwd=3) > abline(h=2/sqrt(dim(df)[1]),lty=2) > abline(h=-2/sqrt(dim(df)[1]),lty=2) > legend(locator(n=1),legend=c(names(as.data.frame(dfbetas(m3.nb1))),"Cooks D"),col=c(1:9,1),lty=c(rep(3,9),1),lwd=c(rep(1,9),3)) >

Page 60: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-60 Curs 201 4- 1 5

EJEMPLO 2: NOMBRE D’ACCIDENTS EN VAIXELLS (McCU LLAGH’89)

library(effects) par(mfrow=c(1,3)) plot(allEffects(m3.nb1),ask=FALSE)

Page 61: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-61 Curs 201 4- 1 5

EJEMPLO 3: POLISSES D’AUTOMÒBILS

4-4.3 Ejemplo 5: Assegurances d’automòbils-Classificació del risc de sinistre (Ll.Bermúdez, M.Denuit, J.Dhaene) Dades extretes de l’article ‘Exponential Bonus-Malus Systems Integrating a priori Risk Classification’ (2000), val a dir que el primer autor és alumne de la LCTE-UPC i professor de la UB.

El disseny de l’estructura de tarifes de les companyies asseguradores és un dels terrenys en que intervenen els MLGz per tal de fer una classificació a priori del risc de sinistre dels assegurats en funció de l’edat, gènere, ocupació, ús del vehicle, color del vehicle, etc. En canvi no es tenen en compta el quilometratge anual o els reflexes del conductor entre d’altres, però si el nombre de sinistres anteriors reportats pels conductors en la determinació de la tarifa (a posteriori): sistema de Bonus-Malus. Per tal de ser competitives les companyies d’assegurances han de filar cada cop més prim en la segmentació de la població atenen al risc potencial estimat de sinistres, tot reduint/adjustant les seves tarifes.

En l’article es proposa un exemple d’una companyia espanyola on el risc de patir un sinistre es modela depenent del Factor Edat (<36, 36 a 49, >49) i del Factor Potència, on la potència del vehicle assegurat s’ha categoritzat en 4 nivells: <54, 54 a 75, 76 a 118 i >118. Les freqüències observades promig de sinistres per cada grup es mostra a la taula i l’arxiu el podeu trobar resseguint el link d’arxius de dades de la pàgina Web de MLGz.

Page 62: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-62 Curs 201 4- 1 5

TEMA 6: MODELOS LOG-LINEALES. EJEMPLO 5.

F_Edat F_Potencia m_k y_k mitjana variança

<36 <54 3945 736 0,1866 0,2270

36-49 <54 9023 1418 0,1751 0,1828

>50 <54 11758 1509 0,1283 0,1501

<36 54-75 11947 3208 0,2685 0,3635

36-49 54-75 25719 5862 0,2279 0,2946

>50 54-75 27287 5420 0,1986 0,2451

<36 76-118 8447 2527 0,2992 0,4322

36-49 76-118 19609 4953 0,2526 0,3288

>50 76-118 18688 4459 0,2386 0,3200

<36 >119 1486 478 0,3217 0,4376

36-49 >119 5762 1640 0,2846 0,4214

> summary(bm.ordre1) Call: glm(formula = y ~ offset(bm$logn) + edat + pot, family = poisson(link = log)) Deviance Residuals: Min 1Q Median 3Q Max -2.0056 -0.8970 0.1153 0.7336 2.4265

mitjana

vari

ança

0,350,300,250,200,150,10

0,5

0,4

0,3

0,2

0,1

S 0,0179788R-Sq 97,1%R-Sq(adj) 96,8%

Fitted Line Plotvariança = - 0,09263 + 1,722 mitjana

Page 63: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-63 Curs 201 4- 1 5

Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.72185 0.01980 -86.97 <2e-16 *** edate2 -0.16338 0.01472 -11.10 <2e-16 *** edate3 -0.28004 0.01492 -18.77 <2e-16 *** potp2 0.39874 0.01850 21.55 <2e-16 *** potp3 0.53238 0.01891 28.16 <2e-16 *** potp4 0.61495 0.02355 26.11 <2e-16 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 1413.850 on 11 degrees of freedom Residual deviance: 18.604 on 6 degrees of freedom AIC: 144.78 Number of Fisher Scoring iterations: 3 > summary(bmquasi.ordre1) Call: glm(formula = y ~ offset(bm$logn) + edat + pot, family = quasi(link = log, variance = "mu")) Deviance Residuals: Min 1Q Median 3Q Max -2.0056 -0.8970 0.1153 0.7336 2.4265 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.72185 0.03488 -49.368 4.63e-09 *** edate2 -0.16338 0.02593 -6.301 0.000745 *** edate3 -0.28004 0.02628 -10.654 4.03e-05 *** potp2 0.39874 0.03260 12.233 1.82e-05 *** potp3 0.53238 0.03330 15.985 3.81e-06 *** potp4 0.61495 0.04149 14.821 5.93e-06 *** ---

Page 64: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-64 Curs 201 4- 1 5

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 (Dispersion parameter for quasi family taken to be 3.103063) Null deviance: 1413.850 on 11 degrees of freedom Residual deviance: 18.604 on 6 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 3 > anova(bm.ordre1,test="Chi") Analysis of Deviance Table Model: poisson, link: log Response: y Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL 11 1413.85 edat 2 374.45 9 1039.40 4.888e-82 pot 3 1020.80 6 18.60 5.542e-221 > anova(bmquasi.ordre1,test="Chi") Analysis of Deviance Table Model: quasi, link: log Response: y Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL 11 1413.85 edat 2 374.45 9 1039.40 6.260e-27 pot 3 1020.80 6 18.60 5.348e-71 >

Contrastes basados en Chi cuadrado, considerando el parámetro de dispersión 1 bajo la hipótesis Poisson

Page 65: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-65 Curs 201 4- 1 5

> bm.nb1<-glm.nb(formula = y ~ offset(bm$logn) + edat + pot) > summary(bm.nb1) Call: glm.nb(formula = y ~ offset(bm$logn) + edat + pot, init.theta = 4559.012502, link = log) Deviance Residuals: Min 1Q Median 3Q Max -1.71044 -0.59171 0.07991 0.56789 1.86307 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.71973 0.02305 -74.612 <2e-16 *** edate2 -0.16121 0.01896 -8.501 <2e-16 *** edate3 -0.28277 0.01909 -14.810 <2e-16 *** potp2 0.39721 0.02229 17.818 <2e-16 *** potp3 0.53030 0.02263 23.430 <2e-16 *** potp4 0.61211 0.02680 22.844 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Negative Binomial(4559.012) family taken to be 1) Null deviance: 948.577 on 11 degrees of freedom Residual deviance: 11.423 on 6 degrees of freedom AIC: 144.99 Number of Fisher Scoring iterations: 1 Theta: 4559 Std. Err.: 4892 2 x log-likelihood: -130.986 > > bm.gnb1<-glm(formula = y ~ offset(bm$logn) + edat + pot, family=neg.bin(4559.013), data = bm ) > summary(bm.gnb1)

Page 66: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-66 Curs 201 4- 1 5

Call: glm(formula = y ~ offset(bm$logn) + edat + pot, family = neg.bin(4559.013), data = bm) Deviance Residuals: Min 1Q Median 3Q Max -1.71044 -0.59171 0.07991 0.56789 1.86307 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.71973 0.03182 -54.051 2.69e-09 *** edate2 -0.16121 0.02618 -6.158 0.000841 *** edate3 -0.28277 0.02636 -10.729 3.87e-05 *** potp2 0.39721 0.03077 12.908 1.33e-05 *** potp3 0.53030 0.03124 16.973 2.67e-06 *** potp4 0.61211 0.03699 16.548 3.10e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Negative Binomial family taken to be 1.905539) Null deviance: 948.577 on 11 degrees of freedom Residual deviance: 11.423 on 6 degrees of freedom AIC: 142.99 Number of Fisher Scoring iterations: 3 >> anova(bm.gnb1,test="F") Analysis of Deviance Table Model: Negative Binomial, link: log Response: y Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev F Pr(>F) NULL 11 948.58

Contrastes basados en Fisher, considerando el parámetro de dispersión

Page 67: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-67 Curs 201 4- 1 5

edat 2 225.46 9 723.12 59.159 0.0001124 *** pot 3 711.69 6 11.42 124.496 8.595e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 >> summary(bm.ga1) Call: glm(formula = y ~ offset(bm$logn) + edat + pot, family = Gamma(link = log)) Deviance Residuals: Min 1Q Median 3Q Max -0.051518 -0.018641 0.002703 0.013870 0.046347 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.71132 0.02604 -65.726 8.34e-10 *** edate2 -0.15682 0.02604 -6.023 0.000945 *** edate3 -0.28981 0.02604 -11.130 3.14e-05 *** potp2 0.39024 0.03007 12.980 1.29e-05 *** potp3 0.52217 0.03007 17.368 2.34e-06 *** potp4 0.59897 0.03007 19.922 1.04e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Gamma family taken to be 0.001355877) Null deviance: 0.7606494 on 11 degrees of freedom Residual deviance: 0.0081576 on 6 degrees of freedom AIC: 144.76 Number of Fisher Scoring iterations: 3 > alfa<-1/0.001355877;alfa # Paràmetre de forma de la gamma [1] 737.53 > anova(bm.ga1,test="F") Analysis of Deviance Table Model: Gamma, link: log

Contrastes basados en Fisher, considerando el parámetro de dispersión

Page 68: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-68 Curs 201 4- 1 5

Response: y Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev F Pr(>F) NULL 11 0.76065 edat 2 0.15690 9 0.60375 57.86 0.0001198 *** pot 3 0.59559 6 0.00816 146.42 5.325e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > > summary(bm.lg1lm) Call: lm(formula = log(y) ~ offset(bm$logn) + edat + pot) Residuals: Min 1Q Median 3Q Max -0.051019 -0.018356 0.002574 0.013925 0.046824 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.71188 0.02609 -65.614 8.43e-10 *** edate2 -0.15676 0.02609 -6.008 0.000958 *** edate3 -0.29019 0.02609 -11.122 3.15e-05 *** potp2 0.39090 0.03013 12.975 1.29e-05 *** potp3 0.52229 0.03013 17.337 2.36e-06 *** potp4 0.59952 0.03013 19.900 1.04e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.0369 on 6 degrees of freedom Multiple R-squared: 0.9989, Adjusted R-squared: 0.9979 F-statistic: 1060 on 5 and 6 DF, p-value: 9.474e-09 > summary(bm.lg1glm) Call:

Page 69: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-69 Curs 201 4- 1 5

glm(formula = log(y) ~ offset(bm$logn) + edat + pot, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -0.051019 -0.018356 0.002574 0.013925 0.046824 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.71188 0.02609 -65.614 8.43e-10 *** edate2 -0.15676 0.02609 -6.008 0.000958 *** edate3 -0.29019 0.02609 -11.122 3.15e-05 *** potp2 0.39090 0.03013 12.975 1.29e-05 *** potp3 0.52229 0.03013 17.337 2.36e-06 *** potp4 0.59952 0.03013 19.900 1.04e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for gaussian family taken to be 0.001361379) Null deviance: 0.8157702 on 11 degrees of freedom Residual deviance: 0.0081683 on 6 degrees of freedom AIC: -39.454 Number of Fisher Scoring iterations: 2 > 0.001361379 [1] 0.001361379 > 0.0369^2 [1] 0.00136161 > anova(bm.lg1lm) Analysis of Variance Table Response: log(y) Df Sum Sq Mean Sq F value Pr(>F) edat 2 0.16878 0.084389 61.988 9.837e-05 *** pot 3 0.63882 0.212941 156.416 4.381e-06 *** Residuals 6 0.00817 0.001361 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Page 70: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

GRAU D’ESTADÍSTICA – UB- UPC MLGz

Lídia Montero & Josep Anton Sánchez© pàg.4-70 Curs 201 4- 1 5

> anova(bm.lg1glm,test="F") Analysis of Deviance Table Model: gaussian, link: identity Response: log(y) Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev F Pr(>F) NULL 11 0.81577 edat 2 0.16878 9 0.64699 61.988 9.837e-05 *** pot 3 0.63882 6 0.00817 156.416 4.381e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 >

Contrastes basados en Fisher, considerando el parámetro de dispersión

Page 71: lmontero/lmm_tm/Tr4Qua_mlg_v2.pdfGRAU D’ESTADÍSTICA – UB- UPC MLGz Lídia Montero & Josep . A. nton Sánchez© pàg.4-2 . Curs 2014-15. TAULA DE CONTINGUTS. 4-1. INTRODUCCIÓN

FME Model Lineal Generalitzat

Prof. Lídia Montero © Pàg. 6- 71 Curs 2. 01 1 - 2. 01 2

EJEMPLO 3: POLISSES D’AUTOMÒBILS

La sobredispersión implica que la devianza escala tiene que usar una estimación de φ y la diferència de devianzas escaladas deja de ser asintóticamente una shi cuadrado: la comparación de modelos anidados tiene que hacerse mediante el estadístico de referencia asintótica de Fisher, no la Shi cuadrado:

CAACA pnppACA FppCADAD

++ −−+ ≈−+−

φ̂)()(')('