34
APPUNTI DI STATISTICA DESCRITTIVA 1 Con applicazioni nell’ambiente statistico R Versione preliminare Vittorio Colagrande …on fait la science avec des faits comme une maison avec des pierres; mais une accumulation de faits n'est pas plus une science qu'un tas de pierres n'est une maison. La Science et l'hypothèse - J.H. Poincaré La Statistica ha come scopo la conoscenza quantitativa di fenomeni collettivi. In un primo approccio, nell’analisi statistica si può evidenziare una funzione descrittiva, in quanto vengono proposti metodi per ridurre la molteplicità dei dati a poche misure e, in sostanza, sintetizzare le informazioni in modo da renderle più facilmente utilizzabili. Fondamentale risulta, poi, la funzione inferenziale, che si sviluppa in metodologie che permettono di generalizzare le informazioni, ricavando proprietà e leggi generali sulla base di dati rilevati su una parte ristretta della popolazione oggetto di studio. Ma più propriamente, l’obiettivo scientifico si esplicita nella individuazione ed interpretazione di strutture e relazioni esistenti nei dati (“far parlare” i dati) e nella costruzione, attraverso i dati, di modelli interpretativi di fenomeni. 1. Oggetto dell’analisi statistica e caratteri Si tratta di analizzare un fenomeno collettivo, fenomeno che si conosce tramite la sintesi di osservazioni di fatti “semplici” (es. natalità, mortalità, reddito nazionale, statura di un insieme di individui, ecc.). Ogni elemento su cui si osserva il fenomeno in esame è detta unità statistica (u.s.) e l'insieme delle u.s. oggetto dell'osservazione costituisce il collettivo statistico. L’unità di rilevazione a volte può non coincidere con l’unità statistica che forma il collettivo, ad esempio nei censimenti demografici le unità statistiche sono gli individui mentre le unità di rilevazione sono le famiglie. La definizione corretta dell’unità statistica e di quella di rilevazione è condizione indispensabile per l’esattezza di una ricerca: l’inclusione o esclusione errata di numerose unità può portare a conclusioni fuorvianti. La popolazione è un collettivo statistico. Un campione è un sottoinsieme della popolazione di riferimento, opportunamente definito in funzione degli obiettivi dell’indagine. Il fenomeno collettivo viene studiato mediante l’osservazione o la misurazione di una o più caratteristiche delle u.s. Ogni caratteristica è detta carattere o variabile statistica ed il “modo” in cui il carattere si manifesta si chiama modalità. Esempio 1 . Il fenomeno collettivo è la natalità; il collettivo statistico è quello dei nati (ad es. solo i legittimi, solo gli illegittimi, o il totale); l’unità statistica è il singolo nato. Possibili caratteri da analizzare sono: il sesso, la statura, la regione di nascita, l’ordine di nascita, il peso, l’età della madre al parto, la vitalità (nati vivi o nati morti). Le modalità del sesso sono maschio e femmina; quelle della statura 50 cm, 49 cm, 52 cm,...; quelle della regione Abruzzo, Calabria, Lazio, Piemonte, Umbria, …; quelle, infine, dell’ordine di nascita primogenito, secondogenito, terzogenito,… . I caratteri (le variabili statistiche) hanno diversa natura. Alcuni si esprimono con sostantivi, aggettivi, ..., sono i caratteri qualitativi (sesso, ordine di nascita, regione); altri con numeri e sono i caratteri quantitativi (statura, peso, numero componenti la famiglia). La Tab. 1 riporta una classificazione dei caratteri statistici. 1

APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

APPUNTI DI STATISTICA DESCRITTIVA 1Con applicazioni nell’ambiente statistico R

Versione preliminareVittorio Colagrande

…on fait la science avec des faits comme une maison avec des pierres; mais une accumulation de faits n'est pas plus une science qu'un tas de pierres n'est une maison.

La Science et l'hypothèse - J.H. Poincaré

La Statistica ha come scopo la conoscenza quantitativa di fenomeni collettivi. In un primo approccio, nell’analisi statistica si può evidenziare una funzione descrittiva, in quanto vengono proposti metodi per ridurre la molteplicità dei dati a poche misure e, in sostanza, sintetizzare le informazioni in modo da renderle più facilmente utilizzabili. Fondamentale risulta, poi, la funzione inferenziale, che si sviluppa in metodologie che permettono di generalizzare le informazioni, ricavando proprietà e leggi generali sulla base di dati rilevati su una parte ristretta della popolazione oggetto di studio. Ma più propriamente, l’obiettivo scientifico si esplicita nella individuazione ed interpretazione di strutture e relazioni esistenti nei dati (“far parlare” i dati) e nella costruzione, attraverso i dati, di modelli interpretativi di fenomeni.

1. Oggetto dell’analisi statistica e caratteri

Si tratta di analizzare un fenomeno collettivo, fenomeno che si conosce tramite la sintesi di osservazioni di fatti “semplici” (es. natalità, mortalità, reddito nazionale, statura di un insieme di individui, ecc.).

Ogni elemento su cui si osserva il fenomeno in esame è detta unità statistica (u.s.) e l'insieme delle u.s. oggetto dell'osservazione costituisce il collettivo statistico. L’unità di rilevazione a volte può non coincidere con l’unità statistica che forma il collettivo, ad esempio nei censimenti demografici le unità statistiche sono gli individui mentre le unità di rilevazione sono le famiglie. La definizione corretta dell’unità statistica e di quella di rilevazione è condizione indispensabile per l’esattezza di una ricerca: l’inclusione o esclusione errata di numerose unità può portare a conclusioni fuorvianti.

La popolazione è un collettivo statistico. Un campione è un sottoinsieme della popolazione di riferimento, opportunamente definito in funzione degli obiettivi dell’indagine.

Il fenomeno collettivo viene studiato mediante l’osservazione o la misurazione di una o più caratteristiche delle u.s. Ogni caratteristica è detta carattere o variabile statistica ed il “modo” in cui il carattere si manifesta si chiama modalità.

Esempio 1. Il fenomeno collettivo è la natalità; il collettivo statistico è quello dei nati (ad es. solo i legittimi, solo gli illegittimi, o il totale); l’unità statistica è il singolo nato. Possibili caratteri da analizzare sono: il sesso, la statura, la regione di nascita, l’ordine di nascita, il peso, l’età della madre al parto, la vitalità (nati vivi o nati morti). Le modalità del sesso sono maschio e femmina; quelle della statura 50 cm, 49 cm, 52 cm,...; quelle della regione Abruzzo, Calabria, Lazio, Piemonte, Umbria, …; quelle, infine, dell’ordine di nascita primogenito, secondogenito, terzogenito,… .

I caratteri (le variabili statistiche) hanno diversa natura. Alcuni si esprimono con sostantivi, aggettivi, ..., sono i caratteri qualitativi (sesso, ordine di nascita, regione); altri con numeri e sono i caratteri quantitativi (statura, peso, numero componenti la famiglia). La Tab. 1 riporta una classificazione dei caratteri statistici.

1

Page 2: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Tab. 1 - Classificazione dei caratteri statistici

Carattere Tipologia Esempi

QUALITATIVO

NOMINALEDate due qualsiasi modalità, è possibile solo affermare se esse sono uguali o diverse.

ORDINALE O PER RANGHIEsiste un criterio predeterminato per ordinare le modalità del carattere.

• sesso; • professione;• diagnosi medica.

• ordine di nascita;• giorni della settimana;• indice severità di una malattia.

QUANTITATIVO

DISCRETOL’insieme delle modalità ammissibili può essere messo in “corrispondenza biunivoca” con un sottoinsieme dei numeri naturali.

CONTINUOL’insieme delle modalità può essere messo in “corrispondenza biunivoca” con un sottoinsieme dei numeri reali, in altri termini la variabile può assumere qualsiasi valore all’interno di intervalli di numeri reali.

• numero componenti famiglia;• numero di figli;• numero di denti;• numero colonie batteriche in una piastra.

• statura;• peso;• glicemia;• pressione sistolica.

Stabilito il fenomeno collettivo da studiare occorre individuare il collettivo su cui studiarlo ed i

caratteri da rilevare e, nel caso di indagine campionaria, un campione “significativo” di unità statistiche.

Esempio 2. Su un campione di pazienti si rilevino le caratteristiche: sesso, età, altezza, peso, pressione sistolica (PAS), tasso glicemico. Di seguito sono riportate 4 “schede” di rilevazione:

nome: Rossi Amerigo nome: Bianchi Paolo nome: Valenziani Maura nome: Alinori Alfonso

sesso: maschio (M) sesso: maschio (M) sesso: femmina (F) sesso: maschio (M)

età: 32 anni età: 47 anni età: 45 anni età: 27 anni

altezza: 172 cm. altezza: 170 cm. altezza: 168 cm. altezza: 183 cm.

peso: 64 Kg. peso: 80 Kg. peso: 51 Kg. peso: 85 Kg.

PAS: 140 mm Hg. PAS: 148 mm Hg. PAS: 125 mm Hg. PAS: 138 mm Hg.

glicemia: 190 mg/100cc glicemia: 180 mg/100cc glicemia: 150 mg/100cc glicemia: 170 mg/100cc

Le informazioni raccolte per essere "trattate" da un computer vanno organizzate in strutture chiamate comunemente Base di Dati (Data Base o File Dati). Esse, comunemente, vengono disposte per riga, cioè su ogni riga, consecutivamente, vengono elencati i dati relativi ad un soggetto (Tab. 2).

2

Page 3: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Tab. 2 - Organizzazione di informazioni

N. NOME SESSO ETÀ ALTEZZA PESO PAS GLICEMIA1 Rossi Amerigo M 32 172 64 140 1902 Bianchi Paolo M 47 170 80 148 1803 Valenziani Maura F 45 168 51 125 1504 Alinori Alfonso M 27 183 85 130 1705 … … … … … … …

Le unità archiviate (righe) si chiamano records e le informazioni che costituiscono i records si chiamano items e lo spazio occupato da ciascuno di essi si dice campo.

Ogni colonna contiene la sequenza di tutti i dati relativi ad una caratteristica esaminata nel campione.

L'insieme dei record costituisce il file (file dati).Le operazioni che, in genere, un Base di Dati permette di fare sono:

• inserimento di nuovi records;• ricerca di dati già introdotti con un sistema di interrogazioni;• correzione o aggiornamento dei records; • riordinamento per chiavi dei records;• stampa dei dati organizzati in cartelle o tabulati; • semplici o più complesse statistiche (spesso descrittive) sui dati.

Esistono dei pacchetti software per la gestione dei dati: • DBMS (Data Base Management System).

Questi possono «esportare» i dati verso altri software che permettono una elaborazione più evoluta delle informazioni.

Si possono utilizzare allora dei • fogli elettronici (Excel, ecc.) o dei • packages statistici (R, S, SPSS, SAS, ecc.).

Fatta le rilevazione con lo spoglio dei dati (operazione che determina le modalità del carattere in ciascuna unità statistica) si perviene alla distribuzione del collettivo secondo le modalità del carattere o dei caratteri studiati.

Se la distribuzione è relativa ad un solo carattere si dice distribuzione semplice, se a due caratteri è una distribuzione doppia, se, invece, riguarda più caratteri si parla di distribuzione multipla.

2. L’ambiente statistico

R è un linguaggio e, più propriamente, un ambiente informatico indirizzato ad analisi statistiche. È nato da un progetto di R. Ihaka e R.Gentleman del Dipartimento di Statistica dell’Università di Auckland (Australia) e portato avanti con la collaborazione internazionale di diversi studiosi. È un sistema Open Source e la metodologia di sviluppo è simile a quella del sistema operativo Linux.

R costituisce in realtà un dialetto del linguaggio S, linguaggio sviluppato da John Chambers e colleghi preso i Bell Laboratories (USA) e, pur esistendo alcune importanti differenze tra S ed R,

3

Page 4: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

molti programmi e librerie scritti per il primo possono essere eseguiti inalterati o sono stati resi disponibili anche per il secondo.

R è un package di alto livello che fornisce un’ampia gamma di metodi per l’analisi statistica dei dati e la rappresentazione grafica di risultati. Nello specifico, esso va pensato come un ambiente informatico all'interno del quale sono implementate e integrate tecniche statistiche. Include efficaci funzioni per l’immagazzinamento e la manipolazione di dati, funzioni per il calcolo con array e matrici, una grande collezione integrata e coerente di utilità per l’analisi dei dati (statistiche descrittive, modelli lineari e non lineari, modelli lineari generalizzati, inferenza statistica parametrica e non parametrica, analisi di serie storiche, metodi di analisi multivariata, ecc.), un ampio ventaglio di strumenti grafici particolarmente flessibili, un linguaggio di programmazione semplice ed efficace che include strutture di alternativa, cicli, funzioni ricorsive e per l’input ed output.

Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General Public License della Free Software Foundation. Le più recenti versioni si possono ottenere all’indirizzo web: www.r-project.org.

Il pacchetto base viene facilmente integrato con packages reperibili liberamente in Internet presso i siti CRAN: http://cran.r-project.org/src/contrib/PACKAGES.html; effettivamente metodi nei più svariati ambiti teorici e applicativi vengono continuamente posti a disposizione dalla comunità di studiosi che contribuiscono al progetto.

Si ritiene l’ambiente R particolarmente adatto per la ricerca in quanto, come detto, dispone di un considerevole numero di procedure standard, ma soprattutto perchè permette ad ogni utente di implementare tecniche e metodi in base a proprie esigenze di analisi.

Ma esso costituisce anche un valido strumento didattico per approfondire e chiarire argomenti di Statistica e Calcolo delle Probabilità per le stesse ragioni appena esposte e, cosa degna di nota, per la sua “parsimonia”: le analisi ed elaborazioni effettuate sono quelle espressamente richieste e presuppongono a monte una riflessione attenta e non meccanica da parte di chi analizza i dati.

Può spaventare il fatto che R funziona su riga di comando (in realtà esistono alcuni packages, quale ad esempio Rcmdr: http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/index.html, che permettono di effettuare alcune analisi statistiche attraverso interfaccia grafica), ma questo è senz’altro un aspetto positivo perché evita di produrre, con tentativi spesso “casuali”, sovrabbondanti risultati di analisi.

Nel seguito di questi Appunti alcune tecniche statistiche saranno implementate attraverso codici R che il lettore può sperimentare direttamente su computer dopo aver scaricato ed installato il pacchetto. Ma per quanto attiene l’uso dell’ambiente si rimanda necessariamente alle documentazioni (anche in italiano) reperibili su uno dei siti CRAN (ad es. http://rm.mirror.garr.it/mirrors/CRAN/) e sul sito: http://www.r-project.org/doc/bib/R-publications.html.

Si segnala anche l’ottimo testo: S.M. Iacus, G. Masarotto (2003), Laboratorio di Statistica con R, McGraw-Hill, Milano.

3. Distribuzioni semplici di frequenze

I dati rilevati spesso sono di non immediata lettura. La prima esigenza è dunque quella di rendere i dati più facilmente interpretabili. Perciò si procede ad una sistematizzazione delle informazioni raccolte, cioè alla loro tabulazione. Per ogni variabile si calcolano le frequenze assolute (f.a.), che rappresentano il numero di u.s. che presentano una stessa modalità del carattere.

4

Page 5: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Esempio 3. Alcune distribuzioni semplici di frequenze.

Sesso f.a. Età f.a. Altezza f.a.M (1) 2 17 3 150 ─| 160 2F (2) 10 18 6 160 ─| 170 10Tot 12 19 12 170 ─| 180 15

20 1 180 ─| 190 7Tot 22 > 190 1

Tot 35Si osservi che l’ultima distribuzione si riferisce all’altezza suddivisa in classi, il simbolo ─|

evidenzia il fatto che il primo estremo non appartiene alla classe mentre il secondo è incluso. Il simbolo |─ esprime, invece, l’appartenenza ad un classe del primo estremo e la non appartenenza del secondo.

Nel linguaggio R i dati possono essere memorizzati in un vettore (come per gli esempi seguenti) o anche in un data.frame e, successivamente si ricavano le distribuzioni di frequenza; per i tre casi appena visti si ha (il simbolo > indica il prompt di R):

> sesso=c(1,1,2,2,2,2,2,2,2,2,+ 2,2)> d_sesso=table(sesso)> d_sesso sesso 1 2 2 10

>età=c(rep(17,3),rep(18,6),rep(19,12),+ 20)> d_età=table(età)> d_età età 17 18 19 20 3 6 12 1

> alt=c(2,10,15,7,1)> names(alt)=c("150-|160","160 |170",+ "170-|180","180-|190",">190")> alt150-|160 160-|170 170-|180 180-|190 >190 2 10 15 7 1

Spesso ci si trova nella necessità di dover fare confronti; ad esempio se si vuole stabilire in quale, fra i seguenti gruppi di persone, ci siano più donne. Esempio 4. Distribuzione doppia di frequenze assolute

Sesso Gruppo A Gruppo Bf. a. f. a. Tot

M 12 7 19F 16 10 26

Tot 28 17 45

Ci si accorge che il confronto non può essere effettuato solo con le f.a. in quanto esse si riferiscono a collettivi di numerosità diversa. Se vogliamo confrontare le frequenze le dobbiamo “depurare” dalla numerosità del collettivo; ciò lo si fa dividendo le f.a. per la numerosità (N) della popolazione e moltiplicando per 100 (cioè facendo riferimento ad una ipotetica popolazione di 100 unità). Le frequenze così calcolate sono le frequenze percentuali (f.%)

Esempio 4Bis. Distribuzione doppia di frequenze percentuali

Sesso Gruppo A Gruppo Bf.a. f.% f.a. f.%

M 12 42.9 7 41.2F 16 57.1 10 58.8

5

Page 6: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Tot 28 100 17 100In R la tabella precedente può essere memorizzata in un data.frame come mostrato di seguito:

per le frequenze assolute:

> gruppo=c(rep("A",12),rep("B",7),rep("A",16),rep("B",10))> sesso=c(rep(1,19),rep(2,26))> dati=data.frame(sesso,gruppo)> da=table(dati) gruppo sesso A B 1 12 7 2 16 10

per le frequenze percentuali per gruppo:(sempre utilizzando il data.frame da)

> da_perc=round(prop.table(da,2)*100,1)> da_perc gruppo sesso A B 1 42.9 41.2 2 57.1 58.8

In molti casi oltre alle f.a. e f.% è utile calcolare le frequenze cumulate assolute e %.

Esempio 5. Distribuzione di frequenze assolute, relative e cumulate

età f.a. f.% f.a.cum f%cum17 3 13.6 3 13.618 6 27.3 9 40.919 12 54.6 21 95.520 1 4.5 22 100Tot 22 100

In R, riprendendo il vettore età definito nell’es. 3, risulta:> età_perc=round(d_età/length(età)*100,1)> età_perc età 17 18 19 20 13.6 27.3 54.5 4.5 > età_cum=cumsum(d_età)> età_cum 17 18 19 20 3 9 21 22> età_cum_perc=cumsum(età_perc)> età_cum_perc 17 18 19 20 13.6 40.9 95.4 99.9

Le frequenze cumulate indicano quante unità statistiche si presentano fino a quella modalità presa in esame. Va osservato che ha senso calcolare le frequenze cumulate solamente per le variabili quantitative o qualitative ordinali.

4. I grafici statistici

Scopo dei grafici è quello di rendere l’informazione contenuta in un insieme10,”140 di dati:- di più facile comprensione;- di più diretta lettura;pertanto un grafico deve fornire al lettore una informazione sintetica e facile da interpretarsi.

Una rappresentazione grafica diventa indispensabile nel caso di indagini di elevate dimensioni poiché lunghe serie di dati non sono sempre idonee alla comprensione di fenomeni.

Si presenteranno ora alcuni tipi di grafici utilizzati per visualizzare i dati.Diagrammi cartesiani: grafici che hanno come riferimento un sistema di assi cartesiani con

asse orizzontale x (ascissa) ed asse verticale y (ordinata). Ogni punto viene identificato da una coppia ordinata di valori (x, y ).

6

Page 7: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Diagrammi a bastoncino: indicati per variabili qualitative, evidenziano con la lunghezza del segmento le frequenze delle modalità della variabile.

Ortogrammi: usati più frequentemente dei precedenti e si ottengono sostituendo ai bastoncini delle barre.

Esempio 6. Accesso ad un pronto soccorso per cause.

Interventi di Pronto Soccorso Pediatrico per causeCause caduta ustione ferita avvelen altroFrequ. 1600 250 200 150 800

Comandi in R:> prsocc=c(1600,250,200,150,800)>names(prsocc)=c("caduta","ustione","ferita",“avvelen","altro")> prsocc caduta ustione ferita avvelen altro 1600 250 200 150 800> barplot(prsocc,yaxp=c(0,1800,18),col=”red”,xlab="cause”,+ ylab="frequenza assoluta”, main="Interventi Pronto Soccorso + Pediatrico") > box()

caduta ustione f erita av v elen altro

Interventi Pronto Soccorso Pediatrico

cause

frequenza a

ssolu

ta

02

00

40

06

00

80

01

00

01

20

01

40

01

60

0

Istogrammi: indicati per rappresentare distribuzioni in classi (variabili quantitative continue). Costituiti da una serie di rettangoli contigui ognuno in rappresentanza di una classe e con area proporzionale alla rispettiva frequenza (o frequenza relativa).

Esempio 7. Distribuzione della pressione sistolica (PAS) di 50 pazienti

Pressione sistolica rilevata su 50 pazientiClassi PAS

(mmHg)Frequ.

assolutaFrequ.

relat. %100 |─ 110 8 16110 |─ 120 12 24120 |─ 130 14 28130 |─ 140 7 14140 |─ 150 3 6150 |─ 160 4 8160 |─ 170 2 4

100-110 110-120 120-130 130-140 140-150 150-160 160-170

Istogramma Pressione Sistolica

PAS (mmHg)

Freq

uenz

a re

lativ

a

02

46

810

1214

1618

2022

2426

28

Nell’esempio appena prodotto, le classi di valori pressori hanno tutte la stessa ampiezza (definita dalla differenza tra l’estremo superiore e quello inferiore di ogni classe; nell’esempio pari a 10).

Nel caso ciò si verifichi, affinché ciascun rettangolo abbia area proporzionale alla frequenza assoluta (o relativa) è necessario riportare sull’asse verticale del grafico la densità di frequenza definita dal rapporto tra la frequenza assoluta (o relativa) di ogni classe e la corrispondente ampiezza:

classe di ampiezzaclasse della frequenzadensità =

7

Page 8: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Esempio 8. Distribuzione di frequenza dell’Indice di Massa Corporea (BMI da: Body Mass Index)1 di 182 studenti di età 13-18 anni:

Valori BMI 182 studenti.Classi BMI

(kg/m2)Frequ.relativa

ampiezza densità

14.00 |─ 18.50 0.126 4.5 0.02818.50 |─ 24.99 0.714 6.5 0.11025.00 |─ 29.99 0.137 5.0 0.02730.00 |─ 34.99 0.017 5.0 0.00335.00 |─ 38.00 0.006 3.0 0.002

I dati sono memorizzati nel vettore BMI di R.

Codice in R:> breaks=c(14,18.5,24.99,29.99,34.99,38)> hist(BMI,breaks,freq=F,axes=F,col="red",xlab=”BMI + (kg/mq)”,ylab=”densità”,main=”Istogramma BMI”)> axis(1,breaks)> axis(2,yaxp=c(0,0.12,12))> box()

Istogramma BMI

Fonte CIRDIS: indag. Come siamo fatti ora - L.S. Lanciano anni 2004/2005BMI (kg/mq)

den

sità

14.00 18.50 24.99 29.99 34.99 38.00

0.0

00

.02

0.0

40

.06

0.0

80

.10

Poligoni di frequenza: si ottengono dai precedenti unendo i valori centrali superiori delle classi, come si può osservare da quanto segue.

Esempio 8Bis. Poligono di frequenza del BMI

Codice in R:

> ist=hist(BMI,breaks,freq=F,axes=F,col=0,xlab="BMI", + ylab="densità",main="Poligono di frequenza BMI”,lty=2)> axis(1,breaks)> axis(2,yaxp=c(0,0.12,12))> lines(c(min(breaks),ist$mids,max(breaks)),+ c(0,ist$intensities,0),lwd=2,col="red")> box()

Poligono di frequenza BMI

BMI (kg/mq)

den

sità

14.00 18.50 24.99 29.99 34.99 38.00

0.0

00

.02

0.0

40

.06

0.0

80

.10

Diagrammi di dispersione (scatter plot): costituito dai punti corrispondenti alle diverse coppie di valori rilevati. Indicati per evidenziare le associazioni tra variabili quantitative.

1 Si ricorda che l’Indice di Massa Corporea è definito dalla: 2m)in statura(kgin pesoBMI =

8

Page 9: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Esempio 9. Statura e Peso di 19 soggetti.

Valori di Statura e Pesou.s Statura Peso1 163 612 164 603 165 634 166 655 169 616 169 677 170 708 171 719 171 7510 172 6411 174 7512 175 7113 176 7814 176 7015 177 7116 178 7417 178 7318 179 7819 180 75

In R i dati sono memorizzati in due vettori: Statura e Peso e il diagramma si ottiene con il comando:

> plot(Statura,Peso)

Più opportunamente le due variabili possono essere memorizzate in un data.frame denominato, ad esempio, Dati ed il diagramma si ottiene con:

> plot(Dati)

164 166 168 170 172 174 176 178 180

6062

6466

6870

7274

7678

Diagramma di dispersione Statura-Peso di 19 soggetti

Statura (cm)

Pes

o (k

g)

Grafici a spezzate: si ottengono dai grafici per punti congiungendo i vari punti. Indicati per evidenziare un “andamento” dei valori, come ad esempio nella rappresentazione delle serie temporali. In ambito medico si possono riferire alla temperatura corporea, alla pressione sanguigna oppure sono tracciati elettrocardiografici.

Esempio 10. Temperatura corporea di un paziente in due giorni di ricovero ospedaliero.

In R i dati di temperatura sono memorizzati nel vettore Temp e quelli delle ore nel vettore Ore

Codice in R:> Temp=c(37.1 37.9 37.8 38.0 36.7 36.9 36.9 36.7) > Ora=c("8" "12" "16" "20" "8" "12" "16" "20")> x=1:8> plot(x,Temp,xaxt="n",ylim=c(35,39),yaxp=+ c(35,39,10),cex.axis=0.8,pch=23,bg="red",+ col="black",cex=1.1,ylab="Temperatura(°C)",+ xlab="Ora",main= "Temperatura corporea pz in + due giorni di ricovero")> axis(1,at=1:8,lab=Ora,las=1,cex.axis=0.8)> lines(x,Temp,lwd=2)> for (i in x) {abline(v=i,lty=2)}

Diagrammi logaritmici: uno o entrambi gli assi sono in scala logaritmica; sono indicati per rappresentare misure quantitative espresse su ordini di grandezza così differenziati che non possono essere rappresentati su scala decimale.

9

Page 10: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Diagrammi a settori circolari (torte): indicati per variabili qualitative allo scopo di evidenziare le frequenze percentuali delle singole modalità. L’area di un cerchio viene suddivisa in settori proporzionali alle frequenze percentuali.

Esempio 11. Morti per gruppi di cause in Italia – anno 2002

Codice in R:

> cause=c(4292,163070,24317,237198,35941,24719,+ 26693,44160)> causeperc=cause/sum(cause)*100> names(causeperc)=c("M.Infett.","Tumori",+ "Dist.Psich.","App.Circ.","App.Resp.","App.Diger.",+ "Traumi_Avvel.",”Altre”)>scr=paste(names(causeperc),"(",round(causeperc,1),+ “%)")> pie(causeperc,lab=scr,col=1:8,radius=0.9,main=+ ”Morti per gruppo di cause in Italia – anno 2002”, + sub=”Fonte: Compendio Statistico Italiano 2005 – + ISTAT”).

M.Infett. ( 0.8 %)

Tumori ( 29.1 %)Dist.Psich. ( 4.3 %)

App.Circ. ( 42.3 %)

App.Resp. ( 6.4 %)App.Dirig. ( 4.4 %)

Traumi_Avvel. ( 4.8 %)

Altre ( 7.9 %)

Morti per gruppo di cause in Italia - anno 2002

Fonte ISTAT: Compendio Statistico Italiano 2005

Esempio 12. In una Azienda Ospedaliera è stata rilevata la frequenza annua di ricoveri per reparti (indicati in tabella) e per sesso:

Sesso RepartoMedicina Chirurgia Geriatria

Maschi (M) 137 110 40Femmine (F) 163 90 60Totale (Tot) 300 200 100

Per visualizzare tali informazione si può far ricorso ad un ortogramma:

Codice in R:

> ricovero=matrix(c(137,163,300,110,90,200,40,60,100),+ 3,3)> rownames(ricovero)=c("M","F","Tot")>colnames(ricovero)=c("Medicina","Chirurgia","Geriatria")> ricovero Medicina Chirurgia Geriatria M 137 110 40 F 163 90 60Tot 300 200 100> barplot(ricovero,names=colnames(ricovero),col=c(4,7,2),+ beside=T,cex.names=0.9,yaxp=c(0,300,30),xlab=+ "Reparto",ylab="Frequenza assoluta")> legend(10,298,c("M","F","Tot"),fill=c(4,7,2))

Medicina Chirurgia Geriatria

Reparto

Fre

que

nza

ass

olu

ta

02

05

08

01

101

401

702

002

302

602

90

MFTot

10

Page 11: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Avendo a disposizione anche la distribuzione del numero di ricoveri per mese presso il Reparto di Medicina, si può utilizzare un grafico a spezzata per visualizzare l’andamento temporale del numero di ricoveri.

Ricoveri per mese Medicina

Mese FrequenzaGennaio 10Febbraio 12Marzo 13Aprile 20Maggio 16Giugno 17Luglio 23Agosto 31Settembre 33Ottobre 39Novembre 40Dicembre 46Totale 300

515

2535

45

Numero di ricoveri per mese Reparto Medicina

mesi dell'anno

n° ri

cove

ri

genn

aio

febb

rari

o

mar

zo

apri

le

mag

gio

giug

no

lugl

io

agos

to

sette

mbr

e

otto

bre

nove

mbr

e

dice

mbr

e

5. Indici di tendenza centrale

La sintesi numerica di una distribuzione di dati si basa sulla introduzione di indici numerici che permettono di evidenziare alcuni aspetti essenziali della distribuzione analizzata.

In questo paragrafo si prenderanno in esame gli indici medi.Gli indici di tendenza centrale esprimono dei valori “intorno” ai quali si può ritenere concentrato

il carattere statistico di interesse, fornendo un’idea sintetica del fenomeno oggetto di indagine.

Esempio 13. Nella tabella seguente sono riportati i valori del tasso glicemico rilevati su 10 pazienti:

X Glicemia (mg/100cc)x1 103x2 97x3 90x4 119x5 107x6 71x7 94x8 81x9 92x10 96

Una prima analisi descrittiva dei dati può essere di tipo grafico, attraverso la costruzione di un istogramma o un poligono di frequenza. Essendo la variabile X quantitativa (continua), la si può suddividere in classi di valori di data ampiezza. Si può scegliere, ad esempio, una suddivisione in 5 classi di ampiezza = (valore massimo − valore minimo)/5 = (119 − 71)/5 ≈ 10 mg/100 cc, come in

11

Page 12: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

tabella seguente. Si fa osservare, comunque, che la scelta del numero di classi non è sempre agevole, può essere arbitraria e dipende dalla numerosità dei dati.

Suddivisione in classi del tasso glicemicoClassi di glicemia

Frequenza assoluta

Frequenza relativa

70 80 1 10 % 80 90 2 20 % 90 100 4 40 %100 110 2 20 %110 120 1 10 %

Totale 10 100 %

Si tratta ora di scegliere una misura di tendenza centrale più appropriata per “sintetizzare” la distribuzione in esame.

Gli indici di tendenza centrale sono: i valori medi o medie algebriche (es. media aritmetica, media armonica, media geometrica); indici di posizione o medie lasche (es. mediana, moda, quartili,).Per i dati quantitativi (variabili statistiche quantitative) si possono utilizzare sia le medie

algebriche che gli indici di posizione, mentre per i caratteri qualitativi è necessario far ricorso a indici di posizione.

5.1 Valori medi

Considerati i valori x1, x2, x3,…,xn osservati del carattere X e una opportuna funzione f(x1,x2,x3,…,xn), un valore m si dice valor medio di X rispetto alla valutazione di f se risulta:

f(m,m,m,…,m) = f(x1,x2,x3,…,xn).

E’ questa la definizione di media secondo Chisini.La media aritmetica è quel valore x che, sostituito a ciascun degli n dati, ne fa rimanere

invariata la somma:

f( x , x , x ,…, x ) = x + x +…+ x = n x e f(x1,x2,x3,…,xn) = x1+ x2+ x3+…+ xn = ∑=

n

1iix

da cui: xnxn

1ii ⋅=∑

= ⇒

n

xx

n

1ii∑

== .

Nell’esempio 13 si ha:

x10950xn

1ii ⋅==∑

= ⇒ x = 950/10 = 95 mg/100 cc.

In R: > x=c(103,97,90,119,107,71,94,81,92,96)

> m=mean(x)

12

Page 13: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Esempio 14. Nella tabella seguente ci sono i voti riportati da uno studente universitario in 19 esame sostenuti

Voto (xi) Frequenza (fi) xi⋅fi

18 2 3620 4 8022 8 17624 2 4827 2 5430 1 30

Totale 19 424

La media aritmetica (ponderata) è data da:

32.2219424

f

fxx

ii

iii

==⋅

=∑

∑.

In R: > x=c(rep(18,2),rep(20,4),rep(22,8),rep(24,2),rep(27,2),30)2> mean(x)

Proprietà della media aritmetica:a) minimo dei dati < x < massimo dei dati;

b) ∑ =−i

i 0)x(x : la somma degli scarti dalla media è zero;

c) ∑ −i

2i z)(x assume valore minimo per z = x ;

d) la media dei valori: k⋅xi è pari a: k⋅ x (dove k è un numero reale qualsiasi);e) la media dei valori: xi ± h è pari a: x ± h (dove h è un numero reale qualsiasi).

Un “limite” della media aritmetica è che essa è notevolmente influenzata dai valori estremi della distribuzione. Si consideri infatti il seguente esempio.

Esempio 15. Età alla morte di 5 soggetti:

x1 = 34 anni; x2 = 70 anni; x3 = 74 anni; x4 = 64 anni; x5 = 68 anni.

La media aritmetica è pari a:x = (34+70+74+64+68)/5 = 62 anni

e tale valore è seriamente influenzato dall’osservazione di una morte avvenuta all’età di 34 anni; in realtà 4 delle 5 osservazioni sono superiori alla media.

Altre misure di tendenza centrale sono la media armonica e quella geometrica.

Esempio 16. A 5 persone viene effettuato il trapianto di uno stesso organo. Dopo 5 anni si rileva la seguente situazione:1 persona morta dopo 2 anni dal trapianto;1 persona morta dopo 3 anni;

13

Page 14: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

1 persona morta dopo 4 anni;2 persone risultano sopravviventi (2 dati troncati).

Si vuole valutare la sopravvivenza media dei pazienti.Soluzione 1: alle persone ancora in vita si attribuisce una sopravvivenza di 5 anni e si calcola ma

media aritmetica dei valori:

anni 8.35

52432x =⋅+++= ;

soluzione 2: le persone ancora in vita vengono escluse dal calcolo della media aritmetica:

anni 33

432x =++= ;

soluzione 3: si attribuisce “grande” sopravvivenza alle 2 persone ancora in vita e la media viene determinata attraverso la:

anni 6.400

41

31

21

5 =++++ .

Quest’ultima, nell’assunzione fatta per la soluzione, calcola la media armonica dei dati e, tra le tre proposte, appare la più rispondente ad una misura sintesi del tempo di sopravvivenza delle 5 persone.

In R:> x=c(2,3,4,Inf,Inf)

> ma=length(x)/sum(1/x)

Va comunque precisato che una analisi più completa dei dati di sopravvivenza in presenza di troncamento porta a ritenere, in generale, la media armonica come misura poco appropriata per la descrizione del tempo di sopravvivenza ed è necessario far ricorso ad altri strumenti statistici.

Esempio 17. Per illustrare le media armonica si consideri il seguente esempio relativo all’analisi di posti-letto di strutture ospedaliere in alcune regioni italiane nell’anno 1996 (fonte ISTAT).

Regione Abitanti(Conoscere l’Italia 1997)

Letti(Compendio Stat. Italiano 1998) Abitanti/Letto

Piemonte 4 294 127 24 850 172.80Lombardia 8 958 670 58 574 152.95Emilia Romagna 3 937 924 25 224 156.12

Totale 17 190 721 108 648Toscana 3 524 670 21 217 166.12Umbria 829 915 4 436 187.09Lazio 5 217 168 42 660 122.30

Totale 9 571 753 68 313Abruzzo 1 273 665 8 792 144.87Campania 5 785 352 27 988 206.71Calabria 2 074 157 11 221 184.85

Totale 9 133 174 48 001

Si osservi che l’ultima colonna della tabella precedente riporta l’indice abitanti/letto, ovvero il numero di abitanti che “fanno capo” ad un posto letto.

14

Page 15: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Supponendo di voler confrontare gli indici “medi” abitanti/letto relativi alle regioni geografiche del Nord (Lombardia, Piemonte, Emilia Romagna), del Centro (Toscana, Umbria, Lazio) e del Mezzogiorno (Abruzzo, Campania, Calabria), come vanno calcolati i valori medi ?

Calcolando la media aritmetica, si ottiene:

Media Nord = (172.80+152.95+156.12)/3 = 160.62, Media Centro = (166.12+187.09+122.30)/3 = 158.50, Media Mezzog. = (144.87+206.71+184.85)/3 = 178.81.

Ma tale modo di calcolo è errato in quanto, se da tali valori medi si risale alla frequenza assoluta di posti letto, si osserva che il numero di letti non è esatto, infatti:

posti letto Nord = 17 190 721/160.62 = 107 027, posti letto Centro = 9 571 753/158.50 = 60 390, posti letto Mezzog. = 9 133 174/178.81 = 51 076,

per il Nord c’è una differenza di circa 1621 posti letto in meno, per il Centro di circa 7923 posti letto in meno e per il Mezzogiorno la differenza è di circa 3075 posti letto in più.

In realtà, in questo caso, va effettuata la media utilizzando la media armonica:

Media Nord = 156.12

924 937 3

152.95

670 958 8

172.80

127 294 4

721 190 7 1

++= 158.22 corrispondente a 108.651 posti letto,

Media Centro = 122.30

168 217 5

187.09

915 829

166.12

670 524 3

753 571 9

++= 140.12 corrispondente a 68.311 posti letto,

Media Mezzog. = 184.85

157 074 2

206.71

352 785 5

144.87

665 273 1

174 133 9

++=190.27 corrispondente a 48.001 posti letto

e in questo modo, come evidentemente risulta, si ottengono valori medi corretti (le differenze riscontrate nel numero di posti letto sono dovute ad approssimazioni numeriche).

In generale, la Media armonica (Ma) è quel valore che sostituito a ciascuno dei dati (che devono essere tutti positivi) fa rimanere invariata la somma dei reciproci dei dati stessi:

Ma ∑=

=+++

== n

1i in21

n21

x1

n

x1...

x1

x1

n),...xx,f(x

n.

La Media geometrica (Mg), infine, è quel numero che sostituito a ciascuno dei dati (che devono essere tutti positivi) fa rimanere invariato il loro prodotto:

Mg = nn21

nn21 x...xx),...xx,f(x ⋅⋅⋅= .

15

Page 16: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Esempio 18. Si supponga che in un laboratorio di ricerca si sia rilevato che il numero di batteri in una data cultura è cresciuto da 1500 a 4500 in 4 giorni. Ci si chiede qual è l’incremento percentuale medio giornaliero r di batteri.

Si osservi anzitutto che l’incremento da 1500 a 4500 è pari a: (450-1500)/1500 = 200%, allora si potrebbe dire che l’incremento medio giornaliero è pari a 200/4 % = 50% ?

In realtà è subito visto che un incremento giornaliero del 50% porta ad avere 1500⋅(1+0.5)=2250 batteri al primo giorno, 3375 al secondo, 5062 al terzo e 7594 al quarto: risultato in evidente contrasto con quanto rilevato!

L’approccio corretto consiste nell’osservare che, se r1, r2, r3 ed r4 sono gli incrementi percentuali in ognuno dei quattro giorni, deve essere:

1500⋅(1+r1)⋅(1+r2)⋅(1+r3)⋅(1+r4) = 4500

e che l’incremento medio giornaliero r è dato da:

(1+r1)⋅(1+r2)⋅(1+r3)⋅(1+r4) = (1+r)4.

Pertanto (1+r) risulta la media geometrica delle 4 quantità (1+ri):

316.1r)(1 r)(1 41500

45004 4 ==+=+ ,

da qui la determinazione dell’incremento medio giornaliero:

r = 1.316−1 = 31.6 %.

In R il calcolo della media geometrica di dati memorizzati in un vettore x si effettua con il comando: > prod(x)^(1/length(x)).

Si può provare che la media geometrica di un insieme di dati positivi è minore o uguale alla loro media aritmetica, ma è maggiore o uguale alla loro media armonica:

Ma ≤ Mg ≤ x .

5.2 Indici di posizione

Le medie lasche sono quegli indici che si basano solo su alcuni valori caratteristici dell’intera distribuzione dei dati.

La mediana (Me) è quella osservazione che bipartisce la distribuzione di dati, supposta ordinata in ordine non decrescente, in modo tale da lasciare al “di sotto” lo stesso numero di termini che lascia al “di sopra”.

Ritornando all’es. 13, per il calcolo della mediana è necessario disporre i dati in ordine crescente:

71, 81, 90, 92, 94, 96, 97, 103, 107, 119

16

Page 17: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

la mediana è quel dato che cade a metà della distribuzione ordinata. Se il numero di osservazioni è pari (come nel caso dell’esempio della glicemia) la mediana è la media aritmetica delle due osservazioni centrali:

Me = (94+96)/2 = 95 mg/100 cc.

In R:> x=(c(103,97,90,119,107,71,94,81,92,96))

> median(x)

Il fatto che mediana e media aritmetica in questo caso coincidano non è “casuale” in quanto la distribuzione è simmetrica: “equidistribuzione” dei dati intorno alla mediana. Ma, in generale, ciò non avviene.

Un Vantaggio nell’uso della mediana è che essa non è influenzata dalle osservazioni aberranti o estreme.

Così nell’es. 15, disposte le età in ordine crescente:

34 anni; 64 anni; 68 anni; 70 anni; 74 anni;

si ottiene il valore: Me = 68 anni, misura “più attendibile” di sintesi dei (pochi) dati a disposizione. In realtà, in presenza di una distribuzione non simmetrica di dati è più appropriato far ricorso

alla mediana che non alla media aritmetica.Le fasi operative per il calcolo della mediana sono le seguenti:

a) ordinamento crescente dei dati;b) − se il numero di dati n è dispari, la mediana corrisponde al dato che occupa la (n+1)/2 esima posizione − se il numero di dati n è pari, la mediana è data dalla media aritmetica dei due dati che occupano la posizione n/2 e quella n/2+1.

In presenza di una distribuzione di frequenze è necessario considerare le frequenze cumulate, come illustrato riconsiderando l’esempio 14.

Esempio 14Bis. Voti di uno studente in 19 esame sostenuti

Voti ordinati (xi) Frequenze (fi) Freq. Cumulate (Fi)18 2 220 4 2+4 = 622 8 6+8 = 1424 2 14+2 = 1627 2 16+2 = 1830 1 18+1 = 19

Totale 19 19

n/2 = 19/2 = 9.5 ⇒ la più piccola frequenza cumulata maggiore o uguale a n/2 è pari a 14, dunque la mediana è data da Me = 22 (voto corrispondente alla frequenza cumulata 14).

In R:> x=c(rep(18,2),rep(20,4),rep(22,8),rep(24,2),rep(27,2),30)> median(x)

17

Page 18: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Se, infine, i dati sono raggruppati in classi, per il calcolo della mediana si può far riferimento al valore centrale di ciascuna classe (dato dalla semisomma dei valori estremi di classe) o, più in genere, alla “classe mediana” (classe alla quale appartiene la mediana).

La Moda (Mo) è l’osservazione che si verifica con maggiore frequenza in una data distribuzione. Ad esempio, la moda della distribuzione di voti dell’es 14 è pari a Mo = 22; nel caso della

glicemia (es. 13) si può considerare la “classe modale” 90 100.Va osservato che si possono avere anche più valori modali.

Accanto alla mediana vengono considerati anche altri due indici: primo e terzo quartile, in quanto presentano caratteristiche molto simili a quelle della mediana.

Il primo quartile (Q1) è un valore della variabile presa in esame tale da lasciare alla sua sinistra ¼ = 25% della frequenza dei dati, mentre il terzo quartile (Q3) lascia alla sua destra ¼ = 25% della frequenza.

Esempio 19. E’ stato rilevato il peso di 30 studenti, ottenendo i risultati seguenti

Distribuzione dei pesi di 30 studentiPeso (kg) Frequenza assoluta

40 165 355 552 950 773 370 2

Distribuzione ordinata dei pesi di 30 studentiPeso (kg) Freq. ass. Freq. cumulata Frequ. cum %

40 1 1 150 7 8 852 9 17 1755 5 22 2265 3 25 2570 2 27 2773 3 30 30

totale 30

Per il calcolo della mediana e del primo e terzo quartile basta osservare:30/2 = 15 → mediana = 52 kg; 30/4 = 7.5 → Q1 = 50 kg; 3/4×30 = 22.5 → Q3 = 65 kg.

In R:> x=c(40,rep(65,3),rep(55,5),rep(52,9),rep(50,7),rep(73,3),rep(70,2))> mean(x)[1] 56.23333> median(x)[1] 52> quantile(x, probs=c(0.25)

25% 50.5

> quantile(x,probs=c(0.75)) 75% 62.5

Estendendo il concetto di quartile, si possono considerare anche i valori che dividono i dati in dieci parti uguali, ovvero i decili, oppure i valori che dividono i dati in cento parti uguali, i percentili. Il quinto decile ed il cinquantesimo percentile corrispondono alla media; il venticinquesimo ed il settantacinquesimo percentile corrispondono rispettivamente al primo e terzo quartile. Quartili, decili e percentili sono detti comunemente quantili.

In generale se si considera un carattere statistico quantitativo X e la funzione F(x) che si ottiene considerando le frequenze cumulate percentuali di X (la funzione di ripartizione), un quantile della

18

Page 19: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

X

0.00

0.04

0.08

0.12

0.16

distribuzione di dati è quel valore X = xp per il quale F(xp) = p, essendo p un reale tra 0 e 1. Ad esempio, per p=0.5=50% il valore xp è la mediana, per p=0.25=25% si ottiene il primo quartile e, ancora, per p=0.1=10% si ricava il primo decile o il decimo percentile.

In R il comando da utilizzare è: > quantile(x,probs=c(p)).

In merito alla scelta dell’indice medio più adeguato alla rappresentazione della distribuzione di dati si può evidenziare quanto segue.

La media aritmetica è indicata quando i dati quantitativi X presentano “abbastanza” simmetria (come ad esempio la distribuzione in figura a lato) e anche quando tali dati sono in progressione aritmetica (la differenza tra un dato e il precedente è costante).

È opportuno ricorrere alla media geometrica quando il logaritmo del variabile statistica quantitativa (positiva) presa in esame ln(X) presenta una distribuzione “molto simmetrica”, più rigorosamente il logaritmo è distribuito normalmente (ad esempio nel caso di risposte alla somministrazione di farmaci), o anche quando i dati sono in progressione geometrica (il rapporto tra un dato e il precedente è costante); esempi di dati sono i pesi degli individui durante la crescita, il numero di microbi in una cultura, i tassi di variazione di una grandezza.

È adeguato far riferimento alla media armonica quando sono presenti dati quantitativi (positivi) che si discostano di molto dai limiti di tempo o di luogo stabiliti per l’osservazione; si usa, ad esempio, quando la variabile in esame è rappresentata da “tempi di reazione” (in prove di tossicità, nell’analisi di sopravvivenza).

La mediana può essere calcolata per caratteri qualitativi ordinali e caratteri quantitativi; si presta meglio di altri valori medi per esprimere il valore centrale di distribuzioni di caratteri che non possono essere misurati “esattamente” (ad es. i caratteri psicologici graduabili) oppure quando la distribuzione di una carattere presenta valori “anomali” o asimmetria (in sostanza, non si può far riferimento alla distribuzione normale), in quanto essa non risulta influenzata dai valori estremi della distribuzione.

La moda può essere calcolata per un carattere statistico qualunque (sia qualitativo che quantitativo) e non risente dei valori estremi (ad esempio è indicata per caratteri per i quali non si conoscono i valori estremi); tuttavia risulta l’indice con minor contenuto informativo.

6. Indici di variabilità

Esempio 20. Si considerino inizialmente le seguenti due distribuzioni di valori riferiti all’età di 10 individui:

Gruppo A 20 30 40 50 60Gruppo B 10 25 40 55 70

La media aritmetica è pari a 40 anni per entrambe le distribuzioni, infatti utilizzando R risulta: > età=c(20,30,40,50,60,10,25,40,55,70) > gruppo=c(rep("A",5),rep("B",5))

> tapply(età,gruppo,mean)

19

Page 20: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

A B 40 40

ma nella seconda i dati sono più “dispersi” attorno alla media.

Pertanto accanto alle medie vanno introdotti anche indici di misura della variabilità dei dati.Le misure di dispersione più usate sono:1) campo di variazione (range);2) deviazione standard;3) differenza interquartile.

Intervallo di variazione o range: R = xmax ─ xmin : differenza tra il valore massimo e quello minimo dei valori rilevati per il carattere statistico quantitativo X.

Per i valori di tasso glicemico (es. 13) si ha un range pari a: R = 119 − 71 = 48 mg/110 cc; mentre il range dell’età dell’es. 15 è dato da: R = 74 − 34 = 40 anni.

I limiti (grandi !) dell’intervallo di variazione sono:- è troppo influenzato dai valori estremi;- tiene conto dei due soli valori estremi, trascurando tutti gli altri;- tende ad aumentare con l’aumento del numero di osservazioni.

Occorre allora un indice di dispersione che consideri tutti i valori (e non solo quelli estremi).Si potrebbe ricorrere alla somma degli scarti dalla media aritmetica, ma va ricordato che tale somma

è pari a i=1

n

i(x - x) = 0∑ . Per quanto attiene la somma dei valori assoluti i=1

n

i|x - x|∑ , va detto che tale

quantità è difficile da trattare matematicamente. Un indice alternativo, più “agevole” da usare, è quello che si ottiene considerando la somma dei

quadrati degli scarti dalla media aritmetica x_ .

Esempio 13Bis. Valori del tasso glicemico in 10 soggetti

xi(glicemia mg/100cc )

xx i − )x(x 2i −

103 +8 6497 +2 490 -5 25119 +24 576107 +12 14471 -24 57694 -1 181 -14 19692 -3 996 +1 1

95x_

= ∑ =−=

10

1i94xix ∑ =−

=

10

1i

2 1596)xi

x(

La quantità 2n

1ii )x(xDEV(X) ∑

=

−= si chiama devianza del carattere X. Si osservi che la devianza

può essere ottenuta anche attraverso la: ∑∑==

⋅−=+−=n

1i

22i

n

1i

2

i2i xnx)xx2x(xDEV(X) .

20

Page 21: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Il limite della devianza come misura di dispersione è quello di aumentare di valore con il numero di osservazioni. Per ottenere una misura che non dipenda dalla numerosità si può dividere la devianza per il numero n di dati, ottenendo la varianza del carattere X:

n

)xi(xσVAR(X)

n

1i

22

∑ −== = .

La formula appena scritta, in realtà, viene impiegata in presenza di grandi numerosità (popolazioni), tuttavia in ambito biomedico spesso le analisi possono essere condotte solo su un piccolo numero di unità statistiche. Allora, per evitare di avere un valore di variabilità inferiore a quello effettivo (ma incognito) della popolazione di riferimento, nella pratica il denominatore n della formula è sostituito da (n─1) in modo da ottenere una stima corretta della varianza della popolazione2 e, pertanto, la varianza viene ottenuta attraverso la:

1n

)xi(xs

n

1i

22

∑ −= =

.Nell'esempio 13Bis si ha: s2= 1596 / 9 =177.33 (mg/100cc)2.

In R la varianza si ottiene con l’utilizzo della funzione var( ):> x=c(103,97,90,119,107,71,94,81,92,96)

> var(x)[1] 177.3333.

Il limite della varianza come misura di dispersione è quella di avere una unità di misura espressa al quadrato rispetto all'unità di misura originale, per cui si utilizza la deviazione standard o scarto quadratico medio (D.S. o S.D.):

1n

)xi(x

s

n

1i

2

=

∑=

.

La deviazione standard è l'indice di variabilità più usato. Essa indica di quanto ciascun dato si discosta in media (quadratica) dalla media aritmetica dell’insieme di misure considerate.

Nell'esempio 13Bis : s = 177.33 = 13.32 mg/100cc. In R la funzione è: sd( ); così nell’esempio della glicemia > sd(x) dà come risultato 13.31666.

La deviazione standard per distribuzioni di frequenza assume la seguente forma:

1k

1i if

kif)xi(x

s 1

2

−=

∑ −=

=i,

dove k è il numero di modalità della variabile statistica X o il numero di classi secondo cui i valori di X sono stati raggruppati.

2 Va comunque osservato che il fondamento teorico di quanto esposto va ricercato in risultati di statistica inferenziale che coinvolgono il campionamento e le distribuzioni delle statistiche campionarie.

21

Page 22: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Sono importanti anche gli indici di variabilità relativa, tra i quali il coefficiente di variazione (CV):

aritmetica media

standard deviazione_x

sCV == .

Per l’Esempio 13Bis si ottiene : CV = %149532.13 = . E’ interessante anche il confronto tra i coefficienti di variazione delle due distribuzioni di dati

dell’esempio 20: per il gruppo A si ha CVA = %5.39408.15 = , mentre per il gruppo B: CVB = %3.59407.23 = , risultati che confermano la maggiore variabilità dei dati della seconda distribuzione

rispetto alla prima.Il coefficiente di variazione è un numero “puro”, in quanto rapporto di due grandezze omogenee, e

perciò consente il confronto anche tra variabili eterogenee. L’uso del C.V. si rende necessario ogni qualvolta si vogliono confrontare le misure di variabilità relative a distribuzioni le cui modalità sono espresse in unità di misure diverse (confronto tra variabilità dell’altezza e del peso) oppure sono espresse nella stessa unità di misura ma il loro valore medio risulta molto diverso (confronto delle variabilità dei pesi fra un campione di neonati ed uno di adulti).

Come indice di variabilità può essere considerato anche la differenza interquartile: H = Q3 − Q1.Nel caso del peso di 30 studenti (es. 19), risulta H = 65 − 50 = 15 kg. Si osservi che tra il primo ed il terzo quartile vengono a trovarsi il 50% delle osservazioni; se

l'intervallo interquartilico è piccolo, tale metà delle osservazioni si trova fortemente concentrata intorno alla mediana. All'aumentare della distanza interquartilica aumenta la dispersione del 50% delle osservazioni centrali intorno alla mediana.

7. I BOX-PLOT

Alcuni metodi statistici esplorativi permettono di esprimere i dati facendo riferimento alla mediana ed ai quartili. Una rappresentazione grafica di notevole utilità per capire come è composto l’insieme delle osservazioni consiste nel rappresentare su di una retta la mediana, i quartili ed altri quattro punti individuati sul grafico in modo da definire 5 intervalli:

Q1−3H Q1−1.5H Q1 Me Q3 Q3+1.5H Q3+3H

Tra Q1−1.5H e Q1 e tra Q3 e Q3+1.5H cadono i valori detti adiacenti in quanto risultano prossimi al nucleo centrale delle osservazioni (tra Q1 e Q3 c’è il 50% dei dati); tra Q1−3H e Q1−1.5H e tra Q3+1.5H e Q3+3H cadono i valori detti lontani e prima di Q1−3H e dopo Q3+3H cadono i valori molto lontani. Per i valori molto lontani occorre fare un’analisi attenta e minuziosa per capire se si tratta di valori errati oppure di valori che si staccano effettivamente dal resto dei dati. La suddivisione posta sopra porta a cogliere intervalli che aiutano a percepire il segnale di qualcosa di anomalo presente fra le osservazioni.

22

Page 23: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

I valori lontani o molto lontani (valori fuori limite) vengono segnalati individualmente nel box-plot per evidenziarne la presenza e la posizione. Questi valori forniscono informazioni ulteriori sulla dispersione e sulla forma della distribuzione. Quando i valori adiacenti, superiore e inferiore, coincidono con gli estremi della distribuzione non comparirà alcun valore fuori limite. I valori adiacenti inferiore e superiore forniscono informazioni sulla dispersione e sulla forma della distribuzione ed anche sulle code della distribuzione.

Attraverso la costruzione dei “diagrammi a scatola” (Box-plot) è possibile effettuare l’esplorazione appena detta.

Esempio 19Bis. Box plot per i dati dell’esempio 19 relativi al peso di 30 studenti.

All’interno della “scatola” si posiziona il 50% dei dati (pertanto il lato inferiore indica il primo quartile e quello superiore il terzo); la mediana è indicata dalla linea interna alla scatola; al di sopra e al di sotto della scatola sono anche individuati i punti della zona dei valori adiacenti (nell’esempio in esame, poiché Q1−1.5H = 32.5 kg < 40 kg e Q3+1.5H =84.5 kg> 73 kg, sono riportati semplicemente il minimo ed il massimo dei valori del peso).

40

45

50

55

60

65

70

75

box-plot peso

peso (30)

peso

I box-plot permettono anche di comparare distribuzioni diverse di uno stesso carattere.

Esempio 21. Box plot di pesi di tre gruppi di soggetti

Utilizzando R, si riprenda il esame il vettore di pesi dell’es. 13 (peso1) e altre due distribuzioni sempre di pesi (vettori: peso2 e peso3). Il codice seguente permette di rappresentare le tre distribuzioni:>peso1=c(40,rep(65,3),rep(55,5),rep(52,9),rep(50,7),rep(73,3), + rep(70,2))> peso2=c(rep(42,2),rep(45,3),rep(60,7),rep(65,5),rep(50,3),+ rep(70,5),rep(55,5),85) > peso3=c(rep(15,5),rep(20,7),rep(30,5),rep(37,10),rep(42,4),+ 40,rep(45,5),rep(50,2))> peso=list(peso1,peso2,peso3)> names(peso)=c("gruppo A","gruppo B","gruppo C")> b=boxplot(peso,plot=F)> boxplot(peso,col=c(2,3,5),xlab="gruppi di pesi(numerosità)” + ,ylab="peso",names=paste(b$names,"(",b$n,")"),main=+ "box-plot pesi")

gruppo A ( 30 ) gruppo B ( 36 ) gruppo C ( 39 )

2030

4050

6070

80

box-plot pesi

gruppi di pesi (numerosità)

peso

23

Page 24: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

8. Esempi su indici di tendenza centrale e di variabilità

Esempio 22. Valori pressori massimi rilevati su 5 pazienti ipertesi

PAS (mmHg) fi xifi xx i − ( xx i − )2fi

170 1 170 -23 529185 1 185 -8 64200 1 200 7 49205 2 410 12 288

Somma 5 965 930 media aritmetica: x mmHg

_/= =965 5 193 mmHg; range: R = 205 − 170 = 35 mmHg;

devianza: Dev = 930 (mmHg)2; varianza: s2 = 930 / 4 (mmHg)2 = 232.5 (mmHg)2; dev. st.: s = 5.232 mmHg =15.25 mmHg; coeff. variaz.: CV% = 15.25 / 193⋅100 = 7.9 %.

Per il calcolo della mediana (Me) e della Moda (Mo) della distribuzione della pressione si procede come nella tabella:

PAS (mmHg) fi frequ. Cumulate

170 1 1 5 / 2 = 2.5 → Me = 200185 1 2 Mo = 205200 1 3205 2 5

I due esempi che seguono illustrano il calcolo di indici medi e di variabilità nel caso di dati raggruppati in classi di frequenze.

Esempio 23. Azoto ureico (mg %) in un gruppo di 50 adolescenti

Azoto val. centr. (xi) Frequenze (fi) Freq. cum. xi * fi (xi − x )2 * fi

17.1 – 19 18.05 3 3 54.15 82.372819.1 – 21 20.05 6 9 120.30 62.985621.1 – 23 22.05 11 20 242.55 16.913623.1 – 25 24.05 20 40 481.00 11.552025.1 – 27 26.05 8 48 208.40 60.940827.1 – 29 28.05 1 49 28.05 22.657629.1 – 31 30.05 1 50 30.05 45.6976

Totale 50 1164.5 303.12

24

Page 25: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Is trogram m a Azoto Ureico

0

5

10

15

20

25

30

35

40

45

17-19 19-21 21-23 23-25 25-27 27-29 29-31

Azoto Ureico

Freq

. Rel

. % %

x = 1164.5/50 = 23.29;D.S. = 30312 49 2 49. / .= ;

mediana: N/2 = 50 / 2 = 25 → la classe mediana (classe che comprende la mediana) è data da: 23.1 - 25, dunque: 23.1 < Me < 25;

moda: la frequenza più elevata si ha per la classe 23.1 - 25, dunque: 23.1 < Mo < 25.

Si presenta ora un metodo per il calcolo della mediana per l’esempio appena presentato. Se è ipotizzabile che all’interno di ciascuna classe di frequenze i valori dell’azoto si

distribuiscano in modo uniforme, la mediana può essere determinata impostando una relazione di tipo lineare tra dati e le relative frequenze cumulate. Individuata, allora, la classe mediana si può calcolare:

cf

f2

N

mxMemed

prec⋅

−+=

∑,

dove: x m, fmed e c sono rispettivamente l’estremo inferiore, la frequenza e l’ampiezza della classe mediana, ∑fprec è la somma delle frequenze delle classi inferiori a quella mediana. Nell’esempio analizzato si ha:

6.23220

202523.1Me =⋅

−+= .

Esempio 24. Dosaggio della Fosfatasi Alcalina (UA) in 20 ragazzi

FosfatasiAlcalina

val. centr. (xi)

freq.(fi)

freq. cum. ampiezzaclasse

Densitàfreq.rel.

xi * fi (xi − x )2 * fi

30 –| 90 60 4 4 60 0.003 240 20306.25 90 –| 120 105 3 7 30 0.005 315 2067.19 120 –| 150 135 7 14 30 0.012 945 98.44 150 –| 210 180 5 19 60 0.004 900 11882.81 210 –| 240 225 1 20 30 0.002 225 8789.06

totale 20 2625 43143.75

25

Page 26: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

30-90 90-120 150-210 210-240

Istogramma Fosfatasi Alcalina

Fosfatasi Alcalina (ua)

Den

sità

0.0

00

0.0

02

0.0

04

0.0

06

0.0

08

0.0

10

0.0

12

0.0

14 x = 2625/20 = 131;

D.S. = =19/75.43143 47.65;mediana: N/2 = 20 / 2 = 10 → la classe mediana è 120 -| 150, ovvero 120 < Me <150,con la formula introdotta nell’es. 16 si

ottiene anche: 133307

710120Me =⋅

−+= ;

moda: la frequenza più elevata si ha per la classe 120 -| 150, dunque: 120 < Mo <150

9. Curve di distribuzioni

Le osservazioni quantitative continue, se rilevate in gran numero, possono essere suddivise in classi di piccola ampiezza ma anche di numerosità non trascurabile; in tale contesto i poligono di frequenze assolute o di frequenze relative risultano essere ben approssimati (lisciati) da curve di frequenze o densità che assumono forme caratteristiche.

Si possono avere distribuzioni con una sola moda (unimodali) o con più di una. Sulle prime ci si soffermerà tra breve, mentre per quanto attiene le seconde e, in particolare, le distribuzioni bimodali, caratterizzate dalla presenza di due mode, si può dire che spesso si è in presenza di dati non omogenei. Ciò può verificarsi, ad esempio, quando i valori si riferiscono ad un campione composto sia da individui sani che malati; in tal caso si avranno due mode, una media ed una mediana (Figura IV):

Nelle trattazione che segue si farà riferimento a distribuzioni unimodali.Allo scopo di interpolare un istogramma di un carattere statistico X con una funzione continua

(di densità), spesso nell’analisi statistica si fa ricorso alla distribuzione normale come modello teorico di riferimento. Ciò, in particolare, quando il numero delle classi dell’istogramma è elevato e l’ampiezza di ogni classe piccola.

In realtà, la variabilità di alcuni caratteri biologici (peso, statura, pressione, …) dipende dall’apporto di molteplici fattori genetici e ambientali e le loro distribuzioni sono tanto più “vicine” alla distribuzione normale quanto più grande è il numero di fattori che entrano in gioco.

Ad esempio, la figura che segue si riferisce alla distribuzione empirica della statura di 700 maschi di età 13-18 anni; l’istogramma può essere “interpolato” con una curva normale con media = 172.8 cm e deviazione standard D.S.= 7.4 cm:

26

Page 27: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Statura di 700 maschi di età 13-18 anni

statura

Den

sità

150 154 158 162 166 170 174 178 182 186 190 194

0.0

00

.01

0.0

20

.03

0.0

40

.05

0.0

6

La distribuzione normale è proprio caratterizzata dai due parametri di media e deviazione standard ed è rappresentata graficamente da una curva simmetrica rispetto alla retta parallela all’asse verticale e passante per la media.

In figura seguente è rappresentata una distribuzione normale con x = 5 e D.S. = 2.5 (in R: > curve(dnorm(x,5,2.5),xlim=c(-1.5,11.5)) e sono evidenziati sull’asse orizzontale i valori di

2.5D.S.x =− , 5x = e 7.5D.S.x =+ :

0.00

0.04

0.08

0.12

0.16

Curva normale (media=5, DS=2.5)

x

funz

ione

di d

ensi

2.5 5.0 7.52.5 5.0 7.52.5 5.0 7.5

DS=2.5

Uno studio più adeguato di tale distribuzione sarà condotto in una successiva dispensa.

10. Indici di forma: asimmetria

Per le distribuzioni unimodali di frequenze è possibile distinguere le seguenti situazioni.

27

Page 28: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Distribuzione simmetrica :le osservazioni equidistanti dalla mediana (coincidente in questo caso col massimo centrale) presentano la stessa frequenza relativa (figura I)Un esempio importante è fornito appunto dalla curva di distribuzione normale

Distribuzione asimmetrica positiva:la curva di frequenza ha una coda più lunga a destra del massimo centrale (figura II).

Distribuzione asimmetrica negativa:la curva di frequenza ha una coda più lunga a sinistra del massimo centrale (figura III).

Un indice statistico che permette di informare del grado di simmetria/asimmetria di una distribuzione di n dati quantitativi è l’indice di asimmetria:

33

σµ

=γ ,

essendo: ( )

n

xxN 3

1ii

3

∑=

−=µ e

( )n

xxN 2

1ii∑

=−

=σ .

In R il calcolo dell’indice può essere effettuato attraverso la function:

> asimm=function(x) {+ n=length(x)+ s3=(sqrt(var(x)*(n-1)/n))^3+ m=mean(x)+ as=sum((x-m)^3)/s3+ as/n}

In merito ai valori che tale indice può assumere si può dire che:

• se la distribuzione è simmetrica, γ = 0;28

Page 29: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

• se la distribuzione è asimmetrica positiva (a destra), γ >0;• se la distribuzione è asimmetrica negativa (a sinistra), γ <0.

Come misura della asimmetria vengono utilizzate anche le seguenti formule empiriche (che richiedono la conoscenza di moda, mediana, media e deviazione standard):

DSMox − oppure

DS)Mex(3 − ,

nel caso di simmetria si ha un valore nullo, per l’asimmetria positiva un valore positivo e per quella negativa un valore minore di zero.

Esempio 25. Le seguenti misure caratterizzano le distribuzioni dei voti, in una scala da 1 a 100, riportati in una data Disciplina dagli studenti di due diversi corsi a seguito di una verifica intermedia (formativa):

Statistiche Corso 1 Corso 2Media 78 72Mediana 65 73D.S. 16 6

Ci si chiede:

a) In quale di questi due corsi il docente dovrebbe impiegare più tempo nel lavoro individuale con gli studenti?

b) In quale di questi due corsi è più probabile trovare alcuni studenti particolarmente bravi, ovvero molto al di sopra della media?

a) Mentre nel corso 2 circa la metà della classe ha un voto non inferiore a 73, nel corso 1 il 50% degli studenti ha un voto non superiore a 65 ed inoltre c’è maggiore variabilità dei dati (il coeff. di variazione del corso 1 è pari a circa il 21% e quello del corso 2 è di circa l’8%). Pertanto il docente dovrebbe impiegare più tempo nel lavoro individuale con gli studenti del corso 1.

b) La D.S. del corso 1 è decisamente più elevata rispetto a quella del corso 2, pertanto nel primo corso è più probabile trovare studenti molto al di sopra (D.S.=16) della media. D’altra parte, osservato anche i valori delle medie, si può dire anche che nel corso 1 è più probabile trovare studenti “più bravi” di quelli del secondo.

Per illustrare graficamente la situazione, in maniera qualitativa tuttavia, si potrebbe ricorrere ai grafici di distribuzioni di frequenze. La distribuzione relativa al corso 1 potrebbe presentare

una asimmetrica positiva

+=−

44.2 16

65)(78 3,

mentre quella del corso 2 una asimmetria negativa

−=

−5.0

6

73)(72 3.

29

Page 30: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

Si osservi anche che informazioni sulla forma di una distribuzione possono essere fornite dalle distanze tra ciascun quartile e la mediana. L’indice:

13

13

QQ)Q(MeMe)(Q

−−−−

indica asimmetria positiva se risulta positivo, asimmetria negativa nel caso sia negativo.Per una distribuzione simmetrica, come quella normale, le distanze tra ciascun quartile e la

mediana sono uguali, come anche le lunghezze delle linee che si allungano dai bordi della “scatola” utilizzata nei box-plot. In particolare, per una distribuzione normale, il valore adiacente inferiore e quello superiore risultano pari, rispettivamente, a Me–2.6975∙DS e Me+2.6975∙DS e l’intervallo individuato da tali valori racchiude il 99.30% dei dati.

11. Indici di forma: curtosi

Vengono costruiti anche indici statistici che misurano, in qualche modo, lo “scostamento” della distribuzione empirica del carattere quantitativo X da quella relativa alla situazione espressa dalla curva normale. Uno di questi è l’indice di curtosi (calcolato per n dati quantitativi):

44

σµ

dove: n

)xx(n

1i

4i

4

∑=

−=µ

e ( )

n

xxN 2

1ii∑

=−

=σ .

Il codice in R per il calcolo dell’indice è dato da:

> curt=function(x) {+ n=length(x)+ s4=(sqrt(var(x)*(n-1)/n))^4+ m=mean(x)+ cu=sum((x-m)^4)/s4+ cu/n }

In merito ai valori assunti si può dire che: Se la variabile è perfettamente normale si ha β = 3; Se β > 3 la distribuzione è detta ipernormale (rispetto alla distribuzione normale si ha una

maggiore frequenza per valori centrali ed estremi, minore per valori intermedi); Se β < 3 la distribuzione è detta iponormale (rispetto alla distribuzione normale si ha una

minore frequenza per valori centrali ed estremi, maggiore per valori intermedi).Va osservato che i software statistici spesso calcolano l’indice di curtosi come 3−β , che

pertanto si annulla nel caso di normalità. Va aggiunto che ha senso calcolare tale indice solamente quando la distribuzione empirica è stata determinata da numerose determinazioni del carattere X, in quanto in tal caso si può effettuare un appropriato confronto con la distribuzione normale.

Esempio 26. La distribuzione dei dati del BMI dell’esempio 8 è visualizzata nel grafico seguente (con un istogramma e una curva che interpola graficamente la densità di BMI, ottenuta

30

Page 31: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

utilizzando la function density(BMI) di R). Sono riportati anche alcuni indici statistici calcolati per mezzo di alcune function di R

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Istogramma e Curva Densità Empirica BMI

BMI tot

Den

sità

14.00 18.50 24.99 29.99 34.99 38.00

Codice in R: > min(BMI) # valore minimo[1] 17.13> max(BMI) # valore massimo[1] 35.15> mean(BMI) # media aritmetica[1] 21.91599> median(BMI) # mediana[1] 21.265> quantile(BMI,probs=c(0.25,0.75)) # primo e terzo quartile 25% 75% 19.475 23.755 > sd(BMI) # deviazione standard[1] 3.399565> asimm(BMI) # indice di asimmetria[1] 1.061886> curt(BMI) # indice di curtosi[1] 4.289408

Si evidenzia che la distribuzione del BMI è asimmetrica positiva e ipernormale.

12. Grafici qq-plot

Un tecnica per verificare se i dati a disposizione possono essere approssimati da una distribuzione normale è quello di ricorre ai grafici “quantile-quantile” (qq-plot). In tali grafici i quantili ottenuti dai dati numerici “osservati” vengono confrontati con quelli che si dovrebbero ottenere nel caso che i dati seguissero perfettamente una distribuzione normale (dati “teorici”). Si ottengono dei punti su di un piano cartesiano: più tali punti sono allineati e maggiormente la distribuzione di dati osservati è “vicina” a quella normale.

Le figure che seguono schematizzano le situazioni di distribuzioni iponormali ed ipernormali:

31

Page 32: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

I qq-plot possono essere utilizzati anche per analizzare la simmetria/asimmetria di una distribuzione, come indicato nelle figure:

In riferimento all’esempio 26, il qq-plot è quello riportato si seguito.

Codice in R:

> qq=qqnorm(BMI,plot=FALSE)> x=qq$y> y=qq$x*sd(BMI)+mean(BMI)> qx=quantile(x,probs=c(0.25,0.75))> qy=quantile(y,probs=c(0.25,0.75))> coeff1=(qy[2]-qy[1])/(qx[2]-qx[1])> coeff2=qy[1]-coeff1*qx[1]> plot(x,y,xlab="quantiliosservati",ylab="quantili + teorici",xlim=c(12,35),ylim=c(14,32),main="qq plot+ normale BMI",pch=21,bg="red",col="black",cex=1)> abline(coeff2,coeff1)

15 20 25 30 35

1520

2530

qq plot normale BMI

quantili osservati

quan

tili t

eoric

i

Si può ancora evidenziare l’ipernormalità e l’asimmetria positiva della distribuzione del BMI.

13. Esercizi

1) Su un gruppo di 49 pazienti diabetici, trattati con farmaci ipoglicemizzanti, sono stati rilevati i seguenti valori (mg/100ml) della glicemia a digiuno:138, 164, 150, 132, 144, 125, 149, 157, 146, 158, 140, 147, 136, 148, 152, 144, 168, 126, 138, 176, 163, 119, 154, 165, 146, 173, 142, 141, 135, 153, 140, 135, 161, 145, 135, 142, 150, 156, 145, 128.

Calcolare media, mediana, quartili e deviazione standard. Rappresentare i dati in forma tabellare (suddivisione in classi di ampiezza 5mg/100ml) e con grafico adeguato.

32

Page 33: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

2) Su un gruppo di 22 pazienti, sono state rilevate le seguenti variabili:

pz. sesso età altezza (cm) peso (kg) liv. istruzione01 2 68 167 50 306 1 70 170 64 204 1 84 180 70 105 2 65 166 48 407 1 79 195 85 121 2 67 156 52 419 1 75 183 63 310 1 76 178 81 408 2 74 152 44 318 1 82 180 85 103 2 68 170 60 302 1 71 176 55 413 2 79 167 56 311 1 81 179 71 220 2 69 168 50 016 2 66 165 60 215 1 82 181 69 414 2 68 165 55 309 2 84 183 80 112 2 72 167 63 317 2 80 172 65 122 1 70 175 67 2

sesso: 1-maschio, 2-femminaliv.istruzione: 0-non rilevato; 1-lic. element.; 2-lic. sc. media 3-diploma sc. superiore; 4-laurea.

1) Individuare tra le variabili della tab. quelle qualitative e quelle quantitative;

2) Per le variabili quantitative calcolare media, mediana, deviazione standard e quantili;

3) Suddividere in classi di frequenze le

variabili quantitative e costruire l’istogramma;

4) Calcolare media e deviazione standard delle variabili peso, altezza suddivise per sesso;

5) Costruire la tabella di frequenza della

variabile livello di istruzione suddivisa per classi di età (ampiezza 5 anni);

6) Calcolare media e deviazione standard della variabile peso per classi di età (ampiezza 5 anni) e per sesso.

3) Un podista si sposta lungo un percorso, costituito da 4 tratti di uguale distanza, a velocità diverse e precisamente: il primo tratto a 8 km/h, il secondo a 12 km/h, il terzo a 6 km/h e l’ultimo a 13 km/h. Individuare e calcolare l’indice medio più adeguato per la velocità media del podista.

4) Su 50 soggetti di età 30−60 anni sono stati rilevati i seguenti valori di fosfatasemia (in mg/ml):

Classe di fosfatasemia 16−25 26−30 31−35 36−41 TotaleNumero soggetti 3 20 18 9 50

Rappresentare graficamente, mediante opportuno diagramma, la distribuzione del carattere quantitativo fosfatasemia. Calcolare: la fosfatasemia media, quella mediana, la deviazione standard di tale variabile ed i quartili: interpretarne il significato.

5) Si consideri la seguente distribuzione di 100 individui secondo il numero di farmaci (X) acquistati in un anno:

X 5 6 7 8 9 10 11 12Frequenza assoluta 3 7 31 27 14 8 6 4

Calcolare media aritmetica, varianza, 5° e 95° percentile della distribuzione; misurarne l’asimmetria e la curtosi analizzandone i risultati.

33

Page 34: APPUNTI DI STATISTICA DESCRITTIVA 1€¦ · Ma, cosa non trascurabile, R è disponibile nelle piattaforme UNIX, Windows e MacOS come software libero nei termini della GNU General

6) A 50 pazienti maschi di età 25-34 anni, ricoverati per incidente stradale non grave, viene misurata alla dimissione la pressione sistolica (PAS), ottenendo la distribuzione di frequenza di tabella:

PAS (mmHg) 70–|80 80–|90 90–|100 100–|110 110–|120 120–|130 130–|140 140–|150Frequenza 2 3 10 15 5 9 2 4

Si calcolino la moda, la mediana, la media, la deviazione standard, il coefficiente di variazione e un indice di asimmetria e di curtosi.

7) Un insieme di 80 persone presenta le seguenti distribuzioni di peso e altezza:

Peso (kg) 40 |– 50 50 |– 60 60 |– 70 70 |– 80 80 |– 90Frequenza assoluta 5 20 40 12 3

Altezza (cm) 130 |– 150 150 |– 160 160 |– 170 170 |– 180 180 |– 190Frequenza assoluta 10 10 30 20 10

Rappresentare graficamente le due distribuzioni; calcolare indici di variabilità assoluta e relativa; individuare il carattere per il quale il campione presenta maggiore variabilità.

8) Si considerino due gruppi di pazienti: M = maschi e F = femmine, con i seguenti valori di sintesi della pressione diastolica (PAD):

Gruppo M Fnumerosità 25 15media aritmetica (mmHg) 80.5 76mediana (mmHg) 76 76dev. stand. (mmHg) 6.5 6

a) Calcolare la media aritmetica complessiva dei due gruppi.b) Se al gruppo M viene aggiunto un paziente con valore di PAD pari a 90 mmHg, la pressione mediana di tale gruppo varia necessariamente? Quale valore pressorio (se esiste) dovrebbe far rilevare il nuovo paziente affinché, nella distribuzione dei 26 valori, la pressione media rimanga inalterata? Se, rilevata la PAD del nuovo paziente, nella distribuzione ottenuta di valori ordinati risultasse PAD(14) = 78, la mediana rimarrebbe invariata? c) Se, invece, viene aggiunta una paziente (gruppo F), individuare (se esiste) il valore pressorio di tale paziente affinché, nella distribuzione dei 16 valori del gruppo F, la mediana rimanga inalterata.

9) In riferimento all’esercizio precedente: a) calcolare lo deviazione standard per il complesso dei 40 pazienti3.

b) Sulla base degli indicatori riportati, si può dire se la distribuzione complessiva della PAD è simmetrica?c) Se si considera un ventiseiesimo paziente maschio, quale valore pressorio egli dovrebbe far misurare affinché nel gruppo M la D.S. rimanga inalterata?d) Se, invece, si considera una ulteriore paziente con valore di PAS che mantiene inalterata la media aritmetica del gruppo F, come varia la D.S. del gruppo?

3 Il quadrato della D.S. può essere determinato attraverso la: 1nn

)xx(n)xx(n1)(ns1)(ns

21

222

2112

221

21

−+

−+−+−+− ,

essendo n1 ed n2 le numerosità, s1 ed s2 le dev. standard e 1x e 2x le medie dei due gruppi e x la media complessiva.

34