Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
ΑΝΑΛΥΣΗ ∆Ε∆ΟΜΕΝΩΝ
5. Στατιστική συµπερασµατολογία γιαποσοτικές µεταβλητές:Έλεγχοι υποθέσεων και διαστήµαταεµπιστοσύνης
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 2
∆ιαστήµατα εµπιστοσύνης καιέλεγχοι υποθέσεων για τη µέση τιµή
Για µια ποσοτική µεταβλητή µας ενδιαφέρειγια την (άγνωστη) µέση τιµή της στονπληθυσµό:Έλεγχος υπόθεσηςΗ0: µ=µ0
Η1: µ≠µ0
Εύρεση δ.ε. (π.χ. 90%, 95%, 99%)
Χρησιµοποιούµε:
nsx ,, 2
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 3
Παράδειγµα (hobbit restaurant)
Από το δείγµα µας µπορούµε ναισχυριστούµε ότι οι άνθρωποι τηςπεριοχής που µας ενδιαφέρειξοδεύουν µηνιαία κατά µέσο όρο $200 για εστιατόρια; ή ακριβέστερα: ο πραγµατικός µέσοςόρος (µ) διαφέρει σηµαντικά από τα$200;
Να βρεθούν τα 90%, 95%, 99% δ.ε.Για την πραγµατική µέση τιµή
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 4
Στατιστικά µέτρα δείγµατος(Frequencies)
Statistics
How many total dollars do you spend per month inrestaurants (for your meals only)?
4000
$150.0525$4.63531
$135.0000$92.706298594,456
$5.00$450.00
ValidMissing
N
MeanStd. Error of MeanMedianStd. DeviationVarianceMinimumMaximum
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 5
∆ιαδικασία One-sample T test
Εκτέλεση τουστατιστικούελέγχουStudent’s t-testγια ένα δείγµα
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 6
Ορισµός τιµής ελέγχου καιεπιπέδου εµπιστοσύνης
H0: µ=200Η1: µ≠200
90% δ.ε. για το µ-200
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 7
ΑποτελέσµαταOne-Sample Test
-10,775 399 ,000 -$49.94750 -$57.5897 -$42.3053
How many total dollarsdo you spend permonth in restaurants(for your meals only)?
t df Sig. (2-tailed)Mean
Difference Lower Upper
90% ConfidenceInterval of the
Difference
Test Value = 200
Επειδή sig = 0.000…<0.05Απορρίπτεται η H0∆εχόµαστε την Η1: µ≠200 6947.1574103.142
3053.422005897.57≤≤
⇒−≤−≤−µµ
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 8
Ερµηνεία αποτελεσµάτων
Η (πραγµατική) µέση τιµή τωνχρηµάτων που διαθέτουν οι κάτοικοιτης περιοχής για εστιατόρια κάθε µήναδιαφέρει σηµαντικά από την τιµήελέγχου ($200)Το 90% δ.ε. για τη µέση τιµή είναι
($142.41, $157.69)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 9
Συνήθως θέτουµε µ0=0One-Sample Test
32,372 399 ,000 $150.0525 $142.4103 $157.6947
How many total dollarsdo you spend permonth in restaurants(for your meals only)?
t df Sig. (2-tailed)Mean
Difference Lower Upper
90% ConfidenceInterval of the
Difference
Test Value = 0
One-Sample Test
32,372 399 ,000 $150.0525 $140.9398 $159.1652
How many total dollarsdo you spend permonth in restaurants(for your meals only)?
t df Sig. (2-tailed)Mean
Difference Lower Upper
95% ConfidenceInterval of the
Difference
Test Value = 0
One-Sample Test
32,372 399 ,000 $150.0525 $138.0553 $162.0497
How many total dollarsdo you spend permonth in restaurants(for your meals only)?
t df Sig. (2-tailed)Mean
Difference Lower Upper
99% ConfidenceInterval of the
Difference
Test Value = 0
90% δ.ε. για το µ:($142.41,$157.69)
95% δ.ε. για το µ:($140.94,$159.17)
99% δ.ε. για το µ:($138.06,$162.05)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 10
ΣυµπέρασµαΘέτοντας τιµή ελέγχου 0 και ορίζοντας τοεπίπεδο εµπιστοσύνης παίρνουµε τοαντίστοιχο δ.ε. για το µΑπό το δ.ε. µπορούµε να ελέγξουµε και τηνυπόθεση που µας ενδιαφέρειΠ.χ. Αφού το 99% δ.ε. δεν περιλαµβάνει το200, µπορούµε να απορρίψουµε την Η0 µε«σιγουριά» 99%Το εύρος των δ.ε. αυξάνει όσο αυξάνει καιτο επίπεδο εµπιστοσύνης
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 11
Εφαρµογές
Να βρεθούν 95% και 99% δ.ε. γιαόλες τις ποσοτικές συνεχείςµεταβλητές των δεδοµένων
avpriceηλικία (προκύπτει από τη yrborn)reincome
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 12
Σύγκριση µέσων τιµών2 ανεξάρτητων δειγµάτων
Για µια ποσοτική µεταβλητή σε δύοανεξάρτητους πληθυσµούς µαςενδιαφέρει για τις (άγνωστες) µέσεςτιµές τους:Έλεγχος υπόθεσηςΗ0: µ1=µ2
Η1: µ1≠µ2
Εύρεση δ.ε. για τη διαφορά µ1-µ2 (90%, 95%, 99%)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 13
Παράδειγµα
∆ιαφέρουν οι µέσες τιµές των µηνιαίωνχρηµάτων που ξοδεύουν οι άντρες από αυτάπου ξοδεύουν οι γυναίκες;Προσοχή! Απαιτείται ύπαρξη 2 µεταβλητών(στηλών): µια ποσοτική (αυτή πουενδιαφέρει να συγκρίνουµε) και µιακατηγορική (αυτή που ορίζει τουςπληθυσµούς)Στο παράδειγµα θα χρησιµοποιηθούν οιtotspent και gender
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 14
∆ιαδικασία:Independent-Samples T Test
Εκτέλεση τουστατιστικούελέγχουStudent’s t-testγια δύοανεξάρτηταδείγµατα
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 15
ποσοτικήµεταβλητή
κατηγορικήµεταβλητή
τιµές που ορίζουν τουςπληθυσµούς (οµάδες)
ορισµόςδ.ε.
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 16
Αποτελέσµατα - περιγραφικάGroup Statistics
204 $154.1275 $96.82936 $6.77941
196 $145.8112 $88.25842 $6.30417
What is your gender?Male
Female
How many total dollars doyou spend per month inrestaurants (for yourmeals only)?
N Mean Std. DeviationStd. Error
Mean
Περιγραφικά στατιστικάτης ποσοτικήςµεταβλητής στα δύοδείγµατα
Είναι στατιστικάσηµαντική ηδιαφορά αυτή;
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 17
Αποτελέσµατα - συµπερασµατολογίαIndependent Samples Test
,565 ,453 ,897 398 ,370 $8.31623 $9.27476 -$9.91742 $26.54987
,898 396,908 ,370 $8.31623 $9.25759 -$9.88382 $26.51627
Equal variancesassumedEqual variancesnot assumed
How many total dollarsdo you spend permonth in restaurants(for your meals only)?
F Sig.
Levene's Test forEquality of Variances
t df Sig. (2-tailed)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
1ο βήµα: Είναι οιδιασπορές τωνπληθυσµώνίσες;
sig. =0.453>0.05Οι διασπορές δενέχουν διαφορά(θεωρούνται ίσες)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 18
Αποτελέσµατα - συµπερασµατολογίαIndependent Samples Test
,565 ,453 ,897 398 ,370 $8.31623 $9.27476 -$9.91742 $26.54987
,898 396,908 ,370 $8.31623 $9.25759 -$9.88382 $26.51627
Equal variancesassumedEqual variancesnot assumed
How many total dollarsdo you spend permonth in restaurants(for your meals only)?
F Sig.
Levene's Test forEquality of Variances
t df Sig. (2-tailed)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
2ο βήµα: Θεωρούµε τοt-test για έλεγχοµέσων τιµώνυποθέτοντας ίσεςδιασπορές
sig. =0.370>0.05Οι µέσες τιµές δενέχουν διαφορά(θεωρούνται ίσες)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 19
Αποτελέσµατα - συµπερασµατολογίαIndependent Samples Test
,565 ,453 ,897 398 ,370 $8.31623 $9.27476 -$9.91742 $26.54987
,898 396,908 ,370 $8.31623 $9.25759 -$9.88382 $26.51627
Equal variancesassumedEqual variancesnot assumed
How many total dollarsdo you spend permonth in restaurants(for your meals only)?
F Sig.
Levene's Test forEquality of Variances
t df Sig. (2-tailed)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
3ο βήµα: Θεωρούµε τοδ.ε. της διαφοράς τωνµέσων τιµώνυποθέτοντας ίσεςδιασπορές
95% δ.ε. για τηδιαφορά µ1-µ2:(-9.92, 26.55)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 20
Συµπεράσµατα
Πρώτα εξετάζουµε αν είναι οιδιασπορές των πληθυσµών ίσεςΤα αποτελέσµατα κάτω από τηνυπόθεση ίσων διασπορών γενικάδιαφέρουν από αυτά κάτω από τηνυπόθεση άνισων διασπορώνΕδώ οι διασπορές µπορούν ναθεωρηθούν ίσες
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 21
Συµπεράσµατα (συν.)
Οι µέσες τιµές των χρηµάτων πουξοδεύουν οι άνδρες και οι γυναίκεςδεν παρουσιάζουν στατιστικάσηµαντική διαφορά (µ1=µ2)Το παραπάνω συµπέρασµα προκύπτεικαι από το 95% δ.ε. το οποίο περιέχειτο 0
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 22
Σχετικές γραφικές παραστάσεις:Error Bars
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 23
Σχετικές γραφικές παραστάσεις:Error Bars
δ.ε. για τη µέση τιµήκάθε φύλουξεχωριστά: Παρόλοπου για τους άνδρεςφαίνονταιυψηλότερες τιµές, ηδιαφορά δεν είναιστατιστικά σηµαντική(προσέξτε τηνεπικάλυψη των 2 δ.ε.)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 24
Εφαρµογές
Να γίνουν οι έλεγχοι για διαφορές τωνµέσων τιµών όλων των ποσοτικώνσυνεχών µεταβλητών των δεδοµένων(totspent, avprice,ηλικία,reincome)ανάµεσα σε 2 οµάδες που ορίζονταιαπό δίτιµες κατηγορικές µεταβλητές(Yes/No) ή ακόµα και από άλλεςκατηγορικές (π.χ. στην marital –married/single)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 25
Σύγκριση µέσων τιµών2 εξαρτηµένων δειγµάτων
Για µια ποσοτική µεταβλητή (ή δύοπαρόµοιες) που µετριέται στα ίδιαακριβώς άτοµα µας ενδιαφέρει για τις(άγνωστες) µέσες τιµές τους:Έλεγχος υπόθεσηςΗ0: µ1=µ2
Η1: µ1≠µ2
Εύρεση δ.ε. για τη διαφορά µ1-µ2 (90%, 95%, 99%)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 26
Παράδειγµα∆ιαφέρουν οι µέσες τιµές των βαθµολογιώνστις µεταβλητές variety και unusual;Οι µετρήσεις έχουν γίνει στα ίδια άτοµα(εποµένως αναφερόµαστε σε ένανπληθυσµό)Προσοχή! Η θεώρηση της βαθµολογίας 1-5 ως ποσοτική συνεχής µεταβλητή γίνεται γιατις ανάγκες του παραδείγµατος. Για αυτέςτις µεταβλητές καλύτεροι οι µη-παραµετρικοί έλεγχοιΑπαραίτητη η ύπαρξη των δύο µεταβλητώνσε δύο διαφορετικές στήλες
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 27
Η διαδικασία Paired-Samples T Test
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 28
Αποτελέσµατα – αρχικά στατιστικάPaired Samples Statistics
2,48 400 1,466 ,073
2,41 400 1,550 ,077
Prefer Large Variety ofEntreesPrefer Unusual Entrees
Pair1
Mean N Std. DeviationStd. Error
Mean
η διαφορά δεφαίνεται µεγάλη(πρέπει ναεπιβεβαιωθεί µε t-test)
Paired Samples Correlations
400 ,831 ,000Prefer Large Varietyof Entrees & PreferUnusual Entrees
Pair1
N Correlation Sig.
η συσχέτιση είναι σηµαντική(sig=0.000…<0.05)∆ικαιολογείται η χρήση Paired t-test.
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 29
Αποτελέσµατα – paired t-testPaired Samples Test
,070 ,882 ,044 -,017 ,157 1,588 399 ,113Prefer Large Varietyof Entrees - PreferUnusual Entrees
Pair1
Mean Std. DeviationStd. Error
Mean Lower Upper
95% ConfidenceInterval of the
Difference
Paired Differences
t df Sig. (2-tailed)
sig. =0.113>0.05Οι µέσες τιµές δενέχουν διαφορά(θεωρούνται ίσες)
95% δ.ε. για τηδιαφορά µ1-µ2:(-0.017, 0.157)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 30
Συµπεράσµατα
Οι µέσες τιµές των βαθµολογιών πουδίνουν τα ίδια άτοµα σε 2 διαφορετικές ερωτήσεις δενπαρουσιάζουν στατιστικά σηµαντικήδιαφορά (µ1=µ2)Το παραπάνω συµπέρασµα προκύπτεικαι από το 95% δ.ε. το οποίο περιέχειτο 0
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 31
Εφαρµογές
Να γίνουν παρόµοιοι έλεγχοι και γιαάλλα ζευγάρια βαθµολογιών:water-simplewater-jazz….