Kumpulan data yang bertindak sebagai contoh tandingan terhadap kesalahpahaman populer * memang ada - saya telah membuat banyak sendiri dalam berbagai keadaan, tetapi sebagian besar dari mereka tidak akan menarik bagi Anda, saya yakin.
* (yang dilakukan oleh data Anscombe, karena ini merupakan respons terhadap orang yang beroperasi di bawah kesalahpahaman bahwa kualitas model dapat dilihat dari statistik identik yang Anda sebutkan)
Saya akan menyertakan beberapa di sini yang mungkin lebih menarik daripada sebagian besar yang saya hasilkan:
1) Salah satu contoh (dari beberapa) adalah beberapa contoh distribusi diskrit (dan dengan demikian kumpulan data) yang saya buat untuk melawan pernyataan umum bahwa nol kemiringan momen ketiga menyiratkan simetri. ( Teori Statistik Lanjutan Kendall dan Stuart menawarkan keluarga berkelanjutan yang lebih mengesankan.)
Berikut adalah salah satu contoh distribusi diskrit:
xP( X= x )- 42 / 613 / 651 / 6
(Dengan demikian, set data untuk sampel balik dalam kasus sampel jelas: )- 4 , - 4 , 1 , 1 , 1 , 5
Seperti yang Anda lihat, distribusi ini tidak simetris, namun kemiringan momen ketiga adalah nol. Demikian pula, seseorang dapat dengan mudah membangun contoh tandingan ke pernyataan yang serupa sehubungan dengan ukuran kemiringan kedua yang paling umum, koefisien kecondongan Pearson kedua ( ).3 ( m e a n - m e di a nσ)
Memang saya juga telah datang dengan distribusi dan / atau set data yang dua ukurannya berlawanan - yang cukup untuk melawan gagasan bahwa kemiringan adalah konsep tunggal, mudah dipahami, daripada gagasan yang agak licin, kita tidak benar-benar tahu bagaimana mengukur secara tepat dalam banyak kasus.
2) Ada satu set data yang dibangun dalam plot Box-and-whisker jawaban ini untuk distribusi multimodal , mengikuti pendekatan Choonpradub & McNeil (2005), yang menunjukkan empat set data yang tampak sangat berbeda dengan boxplot yang sama.
Secara khusus, distribusi miring yang jelas dengan plot box simetris cenderung mengejutkan orang.
3) Ada beberapa koleksi set data counterexample yang saya buat sebagai tanggapan terhadap ketergantungan berlebihan orang pada histogram, terutama dengan hanya beberapa nampan dan hanya pada satu nampan lebar dan nampan asal; yang mengarah pada pernyataan keyakinan yang salah tentang bentuk distribusi. Kumpulan data ini dan contoh tampilan dapat ditemukan di sini
Inilah salah satu contoh dari sana. Ini datanya:
1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98,
1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60,
3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62
Dan inilah dua histogram:
Itulah 34 pengamatan di atas dalam kedua kasus, hanya dengan breakpoint yang berbeda, satu dengan binwidth dan yang lainnya dengan binwidth . Plot dihasilkan dalam R sebagai berikut:0.810.8
x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98,
1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6,
3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)
4) Saya baru-baru ini membangun beberapa set data untuk menunjukkan intransitivitas dari tes Wilcoxon-Mann-Whitney - yaitu, untuk menunjukkan bahwa seseorang mungkin menolak alternatif satu arah untuk masing-masing dari tiga atau empat pasang set data, A, B, dan C, (dan D dalam empat contoh kasus) sehingga orang menyimpulkan bahwa (yaitu menyimpulkan bahwa B cenderung lebih besar dari A), dan juga untuk C terhadap B , dan A terhadap C (atau D melawan C dan A melawan D untuk 4 contoh kasus); masing-masing cenderung lebih besar (dalam arti bahwa ia memiliki lebih dari peluang bahkan lebih besar) daripada yang sebelumnya dalam siklus.P( B > A ) > 12
Berikut adalah satu set data tersebut, dengan 30 pengamatan di setiap sampel, berlabel A ke D:
1 2 3 4 5 6 7 8 9 10 11 12
A 1.58 2.10 16.64 17.34 18.74 19.90 1.53 2.78 16.48 17.53 18.57 19.05
B 3.35 4.62 5.03 20.97 21.25 22.92 3.12 4.83 5.29 20.82 21.64 22.06
C 6.63 7.92 8.15 9.97 23.34 24.70 6.40 7.54 8.24 9.37 23.33 24.26
D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50
13 14 15 16 17 18 19 20 21 22 23 24
A 1.64 2.01 16.79 17.10 18.14 19.70 1.25 2.73 16.19 17.76 18.82 19.08
B 3.39 4.67 5.34 20.52 21.10 22.29 3.38 4.96 5.70 20.45 21.67 22.89
C 6.18 7.74 8.63 9.62 23.07 24.80 6.54 7.37 8.37 9.09 23.22 24.16
D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65
25 26 27 28 29 30
A 1.42 2.56 16.73 17.01 18.86 19.98
B 3.44 4.13 6.00 20.85 21.82 22.05
C 6.57 7.58 8.81 9.08 23.43 24.45
D 10.29 11.48 12.19 13.09 14.68 15.36
Berikut ini contoh tes:
> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)
Wilcoxon rank sum test
data: adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
-Inf -1.336372
sample estimates:
difference in location
-2.500199
Seperti yang Anda lihat, tes satu sisi menolak nol; nilai-nilai dari A cenderung lebih kecil dari nilai-nilai dari B. Kesimpulan yang sama (pada nilai-p yang sama) berlaku untuk B vs C, C vs D dan D vs A. Siklus penolakan ini, dengan sendirinya, tidak secara otomatis menjadi masalah , jika kita tidak menafsirkannya berarti sesuatu yang tidak. (Ini masalah sederhana untuk mendapatkan nilai p yang jauh lebih kecil dengan sampel yang serupa, tetapi lebih besar.)
"Paradoks" yang lebih besar di sini muncul ketika Anda menghitung interval (satu sisi dalam kasus ini) untuk pergeseran lokasi - dalam setiap kasus 0 dikecualikan (intervalnya tidak identik dalam setiap kasus). Ini membawa kita pada kesimpulan bahwa ketika kita bergerak melintasi kolom data dari A ke B ke C ke D, lokasi bergerak ke kanan, namun hal yang sama terjadi lagi ketika kita kembali ke A.
Dengan versi yang lebih besar dari kumpulan data ini (distribusi nilai yang serupa, tetapi lebih banyak dari mereka), kita bisa mendapatkan signifikansi (satu atau dua ekor) pada tingkat signifikansi yang lebih kecil, sehingga seseorang dapat menggunakan penyesuaian Bonferroni misalnya, dan masih menyimpulkan masing-masing kelompok berasal dari distribusi yang bergeser dari yang berikutnya.
Ini menunjukkan kepada kita, antara lain, bahwa penolakan di Wilcoxon-Mann-Whitney tidak dengan sendirinya secara otomatis membenarkan klaim pergeseran lokasi.
(Meskipun ini bukan kasus untuk data ini, juga memungkinkan untuk membuat set di mana rata-rata sampel konstan, sementara hasil seperti di atas berlaku.)
Ditambahkan dalam edit nanti: Referensi yang sangat informatif dan mendidik tentang hal ini
Brown BM, dan Hettmansperger TP. (2002)
Kruskal-Wallis, beberapa comaprison dan dadu Efron.
Aust & N.ZJ Stat. , 44 , 427–438.
5) Pasangan lain dari counterexamples terkait datang ke sini - di mana ANOVA mungkin signifikan, tetapi semua perbandingan berpasangan tidak (diartikan dua cara yang berbeda di sana, menghasilkan counterexamples yang berbeda).
Jadi ada beberapa set data counterexample yang bertentangan dengan kesalahpahaman yang mungkin ditemui.
Seperti yang mungkin Anda tebak, saya sering membuat contoh tandingan semacam itu secara wajar (seperti halnya banyak orang lain), biasanya ketika diperlukan. Untuk beberapa kesalahpahaman umum ini, Anda dapat mengkarakterisasi contoh tandingan sedemikian rupa sehingga yang baru dapat dihasilkan sesuka hati (meskipun lebih sering, tingkat pekerjaan tertentu dilibatkan).
Jika ada hal-hal tertentu yang Anda mungkin tertarik, saya mungkin dapat menemukan lebih banyak set seperti itu (milik saya atau orang lain), atau mungkin bahkan membangun beberapa.
Salah satu trik yang berguna untuk menghasilkan data regresi acak yang memiliki koefisien yang Anda inginkan adalah sebagai berikut (bagian dalam tanda kurung adalah garis besar kode R):
a) mengatur koefisien yang Anda inginkan tanpa suara ( y = b0 + b1 * x1 + b2 * x2
)
b) menghasilkan istilah kesalahan dengan karakteristik yang diinginkan ( n = rnorm(length(y),s=0.4
)
c) mengatur regresi noise pada x yang sama ( nfit = lm(n~x1+x2)
)
d) tambahkan residu dari itu ke variabel y ( y = y + nfit$residuals
)
Selesai (Semuanya sebenarnya dapat dilakukan dalam beberapa baris R)