Jawaban singkatnya:
Pada dasarnya itu lebih meyakinkan untuk memiliki 600 dari 1000 dari enam dari 10 karena, dengan preferensi yang sama itu jauh lebih mungkin untuk 6 dari 10 terjadi secara kebetulan.
Mari kita membuat asumsi - bahwa proporsi yang lebih suka jeruk dan apel sebenarnya sama (masing-masing, 50%). Sebut ini hipotesis nol. Dengan probabilitas yang sama ini, kemungkinan kedua hasil tersebut adalah:
- Diberikan sampel 10 orang, ada peluang 38% untuk secara acak mendapatkan sampel 6 orang atau lebih yang lebih suka jeruk (yang bukan tidak mungkin).
- Dengan sampel 1000 orang, ada kurang dari 1 dalam satu miliar peluang memiliki 600 atau lebih dari 1000 orang lebih suka jeruk.
(Untuk kesederhanaan saya mengasumsikan populasi yang tak terbatas dari mana untuk mengambil sampel dalam jumlah tak terbatas).
Derivasi sederhana
Salah satu cara untuk mendapatkan hasil ini adalah dengan hanya mendaftar cara-cara potensial di mana orang dapat menggabungkan dalam sampel kami:
Untuk sepuluh orang itu mudah:
Pertimbangkan untuk mengambil sampel 10 orang secara acak dari populasi orang tak terbatas dengan preferensi yang sama untuk apel atau jeruk. Dengan preferensi yang sama, mudah untuk mendaftar semua kombinasi potensial 10 orang:
Berikut daftar lengkapnya.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r adalah jumlah hasil (orang yang lebih suka jeruk), C adalah jumlah cara yang memungkinkan banyak orang lebih suka jeruk, dan p adalah probabilitas terpisah yang dihasilkan dari banyak orang lebih suka jeruk dalam sampel kami.
(p hanya C dibagi dengan jumlah total kombinasi. Perhatikan bahwa ada 1024 cara mengatur dua preferensi ini secara total (yaitu 2 pangkat 10).
- Misalnya hanya ada satu cara (satu sampel) untuk 10 orang (r = 10) untuk semua lebih suka jeruk. Hal yang sama berlaku untuk semua orang yang lebih suka apel (r = 0).
- Ada 10 kombinasi berbeda yang menghasilkan sembilan dari mereka lebih suka jeruk. (Satu orang berbeda lebih suka apel di setiap sampel).
- Ada 45 sampel (kombinasi) di mana 2 orang lebih suka apel, dll, dll.
(Dalam kita bicara umum tentang n C r kombinasi dari hasil r dari sampel n orang. Ada kalkulator online dapat Anda gunakan untuk memverifikasi nomor ini.)
Daftar ini memungkinkan kami memberi kami probabilitas di atas menggunakan pembagian yang adil. Ada kemungkinan 21% untuk mendapatkan 6 orang dalam sampel yang lebih suka jeruk (210 dari 1024 kombinasi). Peluang mendapatkan enam orang atau lebih dalam sampel kami adalah 38% (jumlah semua sampel dengan enam orang atau lebih, atau 386 dari 1024 kombinasi).
Secara grafis, probabilitasnya terlihat seperti ini:
Dengan jumlah yang lebih besar, jumlah kombinasi potensial tumbuh dengan cepat.
Untuk sampel hanya 20 orang ada 1.048.576 sampel yang mungkin, semua dengan kemungkinan yang sama. (Catatan: Saya hanya menunjukkan setiap kombinasi kedua di bawah).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
Masih ada satu sampel di mana semua 20 orang lebih suka jeruk. Kombinasi yang menampilkan hasil campuran jauh lebih mungkin, hanya karena ada banyak lagi cara orang-orang dalam sampel dapat digabungkan.
Sampel yang bias jauh lebih tidak mungkin, hanya karena ada lebih sedikit kombinasi orang yang dapat menghasilkan sampel tersebut:
Dengan hanya 20 orang di setiap sampel, probabilitas kumulatif untuk memiliki 60% atau lebih (12 atau lebih) orang dalam sampel kami lebih memilih jeruk turun menjadi hanya 25%.
Distribusi probabilitas dapat dilihat menjadi lebih tipis dan lebih tinggi:
Dengan 1000 orang jumlahnya sangat besar
Kita dapat memperluas contoh di atas untuk sampel yang lebih besar (tetapi jumlahnya tumbuh terlalu cepat untuk layak untuk mendaftar semua kombinasi), sebagai gantinya saya telah menghitung probabilitas dalam R:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
Peluang kumulatif untuk memiliki 600 orang atau lebih dari 1000 orang lebih suka jeruk hanya 1,364232e-10.
Distribusi probabilitas sekarang jauh lebih terkonsentrasi di sekitar pusat:
[
(Misalnya untuk menghitung probabilitas tepat 600 dari 1000 orang lebih memilih jeruk dalam penggunaan R dbinom(600, 1000, prob=0.5)
yang sama dengan 4,633908e-11, dan probabilitas 600 atau lebih banyak orang 1-pbinom(599, 1000, prob=0.5)
, yang sama dengan 1,364232e-10 (kurang dari 1 dalam satu miliar).