Sudah ada beberapa jawaban yang sangat baik untuk pertanyaan ini, tetapi saya ingin menjawab mengapa kesalahan standar adalah apa itu, mengapa kami menggunakan sebagai kasus terburuk, dan bagaimana kesalahan standar bervariasi dengan n .p=0.5n
Andaikata kita mengambil jajak pendapat hanya satu pemilih, sebut saja dia pemilih 1, dan tanyakan "apakah Anda akan memilih Partai Ungu?" Kita dapat mengkodekan jawaban sebagai 1 untuk "ya" dan 0 untuk "tidak". Katakanlah probabilitas "ya" adalah . Kami sekarang memiliki variabel acak biner X 1 yaitu 1 dengan probabilitas p dan 0 dengan probabilitas 1 - p . Kami mengatakan bahwa X 1 adalah variabel Bernouilli dengan probabilitas keberhasilan p , yang dapat kita tulis X 1 ∼ B e r n o u i l l i ( p )pX1p1−pX1pX1∼Bernouilli(p). Nilai yang diharapkan, atau rata-rata, dari diberikan oleh E ( X 1 ) = ∑ x P ( X 1 = x ) di mana kami menjumlahkan semua hasil yang mungkin x dari X 1 . Tetapi hanya ada dua hasil, 0 dengan probabilitas 1 - p dan 1 dengan probabilitas p , jadi jumlahnya hanya E ( X 1 ) = 0 ( 1 - p ) + 1 ( p )X1E(X1)=∑xP(X1=x)xX11−pp . Berhenti dan pikirkan. Ini sebenarnya terlihat sangat masuk akal - jika ada peluang 30% dari pemilih 1 mendukung Partai Ungu, dan kami telah mengkodekan variabel menjadi 1 jika mereka mengatakan "ya" dan 0 jika mereka mengatakan "tidak", maka kami akan mengharapkan X 1 menjadi rata-rata 0,3.E(X1)=0(1−p)+1(p)=pX1
Mari kita pikirkan apa yang terjadi, kita persegi . Jika X 1 = 0 maka X 2 1 = 0 dan jika X 1 = 1 maka X 2 1 = 1 . Jadi sebenarnya X 2 1 = X 1 dalam kedua kasus. Karena mereka sama, maka mereka harus memiliki nilai yang diharapkan sama, jadi E ( X 2 1 ) = p . Ini memberi saya cara mudah menghitung varians dari variabel Bernouilli: Saya menggunakan V aX1X1=0X21=0X1=1X21=1X21=X1E(X21)=p sehingga standar deviasi adalah σ X 1 = √Va r ( X1) = E ( X21) - E ( X1)2= p - p2= p ( 1 - p ) .σX1= p ( 1 - p )-------√
Jelas saya ingin berbicara dengan pemilih lain - sebut saja mereka pemilih 2, pemilih 3, hingga pemilih . Mari kita asumsikan mereka semua memiliki probabilitas yang sama p mendukung Partai Purple. Sekarang kita memiliki n variabel Bernouilli, X 1 , X 2 hingga X n , dengan masing-masing X i ∼ B e r n o u l l i ( p ) untuk i dari 1 hingga n . Mereka semua memiliki mean, p , dan varians yang sama, p (nhalnX1X2XnXsaya∼Bernoulli(p)inp .p(1−p)
Saya ingin menemukan berapa banyak orang dalam sampel saya berkata "ya", dan untuk melakukan itu saya bisa menambahkan semua . Aku akan menulis X = Σ n i = 1 X i . Saya dapat menghitung nilai rata-rata atau yang diharapkan dari X dengan menggunakan aturan bahwa E ( X + Y ) = E ( X ) + E ( Y ) jika harapan itu ada, dan memperluasnya ke E ( X 1 + X 2 + ... + XXiX=∑ni=1XiXE(X+Y)=E(X)+E(Y) . Tapi saya menambahkan n dari harapan itu, dan masing-masing adalah p , jadi saya mendapatkan total bahwa E ( X ) = n p . Berhenti dan pikirkan. Jika saya polling 200 orang dan masing-masing memiliki peluang 30% untuk mengatakan mereka mendukung Partai Ungu, tentu saja saya berharap 0,3 x 200 = 60 orang mengatakan "ya". Jadi n p rumus terlihat benar. Kurang "jelas" adalah bagaimana menangani varians.E(X1+X2+…+Xn)=E(X1)+E(X2)+…+E(Xn)npE(X)=npnp
Ada adalah sebuah aturan yang mengatakan
tapi aku bisa hanya menggunakannya jika variabel acak saya tidak tergantung satu sama lain . Baiklah, mari kita buat asumsi itu, dan dengan logika yang sama sebelum saya bisa melihat V itu
Var(X1+X2+…+Xn)=Var(X1)+Var(X2)+…+Var(Xn)
. Jika variabel
X adalah jumlah dari
n percobaan Bernoulli
independen, dengan probabilitas keberhasilan yang identik
p , maka kita mengatakan bahwa
X memiliki distribusi binomial,
X ∼ B i n o m i a l ( n , p ) . Kami baru saja menunjukkan bahwa rata-rata seperti distribusi binomial adalah
n p dan varians adalah
n pVar(X)=np(1−p)Xn pXX∼Binomial(n,p)np .
np(1−p)
Masalah awal kami adalah bagaimana memperkirakan dari sampel. Cara yang masuk akal untuk mendefinisikan estimator kami adalah p = X / n . Misalnya 64 dari sampel 200 orang kami mengatakan "ya", kami memperkirakan bahwa 64/200 = 0,32 = 32% orang mengatakan mereka mendukung Partai Ungu. Anda dapat melihat bahwa p adalah "skala-down" versi jumlah kami ya-pemilih, X . Itu berarti masih variabel acak, tetapi tidak lagi mengikuti distribusi binomial. Kita dapat menemukan rerata dan variansnya, karena ketika kita skala variabel acak dengan faktor konstan k maka ia mematuhi aturan berikut: E ( k X )pp^=X/np^Xk (jadi skala rata-rata dengan faktor yang sama k ) dan V a r ( k X ) = k 2 V a r ( X ) . Perhatikan bagaimana skala varian oleh k 2 . Itu masuk akal ketika Anda tahu bahwa secara umum, varians diukur dalam kuadrat dari unit apa pun variabel diukur: tidak begitu berlaku di sini, tetapi jika variabel acak kami adalah tinggi dalam cm maka varians akan berada di c m 2 yang memiliki skala berbeda - jika Anda menggandakan panjang, Anda melipatgandakan area.E(kX)=kE(X)kVar(kX)=k2Var(X)k2cm2
Di sini faktor skala kami adalah . Ini memberi kitaE( p )=11n. Ini bagus! Rata-rata, kami estimator p adalah persis apa yang "harus", yang benar probabilitas (atau populasi) bahwa pemilih acak mengatakan bahwa mereka akan memilih Partai Purple. Kami mengatakan bahwa estimator kami adalahberisi. Tetapi sementara itu benar rata-rata, kadang-kadang itu akan terlalu kecil, dan kadang-kadang terlalu tinggi. Kita bisa melihat betapa salahnya hal itu dengan melihat variansnya. Vsebuahr( p )=1E(p^)=1nE(X)=npn=pp^ . Simpangan baku adalah akar kuadrat,√Var(p^)=1n2Var(X)=np(1−p)n2=p(1−p)n , dan karena itu memberi kita pemahaman tentang seberapa buruk penaksir kita akan dimatikan (ini secara efektif merupakanakar kuadrat kesalahan, cara menghitung rata-rata kesalahan yang memperlakukan kesalahan positif dan negatif sama buruknya, dengan mengkuadratkan mereka sebelum meratakan ), biasanya disebutkesalahan standar. Aturan praktis yang baik, yang bekerja dengan baik untuk sampel besar dan yang dapat ditangani dengan lebih ketat menggunakanTeorema Batas Pusat yangterkenal, adalah bahwa sebagian besar waktu (sekitar 95%) perkiraan akan salah dengan kurang dari dua kesalahan standar.p(1−p)n−−−−−√
Karena muncul dalam penyebut fraksi, nilai yang lebih tinggi dari - sampel yang lebih besar - membuat kesalahan standar lebih kecil. Itu adalah berita bagus, seolah-olah saya ingin kesalahan standar kecil saya hanya membuat ukuran sampel cukup besar. Berita buruknya adalah n berada di dalam akar kuadrat, jadi jika saya melipatgandakan ukuran sampel, saya hanya akan membagi dua kesalahan standar. Kesalahan standar yang sangat kecil akan melibatkan sampel yang sangat besar, karenanya mahal. Ada masalah lain: jika saya ingin menargetkan kesalahan standar tertentu, katakan 1%, maka saya perlu tahu apa nilai p untuk digunakan dalam perhitungan saya. Saya mungkin menggunakan nilai historis jika saya memiliki data polling sebelumnya, tetapi saya ingin mempersiapkan kasus terburuk. Nilai pnnpppaling bermasalah? Grafik adalah instruktif.
p=0.5
p(1−p)−−−−−−−√=p−p2−−−−−√=14−(p2−p+14)−−−−−−−−−−−−−−√=14−(p−12)2−−−−−−−−−−−√
p−12=0p=12
0.25n−−−√=0.5n√<0.01n−−√>50n>2500
p∑Xin
p=0.5p=0.7p=0.3p(1−p)−−−−−−−√