Satu-satunya cara untuk mengetahui varians populasi adalah dengan mengukur seluruh populasi.
Namun, mengukur seluruh populasi seringkali tidak layak; membutuhkan sumber daya termasuk uang, peralatan, personel, dan akses. Untuk alasan ini, kami mengambil sampel populasi; yaitu mengukur subset dari populasi. Proses pengambilan sampel harus dirancang dengan hati-hati dan dengan tujuan menciptakan populasi sampel yang mewakili populasi; memberikan dua pertimbangan utama - ukuran sampel dan teknik pengambilan sampel.
Contoh mainan: Anda ingin memperkirakan variasi berat untuk populasi dewasa di Swedia. Ada sekitar 9,5 juta orang Swedia sehingga tidak mungkin Anda bisa keluar dan mengukur semuanya. Oleh karena itu Anda perlu mengukur populasi sampel dari mana Anda dapat memperkirakan varians dalam populasi yang benar.
Anda pergi untuk mencicipi populasi Swedia. Untuk melakukan ini, Anda pergi dan berdiri di pusat kota Stockholm, dan kebetulan berdiri tepat di luar rantai burger fiktif Swedia Burger Kungen . Bahkan, hujan dan dingin (pasti musim panas) sehingga Anda berdiri di dalam restoran. Di sini Anda menimbang empat orang.
Kemungkinannya, sampel Anda tidak akan mencerminkan populasi Swedia dengan sangat baik. Apa yang Anda miliki adalah sampel orang-orang di Stockholm, yang berada di restoran burger. Ini adalah teknik pengambilan sampel yang buruk karena kemungkinan bias hasil dengan tidak memberikan representasi yang adil dari populasi yang Anda coba perkirakan. Selain itu, Anda memiliki ukuran sampel yang kecil, jadi Anda memiliki risiko tinggi untuk memilih empat orang yang berada di ekstrem populasi; sangat ringan atau sangat berat. Jika Anda sampel 1000 orang, Anda cenderung menyebabkan bias pengambilan sampel; jauh lebih kecil kemungkinannya untuk memilih 1.000 orang yang tidak biasa daripada memilih empat orang yang tidak biasa. Ukuran sampel yang lebih besar setidaknya akan memberi Anda perkiraan yang lebih akurat tentang rata-rata dan variasi berat di antara para pelanggan Burger Kungen.
Histogram menggambarkan efek teknik pengambilan sampel, distribusi abu-abu dapat mewakili populasi Swedia yang tidak makan di Burger Kungen (rata-rata 85 kg), sedangkan merah dapat mewakili populasi pelanggan Burger Kungen (rata-rata 100 kg) , dan garis biru bisa menjadi empat orang yang Anda sampel. Teknik pengambilan sampel yang benar perlu untuk menimbang populasi secara adil, dan dalam hal ini ~ 75% dari populasi, dengan demikian 75% dari sampel yang diukur, tidak boleh menjadi pelanggan Burger Kungen.
Ini adalah masalah besar dengan banyak survei. Misalnya, orang yang cenderung menanggapi survei kepuasan pelanggan, atau jajak pendapat dalam pemilihan, cenderung diwakili secara tidak proporsional oleh mereka yang berpandangan ekstrem; orang-orang dengan opini yang kurang kuat cenderung lebih suka mengungkapkannya.
Titik pengujian hipotesis adalah ( tidak selalu ), misalnya, untuk menguji apakah dua populasi berbeda satu sama lain. Misalnya, apakah pelanggan Burger Kungen memiliki berat lebih dari Swedia yang tidak makan di Burger Kungen? Kemampuan untuk menguji ini secara akurat bergantung pada teknik pengambilan sampel yang tepat dan ukuran sampel yang cukup.
Kode R untuk menguji mewujudkan semua ini:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Hasil:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024