Jawaban:
Menurut thread SE biologi ini , standar deviasi tinggi badan pria dewasa adalah sekitar meter, dan betina sekitar meter.
Membulatkan ini ke satu tempat desimal akan memberikan meter. Fakta bahwa standar deviasi dilaporkan sebagai meter menunjukkan standar deviasi di bawah ini meter ... tetapi standar deviasi, katakanlah, meter masih akan konsisten dengan angka yang dilaporkan karena akan membulatkan ke , namun akan menunjukkan variasi ketinggian dalam sampel hanya sedikit kurang dari variabilitas yang kami amati setiap hari dalam populasi umum.
Apakah angka tersebut dilaporkan dengan baik? Nah, itu akan jauh lebih berguna jika standar deviasi telah dilaporkan ke dua tempat desimal, seperti rata-rata. Ini juga bisa berupa kesalahan numerik atau pembulatan sederhana; sebagai contohbisa terpotong kebukannya bulat . Tetapi mungkinkah angka tersebut merujuk pada kesalahan standar? Saya sering melihat angka-angka ditulis dengan cara yang membuatnya ambigu apakah standar deviasi atau kesalahan standar dikutip - misalnya, "mean sampel adalah".
Betapa masuk akal untuk penyimpangan standar yang benar untuk membulatkan ke satu tempat desimal? Kode R berikut mensimulasikan satu juta sampel ukuran dua puluh yang diambil dari populasi standar deviasi (seperti yang telah dilaporkan di tempat lain untuk tinggi betina), temukan standar deviasi untuk setiap sampel, plot histogram hasil, dan hitung proporsi sampel di mana standar deviasi yang diamati berada di bawah :
set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6
[1] 0.170691
Oleh karena itu standar deviasi yang membulat ke tidak tidak masuk akal, terjadi sekitar tujuh belas persen dari waktu jika ketinggian biasanya didistribusikan dengan standar deviasi sejati .
Tunduk pada asumsi ini kita juga dapat menghitung, daripada mensimulasikan, probabilitas itu sekitar tujuh belas persen, sebagai berikut:
di mana kita telah menggunakan fakta itu mengikuti distribusi chi-squared dengan derajat kebebasan. Anda dapat menghitung probabilitas dalam R menggunakan pchisq(q = 19*0.05^2/0.06^2, df = 19)
; jika Anda ganti oleh sejalan dengan angka yang diterbitkan untuk standar deviasi pria, probabilitas berkurang menjadi sekitar empat persen. Seperti @whuber tunjukkan dalam komentar di bawah ini, SD "putaran ke nol" kecil ini lebih mungkin terjadi jika kelompok sampel yang diambil lebih homogen daripada populasi umum. Jika standar deviasi populasi sekitar meter, maka kemungkinan mendapatkan standar deviasi sampel kecil juga akan menurun jika ukuran sampel lebih besar.
curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")
curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")
pchisq(q = 19*0.005^2/0.01^2, df = 19)
hanya memberi kemungkinan 0,04% sampel SD <0,005. Bahkan populasi SD = 0,008 memberikan probabilitas hanya sekitar 0,8%. Tetapi populasi SD sebesar 0,007, 0,006 dan 0,005 masing-masing memberikan probabilitas 4%, 17% (tidak ada kebetulan!) Dan 54%
Ini hampir pasti merupakan kesalahan pelaporan, kecuali orang-orang dipilih karena ketinggian itu.