Kapan boleh menulis "kita mengasumsikan distribusi normal" dari pengukuran empiris?

Sudah tertanam dalam pengajaran disiplin ilmu terapan, seperti kedokteran, bahwa pengukuran jumlah bio-medis dalam populasi mengikuti "kurva lonceng" yang normal. Pencarian Google pada string "kami mengasumsikan distribusi normal" menghasilkan hasil ! Mereka terdengar seperti, "mengingat sejumlah kecil titik data ekstrim, kami mengasumsikan distribusi normal untuk anomali suhu" dalam sebuah studi tentang perubahan iklim; atau "kami mengasumsikan distribusi normal tanggal penetasan ayam" pada dokumen yang mungkin kurang kontroversial mengenai penguin; atau "kami mengasumsikan distribusi normal guncangan pertumbuhan PDB" , $\small 23,900$ , ... dan hal lainnya).

Baru-baru ini, saya mendapati diri saya mempertanyakan perlakuan data hitung seperti yang didistribusikan secara normal karena sifatnya yang benar-benar positif. Tentu saja, penghitungan data bersifat diskrit, menjadikan normalitasnya menjadi lebih tiruan. Tetapi walaupun mengesampingkan poin terakhir ini, mengapa pengukuran empiris terus menerus seperti berat badan, tinggi atau konsentrasi glukosa, yang dianggap prototipikal "berkelanjutan", dianggap normal? Mereka tidak mungkin memiliki pengamatan negatif yang terwujud seperti halnya hitungan!

Saya mengerti bahwa ketika standar deviasi jauh lebih rendah dari rata-rata, menunjukkan beberapa nilai negatif ("cek rentang 95%") itu mungkin asumsi praktis, dan histogram frekuensi dapat mendukungnya jika tidak terlalu miring. Tetapi pertanyaan itu tampaknya tidak sepele, dan pencarian cepat menghasilkan hal-hal menarik.

Di Nature kita dapat menemukan pernyataan berikut pada surat oleh DF Heath : "Saya ingin menunjukkan bahwa untuk analisis statistik dari beberapa jenis data, asumsi bahwa data diambil dari populasi normal biasanya salah, dan bahwa alternatif asumsi distribusi log-normal lebih baik. Alternatif ini banyak digunakan oleh para ahli statistik, ekonom dan fisikawan, tetapi untuk beberapa alasan sering diabaikan oleh para ilmuwan dari beberapa disiplin ilmu lain. "

Limpert mencatat bahwa "model log-normal dapat berfungsi sebagai perkiraan dalam arti bahwa banyak ilmuwan menganggap normal sebagai perkiraan yang valid sekarang" , sementara mencatat rendahnya uji good -of-fit normalitas, dan kesulitan dalam memilih distribusi yang tepat secara empiris ketika berhadapan dengan sampel kecil.

Oleh karena itu pertanyaannya adalah, "Kapan bisa diterima untuk menganggap distribusi normal pengukuran empiris dalam ilmu terapan tanpa bukti pendukung lebih lanjut?" Dan, mengapa alternatif lain, seperti log-normal, belum, dan mungkin tidak akan bertahan?

— Antoni Parellada
sumber

Jawabannya akan tergantung pada hal apa yang Anda lakukan, dan sensitivitasnya terhadap potensi penyimpangan dari normalitas (yaitu jika Anda menguji persamaan varian menggunakan uji F dari rasio, Anda sebaiknya memiliki distribusi yang sangat dekat dengan normal ... tetapi jika Anda membangun interval-t untuk perbedaan rata-rata, dengan sampel besar, Anda mungkin tidak perlu membuatnya sangat dekat dengan normalitas sama sekali). ... dan pada toleransi Anda (atau audiens Anda) untuk jenis dampak yang akan terjadi pada kesimpulan yang Anda lakukan.

— Glen_b -Reinstate Monica

Saya menemukan pertanyaan Anda sangat menarik. Mari kita pertimbangkan beberapa hal:

Mengatakan bahwa variabel yang diamati kontinu dalam kehidupan nyata akan selalu salah, karena sangat sulit untuk mengukurnya secara terus-menerus.
$N(\mu, \sigma^2)$ $(-\infty; +\infty)$ $f_X(x)$ $x = \mu - \sigma$ $x = \mu + \sigma$
Untuk mengatakan bahwa variabel acak mengikuti distribusi Log-Normal menyiratkan bahwa variabel mengikuti distribusi normal. $X$ $Y=log(X)$

Dengan mengatakan, mengatakan bahwa setiap variabel yang diamati mengikuti distribusi normal atau Log-Normal terdengar agak gila. Dalam praktiknya, yang dilakukan adalah Anda mengukur penyimpangan dari frekuensi yang diamati dari frekuensi yang diharapkan, jika variabel itu berasal dari populasi normal (atau distribusi lainnya). Jika Anda dapat mengatakan bahwa penyimpangan itu hanya acak, karena Anda mengambil sampel, maka Anda dapat mengatakan sesuatu seperti tidak ada cukup bukti untuk menolak hipotesis nol bahwa variabel ini berasal dari populasi normal , yang diterjemahkan ke dalam kami akan bekerja seolah-olah ( dengan asumsi) variabel mengikuti distribusi normal .

Menjawab pertanyaan pertama Anda, saya tidak berpikir bahwa ada seseorang yang berani mengatakan bahwa suatu variabel diasumsikan terdistribusi normal tanpa bukti lebih lanjut . Untuk mengatakan sesuatu seperti itu, Anda memerlukan setidaknya qq-plot, histogram, tes good-of-fit atau kombinasi dari semuanya.

Untuk menjawab pertanyaan kedua, minat khusus dalam distribusi normal adalah bahwa banyak dari tes klasik didasarkan pada asumsi normalitas variabel, seperti uji-t, atau untuk varian. Jadi, normalitas menyederhanakan pekerjaan, itu saja. $\chi^2$

— toneloy
sumber

Terima kasih atas jawaban Anda, yang menyentuh banyak poin penting. Namun, saya cenderung berpikir bahwa hal-hal dalam "dunia nyata" ilmu terapan kurang terstruktur, dan garis singgung langsung sering diambil untuk mengasumsikan normalitas.

— Antoni Parellada

Sesuatu yang tidak saya sebutkan adalah bagian lain dari sejarah jika distribusi normal: itu adalah distribusi batas standardisasi sejumlah variabel acak iid, seperti yang dinyatakan dalam teorema batas pusat. Jika Anda dapat mengatakan bahwa variabel Anda adalah jumlah dari banyak variabel acak iid, seperti pada alasan di balik gerakan brown, maka Anda dapat mengatakan bahwa itu adalah variabel acak normal. Itu satu-satunya jalan pintas yang valid yang saya tahu. Saya bisa memasukkan ini dalam jawaban jika Anda mau.

— toneloy