Saya memiliki referensi yang menyarankan untuk mempertimbangkan ukuran sampel minimal 20 untuk distribusi pemasangan data.
Apakah ada gunanya dalam hal ini?
Terima kasih
Saya memiliki referensi yang menyarankan untuk mempertimbangkan ukuran sampel minimal 20 untuk distribusi pemasangan data.
Apakah ada gunanya dalam hal ini?
Terima kasih
Jawaban:
Begitu banyak dari ini tergantung pada distribusi yang diharapkan dan apa pertanyaan penelitian Anda. Sebagai aturan praktis, Anda harus waspada terhadap aturan praktis. Jika Anda tahu distribusi yang diharapkan, jalankan beberapa simulasi dengan ukuran berbeda dan tentukan seberapa sering simulasi sampel mencerminkan distribusi yang sebenarnya. Ini akan memberi Anda beberapa petunjuk sebagai ukuran sampel akhir yang dibutuhkan.
Saya pikir jumlah sampel sihir ukuran 1.000. Itulah yang dimiliki oleh kebanyakan jajak pendapat nasional AS, untuk menghasilkan margin kesalahan sekitar 3%: Pada kenyataannya, ukuran sampel efektif lebih rendah dari 1.000, lebih seperti 700 atau lebih, karena probabilitas seleksi yang tidak sama dan penyesuaian non-respons, yang mengarah ke margin of error 3,7%.
Dengan hanya 20 pengamatan, Anda secara teknis tidak bisa mendapatkan nilai skewness dan kurtosis yang sangat tinggi (tentu saja, dinormalisasi dengan sampel standar deviasi):
Pandangan lain tentang pemasangan distribusi dapat diambil melalui estimasi kepadatan kernel: untuk sampel ukuran , aturan paling populer memberikan bandwidth yang secara efektif menjangkau seluruh distribusi menggunakan kernel Gaussian. Dengan kata lain, sebagian besar sampel ukuran 20 akan terlihat normal jika Anda menjalankan estimasi kepadatan kernel di seluruh mereka, kecuali mereka jelas memiliki kurtosis yang terkenal (yang kemudian berarti bahwa ada beberapa pengamatan terpencil yang akan muncul sebagai benjolan terpisah pada kepadatan kernel. merencanakan).
Nggak. Tidak jauh.
Pikirkan tentang hal ini seperti ini: jika Anda memiliki ruang miliaran dimensi (kemanusiaan) dan Anda menarik 20 sampel menggunakan metode apa pun (20 orang), dapatkah Anda menggunakan informasi yang membuatnya dipahami dengan baik oleh setiap orang di planet ini? Tidak jauh. Ada 100 miliar bintang di galaksi Bima Sakti. Dengan memilih (secara acak) 20 di antaranya dapatkah Anda memahami semua astronomi galaksi? Tidak mungkin.
Dalam ruang 1-d ada beberapa heuristik, sebagian besar aturan praktis yang dapat membantu, yang menggambarkan berapa banyak pengukuran yang ingin Anda ambil. Mereka termasuk berbagai tingkat utilitas dan pembenaran tetapi dalam beberapa hal lebih baik dipertahankan daripada "20". Mereka termasuk "5 pengukuran per variabel dalam persamaan fit Anda", "setidaknya 35 sampel fungsi kepadatan Gaussian", dan "setidaknya 300 sampel fungsi binomial". Ahli statistik sungguhan dan bukan pembom nerd seperti saya akan dapat mengaitkan interval kepercayaan tertentu dan ketidakpastian dari prinsip pertama dan tanpa kalkulator.
Jika Anda menggunakan aturan "5 pengukuran per parameter dalam persamaan fit Anda" dan Anda ingin mencocokkan kepadatan kumulatif permukaan bi-kubik 2 dimensi melengkung dalam hal distribusi ketinggian Anda akan memiliki sistem yang mendasarinya , rasio polinomial orde 5 ke kubik. Itu akan memiliki 6 + 4 = 10 koefisien. Jika Anda mencoba menyesuaikan 10 nilai parameter Anda menggunakan 2 pengukuran per parameter, atau dengan menggunakan 20 pengukuran, maka Anda akan melanggar heuristik ini. Heuristik ini merekomendasikan minimal 10 * 5 = 50 pengukuran.
Harap ingat "yang terbaik" adalah ide yang tidak berarti tanpa memiliki "ukuran kebaikan". Apa jalan terbaik? Jika Anda pergi ke malapetaka, mungkin yang sangat panjang dan menyenangkan. Jika Anda akan pergi ke penobatan Anda sendiri, mungkin yang pendek dan megah. Jika Anda berjalan melintasi padang pasir, tempat teduh yang sejuk. Berapa jumlah sampel "terbaik"? Sangat tergantung pada masalah Anda bahwa itu tidak dapat mulai dijawab dengan otoritas sebelumnya. Mereka semua? Sebanyak mungkin? Itu hanya masuk akal. Ya itu seperti sebagian mati atau hamil. Menjadi tidak masuk akal sebagian adalah konsekuensi dari masalah yang sangat tidak jelas.
Jika Anda mencoba memperkirakan aliran udara di atas pesawat secara akurat? Anda mungkin perlu beberapa juta pengukuran untuk masuk ke ball-park. Jika Anda ingin tahu seberapa tinggi Anda, satu atau dua orang bisa melakukan pekerjaan itu.
Ini tidak memunculkan poin penting dari "spanning the space" dan "sampling di lokasi yang meminimalkan varians dalam estimasi parameter" tetapi pertanyaan itu menyarankan jawaban tingkat yang lebih baru akan relevan. Hal-hal ini membutuhkan mengetahui lebih banyak tentang sifat masalah sebelum dapat diimplementasikan.
Catatan: diedit untuk meningkatkan per saran.
Mungkin untuk konteks di mana Anda melakukan uji-t atau ANOVAR - konteks yang cukup umum dalam aplikasi statistik dasar - ini berada di sekitar ukuran sampel yang Anda butuhkan untuk masing-masing kelompok agar dapat memiliki banyak kepercayaan pada rata-rata setiap kelompok sekitar terdistribusi secara normal (sesuai dengan teorema limit pusat) ketika distribusi dapat dianggap lebih atau kurang unimodal & tidak terlalu memuncak. Dua puluh & bukan sembilan belas atau dua puluh satu karena angka bulat.
Periksa Halaman Kekuatan dan Ukuran Sampel Russ Lenth untuk beberapa artikel tentang subjek tersebut (di bagian Saran di bagian tengah halaman).
Jumlah minimum individu dalam sampel Anda sangat bervariasi sesuai dengan ukuran populasi, jumlah dimensi (jika Anda membagi data dalam kategori) dan ukuran (jika Anda mengambil tindakan berkelanjutan tentang sampel individu) yang Anda ambil, ukuran alam semesta Anda, teknik analisis yang ingin Anda gunakan (ini adalah hal yang sangat penting - teknik didefinisikan selama perencanaan penelitian atau selama desain eksperimental , tidak pernah setelah), dan kompleksitas ditunjukkan oleh studi sebelumnya.
Dan 20 tidak cukup untuk penelitian serius di luar mata pelajaran "penyakit langka" dan "psikologi eksperimental" (psikologi seperti yang didefinisikan Popper dalam karyanya).
Dan 20 tidak cukup untuk penelitian serius apa pun di luar mata pelajaran "penyakit langka" dan "psikologi eksperimental" (psikologi seperti yang didefinisikan Popper dalam karyanya) yang melibatkan pemasangan distribusi probabilitas .
Dan tidak, Anda tidak harus terus meracuni orang untuk mendapatkan ukuran sampel yang besar. Tes Common Sense dan Sequential memerintahkan Anda untuk berhenti.