Saya seorang pemula statistik, jadi minta maaf sebelumnya jika saya mengajukan pertanyaan braindead. Saya telah mencari jawaban untuk pertanyaan saya, tetapi saya menemukan bahwa banyak topik terlalu spesifik, atau dengan cepat melampaui apa yang saya pahami saat ini.
Saya memiliki beberapa pekerjaan simulasi yang mencakup kumpulan data besar yang menjadi tidak layak untuk disimulasikan secara mendalam. Untuk kumpulan data terkecil saya, rangkaian lengkap menyajikan distribusi hasil berikut dari total 9180900 tes.
Hasil / Frekuensi:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
Apa artinya angka-angka itu tidak masalah; yang penting adalah bahwa kumpulan data yang lebih besar yang saya miliki dapat mencapai miliaran tes, dan menjadi terlalu memakan waktu untuk dijalankan. Saya perlu membatasi beban kerja.
Saya merasa saya harus dapat mengambil sampel dari set lengkap tes untuk mendapatkan distribusi untuk sampel, dan menyimpulkan (dalam beberapa batasan) bahwa hasil simulasi lengkap akan menunjukkan kurang lebih distribusi yang sama. Tidak ada bias yang melekat dalam tes yang dijalankan, sehingga secara acak memilih input yang seharusnya memberikan sampel yang valid.
Yang belum saya mengerti adalah bagaimana saya harus memilih ukuran sampel saya. Khususnya, distribusinya memperlihatkan ekor yang aneh, dan saya khawatir pengambilan sampel yang terlalu kecil akan kehilangan frekuensi yang lebih rendah. (The 140 kejadian '4' akun hanya 0,0015% dari populasi!)
Jadi, pertanyaan saya adalah, apa cara terbaik untuk menghitung ukuran sampel yang dengannya saya dapat menyatakan beberapa tingkat kebaikan dalam hasil saya?
Atau, apakah saya mengajukan pertanyaan yang salah?