Saya telah membaca jawaban yang ada di CrossValidated (plus tempat lain online) dan tidak dapat menemukan apa yang saya cari, tetapi tolong tunjukkan saya ke sumber yang ada jika saya melewatkannya.
Katakanlah saya memiliki kumpulan data N = 1000 catatan, yang masing-masing dapat disampel secara manual dan diberi label sebagai 'Valid' atau 'Tidak Valid' (atau Benar / Salah, Kanan / Salah, dll).
Saya ingin mencapai tingkat kepercayaan tertentu bahwa semua catatan dalam kumpulan data valid. Saat saya mencicipi catatan, jika saya menemukan satu yang tidak valid saya akan kembali dan mengubah bagaimana set data dibuat untuk memperbaiki itu dan masalah serupa.
Jadi, setelah beberapa iterasi menemukan Invalid, memperbaiki dan membuat ulang set data, saya melakukan beberapa sampling yang hanya mencakup catatan Valid. Jika saya ingin (katakanlah) 99% atau 95% yakin bahwa semua catatan adalah Valid, seberapa besar sampel saya harus? (Idealnya sebagai fungsi dari N.)
Saya sudah mencoba bermain-main dengan tes Hypergeometric ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ) - dalam konteks itu saya ingin tahu apa yang seharusnya k, tetapi saya tidak memiliki nilai tetap K Sebaliknya saya ingin memilih k sehingga K cenderung sama dengan N - tetapi pengaturan K = N jelas bekerja pada Probabilitas 1! Saya juga bertanya-tanya apakah saya perlu menggunakan pendekatan Bayesian tetapi saya tidak cukup memahami statistik Bayesian.