Misalkan Anda memiliki banyak orang yang menilai seberapa besar mereka menyukai film pada skala diskrit dari 1 hingga 10, dan Anda menginginkan interval [ l , u ] sedemikian rupa sehingga dengan (setidaknya) kepercayaan 95%, (setidaknya) 90 % dari semua orang yang menonton film akan memeringkatnya tidak lebih rendah dari aku dan tidak lebih tinggi dari kamu . [ l , u ] kemudian merupakan interval toleransi (dua sisi) dengan kepercayaan 95% dan cakupan 90%. (Untuk lebih jelasnya, kepercayaan 95% menyiratkan bahwa jika Anda mengulangi prosedur ini berkali-kali, 95% dari interval yang diproduksi akan mendapatkan setidaknya 90% cakupan populasi.) Tentu saja, kita umumnya ingin [ l , u ] sesempit mungkin sementara masih memenuhi persyaratan kami.
Saya telah melihat berbagai metode nonparametrik untuk membangun interval toleransi untuk variabel acak kontinu. Saya juga melihat metode untuk membangun interval toleransi untuk variabel binomial dan Poisson. (Paket R tolerance
mengimplementasikan beberapa metode ini; Young, 2010.) Tetapi bagaimana dengan variabel diskrit ketika distribusinya tidak diketahui? Ini biasanya merupakan kasus untuk skala penilaian seperti yang ada dalam contoh saya, dan mengasumsikan distribusi binomial tampaknya tidak aman karena data skala-rating nyata sering menunjukkan keanehan seperti multimodality.
Apakah masuk akal untuk kembali ke metode nonparametrik untuk variabel kontinu? Atau, bagaimana dengan metode Monte Carlo seperti menghasilkan 1.000 replikasi bootstrap sampel dan menemukan interval yang menangkap setidaknya 90% sampel dalam setidaknya 950 replikasi?
Young, DS (2010). toleransi: Paket R untuk memperkirakan interval toleransi. Jurnal Perangkat Lunak Statistik, 36 (5), 1–39. Diperoleh dari http://www.jstatsoft.org/v36/i05