EDIT: Tragedi! Asumsi awal saya salah! (Atau ragu, setidaknya - apakah Anda memercayai apa yang penjual katakan kepada Anda? Tetap saja, berikan tip kepada Morten.) Yang saya kira merupakan pengantar statistik bagus yang lain, tetapi Pendekatan Partial Sheet kini ditambahkan di bawah ini ( karena orang-orang sepertinya menyukai Whole Sheet satu, dan mungkin seseorang masih akan merasa berguna)
Pertama-tama, masalah besar. Tapi saya ingin membuatnya sedikit lebih rumit.
Karena itu, sebelum saya melakukannya, izinkan saya membuatnya sedikit lebih sederhana, dan katakanlah - metode yang Anda gunakan saat ini sangat masuk akal . Murah, mudah, masuk akal. Jadi, jika Anda harus mematuhinya, Anda seharusnya tidak merasa buruk. Pastikan Anda memilih bundel Anda secara acak. DAN, jika Anda hanya bisa menimbang semuanya dengan andal (ujung topi ke whuber dan user777), maka Anda harus melakukan itu.
Alasan saya ingin membuatnya sedikit lebih rumit adalah karena Anda sudah memiliki - Anda belum memberi tahu kami tentang seluruh kerumitannya, yaitu bahwa - penghitungan membutuhkan waktu, dan waktu adalah uang juga . Tetapi berapa banyak ? Mungkin sebenarnya lebih murah untuk menghitung semuanya!
Jadi yang sebenarnya Anda lakukan adalah menyeimbangkan waktu yang diperlukan untuk menghitung, dengan jumlah uang yang Anda tabung. (JIKA, tentu saja, Anda hanya memainkan game ini sekali. BERIKUTNYA kali Anda memiliki ini terjadi dengan penjual, mereka mungkin telah tertangkap, dan mencoba trik baru. Dalam teori permainan, ini adalah perbedaan antara Permainan Tembakan Tunggal, dan Iterated Game. Tapi untuk sekarang, mari kita berpura-pura penjual akan selalu melakukan hal yang sama.)
Satu hal lagi sebelum saya sampai pada estimasi. (Dan, maaf telah menulis begitu banyak dan masih belum mendapatkan jawabannya, tapi kemudian, itu jawaban yang cukup bagus untuk Apa yang akan dilakukan ahli statistik? Mereka akan menghabiskan banyak waktu memastikan mereka memahami setiap bagian kecil dari masalah sebelum mereka merasa nyaman mengatakan apa-apa tentang itu.) Dan hal itu adalah wawasan berdasarkan hal berikut:
(EDIT: JIKA MEREKA AKAN BENAR-BENAR MENIPU ...) Penjual Anda tidak menghemat uang dengan menghapus label - mereka menghemat uang dengan tidak mencetak lembaran. Mereka tidak dapat menjual label Anda kepada orang lain (saya kira). Dan mungkin, saya tidak tahu dan saya tidak tahu jika Anda tahu, mereka tidak dapat mencetak setengah lembar barang Anda, dan setengah lembar milik orang lain. Dengan kata lain, bahkan sebelum Anda mulai menghitung, Anda dapat mengasumsikan bahwa total jumlah label adalah baik 9000, 9100, ... 9900, or 10,000
. Begitulah cara saya akan mendekatinya, untuk saat ini.
Metode Lembar Utuh
Ketika masalah agak rumit seperti ini (diskrit, dan dibatasi), banyak ahli statistik akan mensimulasikan apa yang mungkin terjadi. Inilah yang saya disimulasikan:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
Ini memberi Anda, dengan asumsi mereka menggunakan seluruh lembar, dan asumsi Anda benar, kemungkinan distribusi label Anda (dalam bahasa pemrograman R).
Lalu saya melakukan ini:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Ini menemukan, menggunakan metode "bootstrap", interval kepercayaan menggunakan 4, 5, ... 20 sampel. Dengan kata lain, Rata-rata, jika Anda menggunakan sampel N, seberapa besar interval kepercayaan diri Anda? Saya menggunakan ini untuk menemukan interval yang cukup kecil untuk memutuskan jumlah lembar, dan itulah jawaban saya.
Dengan "cukup kecil," Maksud saya interval kepercayaan 95% saya hanya memiliki satu bilangan bulat di dalamnya - misalnya jika interval kepercayaan saya adalah dari [93.1, 94.7], maka saya akan memilih 94 sebagai jumlah lembar yang benar, karena kita tahu ini nomor keseluruhan.
Kesulitan lain - kepercayaan diri Anda tergantung pada kebenaran . Jika Anda memiliki 90 lembar, dan setiap tumpukan memiliki 90 label, maka Anda menyatu sangat cepat. Sama dengan 100 lembar. Jadi saya melihat 95 lembar, di mana ada ketidakpastian terbesar, dan menemukan bahwa untuk memiliki kepastian 95%, Anda membutuhkan sekitar 15 sampel, rata-rata. Jadi katakanlah secara keseluruhan, Anda ingin mengambil 15 sampel, karena Anda tidak pernah tahu apa yang sebenarnya ada.
SETELAH Anda tahu berapa banyak sampel yang Anda butuhkan, Anda tahu bahwa penghematan yang Anda harapkan adalah:
100Nmissing−15c
c500−15∗
Tetapi Anda juga harus meminta bayaran kepada orang tersebut karena membuat Anda melakukan semua pekerjaan ini!
(EDIT: TAMBAH!) Pendekatan Lembar Sebagian
Oke, jadi mari kita asumsikan apa yang dikatakan pabrikan itu benar, dan itu tidak disengaja - beberapa label hilang di setiap lembar. Anda masih ingin tahu, Tentang berapa label, secara keseluruhan?
Masalah ini berbeda karena Anda tidak lagi memiliki keputusan bersih yang bagus yang dapat Anda buat - itu merupakan keuntungan bagi asumsi Whole Sheet. Sebelumnya, hanya ada 11 jawaban yang mungkin - sekarang, ada 1100, dan mendapatkan interval kepercayaan 95% pada persis berapa banyak label yang ada mungkin akan mengambil sampel lebih banyak daripada yang Anda inginkan. Jadi, mari kita lihat apakah kita dapat memikirkan hal ini secara berbeda.
Karena ini benar-benar tentang Anda membuat keputusan, kami masih kehilangan beberapa parameter - berapa banyak uang yang ingin Anda hilangkan, dalam satu kesepakatan, dan berapa banyak uang yang dibutuhkan untuk menghitung satu tumpukan. Tetapi izinkan saya mengatur apa yang dapat Anda lakukan, dengan angka-angka itu.
Simulasi lagi (walaupun props ke user777 jika Anda bisa melakukannya tanpa!), Sangat informatif untuk melihat ukuran interval ketika menggunakan jumlah sampel yang berbeda. Itu bisa dilakukan seperti ini:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Yang mengasumsikan (saat ini) bahwa setiap tumpukan memiliki jumlah label acak yang seragam antara 90 dan 100, dan memberi Anda:
Tentu saja, jika semuanya benar-benar seperti mereka telah disimulasikan, rata-rata sebenarnya adalah sekitar 95 sampel per tumpukan, yang lebih rendah dari apa yang tampaknya kebenaran - ini adalah salah satu argumen sebenarnya untuk pendekatan Bayesian. Tapi, itu memberi Anda perasaan yang berguna tentang seberapa jauh Anda menjadi lebih yakin tentang jawaban Anda, saat Anda terus mengambil sampel - dan sekarang Anda dapat secara eksplisit menukar biaya pengambilan sampel dengan kesepakatan apa pun yang Anda lakukan tentang penetapan harga.
Yang saya tahu sekarang, kita semua benar-benar ingin tahu.