Bagaimana Anda menyebut strategi pemilihan ukuran sampel dinamis ini?

Bayangkan Anda ingin menilai kompresibilitas dokumen besar dengan sangat cepat. Anda dapat secara acak memilih urutan berikutnya, cobalah untuk mengompresnya. Ini dapat berfungsi sebagai prediksi untuk kompresibilitas keseluruhan dokumen. Tapi seberapa besar sampel Anda?

Kami datang dengan strategi berikut:

Pilih ukuran sampel yang sewenang-wenang (kecil). Ukur kompresibilitasnya.
Selanjutnya, gandakan ukuran sampel dan ukur kompresibilitasnya lagi. Jika ada sedikit perubahan (katakanlah kurang dari 10%), maka simpulkan bahwa Anda telah dapat dipercaya menentukan kompresibilitas dokumen. Jika tidak, gandakan ukuran sampel lagi, dan seterusnya.

Kami cukup yakin bahwa ini bukan strategi baru, dan kami bertanya-tanya apakah ini terkait dengan beberapa strategi terkenal yang digunakan oleh ahli statistik.

("Kompresi" di sini hanyalah sebuah contoh. Pada dasarnya, kami tertarik pada metrik yang tidak memiliki sifat matematika yang bagus, sehingga tidak mungkin untuk menentukan secara analitis apa yang bisa menjadi ukuran sampel yang baik. Kami tidak punya pilihan selain jatuh) kembali pada heuristik tersebut.)

sampling model-selection sample-size

— Daniel Lemire
sumber

Ini disebut 'Pengambilan Sampel Progresif', misalnya http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.9168&rep=rep1&type=pdf

— CDX
sumber

Referensi yang diberikan oleh CDX adalah: Foster Provost, David Jensen, dan Tim Oates. 1999. Pengambilan sampel progresif yang efisien. Dalam Prosiding konferensi internasional ACM SIGKDD kelima tentang Penemuan Pengetahuan dan penambangan data (KDD '99). ACM, New York, NY, AS, 23-32.

— Daniel Lemire