Bayangkan Anda ingin menilai kompresibilitas dokumen besar dengan sangat cepat. Anda dapat secara acak memilih urutan berikutnya, cobalah untuk mengompresnya. Ini dapat berfungsi sebagai prediksi untuk kompresibilitas keseluruhan dokumen. Tapi seberapa besar sampel Anda?
Kami datang dengan strategi berikut:
- Pilih ukuran sampel yang sewenang-wenang (kecil). Ukur kompresibilitasnya.
- Selanjutnya, gandakan ukuran sampel dan ukur kompresibilitasnya lagi. Jika ada sedikit perubahan (katakanlah kurang dari 10%), maka simpulkan bahwa Anda telah dapat dipercaya menentukan kompresibilitas dokumen. Jika tidak, gandakan ukuran sampel lagi, dan seterusnya.
Kami cukup yakin bahwa ini bukan strategi baru, dan kami bertanya-tanya apakah ini terkait dengan beberapa strategi terkenal yang digunakan oleh ahli statistik.
("Kompresi" di sini hanyalah sebuah contoh. Pada dasarnya, kami tertarik pada metrik yang tidak memiliki sifat matematika yang bagus, sehingga tidak mungkin untuk menentukan secara analitis apa yang bisa menjadi ukuran sampel yang baik. Kami tidak punya pilihan selain jatuh) kembali pada heuristik tersebut.)