Menggunakan bootstrap untuk memperoleh distribusi sampling dari persentil-1

Saya memiliki sampel (ukuran 250) dari suatu populasi. Saya tidak tahu distribusi penduduk.

Pertanyaan utama: Saya ingin estimasi titik dari 1 ^st -percentile dari populasi, dan kemudian saya ingin interval kepercayaan 95% sekitar estimasi titik saya.

Perkiraan poin saya akan menjadi sampel pertama ^st- persentil. Saya menyatakannya . $x$

Setelah itu, saya mencoba membangun interval kepercayaan di sekitar perkiraan titik. Saya ingin tahu apakah masuk akal untuk menggunakan bootstrap di sini. Saya sangat tidak berpengalaman dengan bootstrap, jadi maafkan jika saya gagal menggunakan terminologi yang sesuai, dll.

Inilah cara saya mencoba melakukannya. Saya menarik 1000 sampel acak dengan penggantian dari sampel asli saya. Saya mendapatkan 1 ^st- persentil dari masing-masing. Jadi saya punya 1000 poin - "1 ^st- persen". Saya melihat distribusi empiris dari 1000 poin ini. Saya menunjukkan rata-rata . Saya menyatakan "bias" sebagai berikut: . Aku mengambil 2,5 ^th -percentile dan 97,5 ^th persentil dari 1000 poin untuk mendapatkan yang lebih rendah dan akhir lebih tinggi dari apa yang saya sebut interval kepercayaan 95% sekitar 1 ^st -percentile dari sampel asli. Saya menunjukkan titik-titik ini dan . $x_{mean}$ $\text{bias}=x_{mean}-x$ $x_{0.025}$ $x_{0.975}$

Langkah yang tersisa adalah untuk beradaptasi interval kepercayaan ini menjadi sekitar 1 ^st -percentile dari populasi daripada sekitar 1 ^st -percentile dari sampel asli . Jadi saya menganggap sebagai ujung bawah dan sebagai ujung atas dari interval kepercayaan 95% sekitar estimasi titik dari penduduk 1 ^st -percentile. Interval terakhir inilah yang saya cari. $x-\text{bias}-(x_{mean}-x_{0.025})$ $x-\text{bias}+(x_{0.975}-x_{mean})$

Sebuah penting titik, menurut pendapat saya, adalah apakah masuk akal untuk menggunakan bootstrap untuk 1 ^st -percentile yang agak dekat dengan ekor distribusi yang mendasari tidak diketahui dari populasi. Saya kira itu mungkin bermasalah; pikirkan tentang menggunakan bootstrap untuk membangun interval kepercayaan sekitar minimum (atau maksimum).

Tapi mungkin pendekatan ini cacat? Tolong beritahu saya.

EDIT:

Memiliki pemikiran tentang masalah sedikit lebih, saya melihat bahwa solusi saya menyiratkan berikut: empiris 1 ^st persentil dari sampel asli mungkin estimator bias dari 1 ^st persentil dari populasi. Dan jika demikian, estimasi titik harus disesuaikan dengan bias: . Jika tidak, interval kepercayaan yang disesuaikan dengan bias tidak akan kompatibel dengan estimasi titik bias-disesuaikan. Saya perlu menyesuaikan estimasi titik dan interval kepercayaan atau tidak satupun dari mereka. $x-\text{bias}$

Jika, di sisi lain, saya tidak mengizinkan estimasi menjadi bias, saya tidak perlu melakukan penyesuaian bias. Yaitu, saya akan menganggap sebagai estimasi titik dan sebagai ujung bawah dan sebagai ujung atas dari 95% interval kepercayaan. Saya tidak yakin apakah interval ini masuk akal ... $x$ $x-(x_{mean}-x_{0.025})$ $x+(x_{0.975}-x_{mean})$

Jadi apakah itu masuk akal untuk mengasumsikan bahwa sampel 1 ^st persentil adalah estimasi bias dari populasi 1 ^st persentil? Dan jika tidak, apakah solusi alternatif saya benar?

— Richard Hardy
sumber

Ini tidak langsung menjawab pertanyaan bootstrap, tapi bisa membantu Anda: onlinecourses.science.psu.edu/stat414/node/231

— shadowtalker

Inferensi bootstrap untuk ekstrem distribusi umumnya meragukan. Saat mem-bootstrap n-out-of-n minimum atau maksimum dalam sampel ukuran , Anda memiliki kemungkinan Anda akan mereproduksi pengamatan ekstrim sampel Anda, dan juga kira-kira kesempatan untuk mereproduksi pengamatan ekstrem kedua Anda, dan seterusnya. Anda mendapatkan distribusi deterministik yang tidak ada hubungannya dengan bentuk distribusi yang mendasarinya di bagian ekor. Selain itu, bootstrap tidak dapat memberikan apa pun di bawah minimum sampel Anda, bahkan ketika distribusi memiliki dukungan di bawah nilai ini (seperti halnya dengan sebagian besar distribusi berkelanjutan seperti katakanlah normal). $n$ $1 - (1-1/n)^n \sim 1 - {\rm exp}(-1) = 63.2\%$ ${\rm exp}(-1) - {\rm exp}(-2)=23.3\%$

Solusinya rumit dan bergantung pada kombinasi asimtotik dari teori nilai ekstrem dan subsampling kurang dari n pengamatan (sebenarnya, jauh lebih sedikit, laju harus konvergen ke nol sebagai ). $n\to\infty$

— Tugas
sumber

Jawabannya sangat membantu, tetapi saya ingin mengetahui seberapa dekat persentil pertama dengan minimum sehubungan dengan perilaku bootstrap? Saya kira bahwa dalam sampel yang sangat besar persentil ke-1 dapat dianggap "jauh" dari minimum dan masalah-masalah yang tercantum di atas dapat diabaikan, sedangkan dalam sampel kecil persentil ke-1 akan menjadi minimum itu sendiri dan masalahnya akan sangat berarti. Jadi kita berada di antara keduanya. Saya kira ukuran sampel 250 observasi saya harus dianggap cukup kecil dalam hal ini.

— Richard Hardy