Menghitung interval kepercayaan melalui bootstrap pada pengamatan dependen

Bootstrap, dalam bentuk standarnya, dapat digunakan untuk menghitung interval kepercayaan dari perkiraan statistik asalkan pengamatan itu benar. I. Visser et al. di " Interval Keyakinan untuk Parameter Model Hidden Markov ," menggunakan bootstrap parametrik untuk menghitung CI untuk parameter HMM. Namun, ketika kami memasukkan HMM pada urutan pengamatan, kami telah mengasumsikan bahwa pengamatan itu tergantung (berbeda dengan model campuran).

Saya punya dua pertanyaan:

Apa yang dilakukan asumsi id dengan bootstrap?
Bisakah kita mengabaikan persyaratan id dalam bootstrap parametrik?

Visser et al. Metode singkat sebagai berikut:

Asumsikan kita memiliki urutan pengamatan dihasilkan dari pengambilan sampel HMM dengan set parameter nyata tetapi tidak diketahui . $Y=o_1,o_2,...,o_n$ $\theta=\theta_1,\theta_2,...,\theta_l$
Parameter dapat diestimasi dengan menggunakan algoritma EM: $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
Gunakan perkiraan HMM untuk menghasilkan sampel bootstrap dengan ukuran : $n$ $Y^*=o^*_1,o^*_2,...,o^*_n$
Perkirakan parameter HMM sesuai dengan sampel bootstrap: $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
Ulangi langkah 3 dan 4 untuk kali (misalnya = 1000) menghasilkan estimasi bootstrap: $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
Hitung CI dari setiap parameter yang diperkirakan menggunakan distribusi dalam estimasi bootstrap. $\hat{\theta}_i$ $\hat{\theta}^*_i$

Catatan (temuan saya):

Metode persentil harus digunakan untuk menghitung CI agar memiliki cakupan yang benar (normalitas adalah asumsi yang buruk).
Bias dari distribusi bootstrap harus diperbaiki. Berarti bahwa distribusi rata-rata harus dialihkan ke $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— Sadeghd
sumber

Pertanyaan pertama dengan kata lain: Apa efek asumsi iid pada bootstrap? Apakah itu asumsi penyederhanaan yang dapat dihapus dengan mengikuti algoritma yang lebih kompleks, atau formula?

— Sadeghd

Jawaban singkat: 1. Ini menyederhanakannya. (Terus terang, saya tidak mendapatkan pertanyaan). 2. Tidak, Anda tidak pernah dapat mengabaikannya, karena kurangnya iid memiliki konsekuensi langsung pada varian apa pun yang Anda perkirakan.

Jawaban sedang: Masalah utama dengan bootstrap adalah, 'Apakah prosedur yang diusulkan mereproduksi fitur data?' . Pelanggaran terhadap asumsi iid adalah masalah besar: data Anda tergantung, Anda (kemungkinan besar) memiliki lebih sedikit informasi dalam data Anda daripada yang Anda miliki dalam sampel pertama dengan ukuran yang sama, dan jika Anda menjalankan bootstrap naif (resample individu pengamatan), kesalahan standar yang Anda dapatkan dari itu akan terlalu kecil. Prosedur yang diusulkan menghindari masalah kurangnya independensi dengan menangkap (atau setidaknya berusaha menangkap) ketergantungan pada struktur model dan parameter. Jika berhasil, setiap sampel bootstrap akan mereproduksi fitur data, sesuai kebutuhan.

Jawaban panjang:Ada beberapa lapisan asumsi tentang bootstrap, dan bahkan dalam kasus yang paling sederhana (data awal, estimasi rata-rata), Anda harus membuat setidaknya tiga asumsi: (1) statistik yang menarik adalah fungsi data yang lancar. (benar dalam kasus mean, tidak begitu benar bahkan dalam kasus persentil, sama sekali tidak cocok dengan penaksir pencocokan tetangga terdekat); (2) distribusi dari mana Anda bootstrap "dekat" dengan distribusi populasi (berfungsi OK dalam hal data iid; mungkin tidak berfungsi OK dalam kasus data dependen, di mana Anda pada dasarnya hanya memiliki satu lintasan = satu pengamatan di deret waktu, dan Anda harus menggunakan asumsi tambahan seperti stasioneritas dan pencampuran untuk memilah pengamatan tunggal ini menjadi populasi kuasi); (3) sampling bootstrap Monte Carlo Anda merupakan pendekatan yang cukup baik untuk bootstrap lengkap dengan semua subsampel yang mungkin (ketidakakuratan menggunakan Monte Carlo vs bootstrap lengkap jauh lebih sedikit daripada ketidakpastian yang Anda coba tangkap). Dalam hal bootstrap parametrik, Anda juga membuat asumsi bahwa (4) model Anda dengan sempurna menjelaskan semua fitur data.

Sebagai peringatan tentang apa yang salah dengan (4), pikirkan tentang regresi dengan kesalahan heteroskedastik: , Var , katakan. Jika Anda cocok dengan model OLS dan sampel ulang residu seolah-olah iid, Anda akan mendapatkan jawaban yang salah (semacam mana adalah rata-rata , bukan yang sesuai $y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ ). Jadi jika Anda ingin memiliki solusi bootstrap parametrik sepenuhnya, Anda harus menyesuaikan model untuk heteroskedastisitas bersama dengan model untuk mean. Dan jika Anda mencurigai adanya korelasi serial atau jenis lainnya, Anda harus menyesuaikan model untuk itu juga. (Lihat, rasa non-parametrik yang bebas distribusi dari bootstrap sudah cukup untuk saat ini, karena Anda telah mengganti suara data dengan suara yang disintesis dari model Anda.)

Metode yang Anda gambarkan berfungsi di sekitar asumsi awal dengan membuat sampel yang sama sekali baru. Masalah terbesar dengan bootstrap data dependen adalah membuat sampel yang akan memiliki pola ketergantungan yang cukup dekat dengan yang ada di data asli. Dengan deret waktu, Anda dapat menggunakan blok bootstraps; dengan data berkerumun, Anda bootstrap seluruh cluster; dengan regresi heteroskedastik, Anda harus menggunakan bootstrap liar (yang merupakan ide yang lebih baik daripada bootstrap residu, bahkan jika Anda telah memasang model heteroskedastik untuk itu). Dalam blok bootstrap, Anda harus membuat tebakan yang berpendidikan (atau, dengan kata lain, memiliki alasan yang kuat untuk percaya) bahwa bagian-bagian yang jauh dari deret waktu kira-kira independen, sehingga semua struktur korelasi ditangkap oleh 5 atau 10 yang berdekatan. pengamatan yang membentuk blok. Jadi, alih-alih melakukan resampling pengamatan satu per satu, yang sama sekali mengabaikan struktur korelasi seri-waktu, Anda melakukan resampling dalam blok, berharap bahwa ini akan menghormati struktur korelasi. Bootstrap parametrik yang Anda maksudkan mengatakan: "Daripada mengutak-atik data dan mengumpulkan boneka baru dari potongan-potongan yang lama, mengapa saya tidak mencap seluruh Barbie yang sudah dicetak untuk Anda saja? Saya sudah tahu seperti apa Barbie yang Anda sukai, dan saya berjanji akan membuatkan Anda yang Anda sukai juga. " Alih-alih mengutak-atik data dan mengumpulkan boneka-boneka baru dari potongan-potongan yang lama, mengapa saya tidak mencap seluruh Barbie yang sudah dicetak untuk Anda saja? Saya telah menemukan Barbie seperti apa yang Anda sukai, dan saya berjanji akan membuatkan Anda Barbie yang Anda sukai. " Alih-alih mengutak-atik data dan mengumpulkan boneka-boneka baru dari potongan-potongan yang lama, mengapa saya tidak mencap seluruh Barbie yang sudah dicetak untuk Anda saja? Saya telah menemukan Barbie seperti apa yang Anda sukai, dan saya berjanji akan membuatkan Anda Barbie yang Anda sukai. "

Dalam hal bootstrap parametrik yang Anda jelaskan, Anda harus sangat yakin bahwa model HMM Anda cukup sempurna, jika tidak bootstrap parametrik Anda dapat menyebabkan hasil yang salah (Barbie yang tidak dapat menggerakkan lengan mereka). Pikirkan tentang contoh regresi heteroskedastik di atas; atau pikirkan tentang pemasangan model AR (1) ke data AR (5): apa pun yang Anda lakukan dengan data yang disimulasikan secara parametrik, mereka tidak akan memiliki struktur yang dimiliki data asli.

Sunting : saat Sadeghd mengklarifikasi pertanyaannya, saya juga bisa menjawabnya. Ada berbagai macam prosedur bootstrap, masing-masing menangani kekhasan khusus dalam statistik, ukuran sampel, ketergantungan, atau apa pun masalah dengan bootstrap. Tidak ada satu cara untuk mengatasi ketergantungan, misalnya. (Saya telah bekerja dengan bootstraps survei, ada sekitar 8 prosedur yang berbeda, meskipun sebagian besar lebih bersifat metodologis daripada kepentingan praktis; dan beberapa jelas lebih rendah karena hanya berlaku dalam kasus khusus, tidak mudah digeneralisasikan.) Untuk diskusi umum tentang masalah yang dapat Anda hadapi dengan bootstrap, lihat Canty, Davison, Hinkley dan Ventura (2006). Diagnosis dan pemulihan bootstrap. Jurnal Statistik Kanada, 34 (1), 5-27 .

— Tugas
sumber

Hanya untuk menambahkan sedikit pernyataan Anda tentang memiliki lebih sedikit informasi ketika Anda memiliki cluster data yang bergantung (di bagian Medium ), saya percaya ini benar di mana ada korelasi intraclass positif dalam sebuah cluster, tetapi sebaliknya adalah benar ketika ada negatif korelasi intraclass. Tentu saja, tampaknya dalam sebagian besar aplikasi data nyata, korelasi intraclass positif.

— Makro

@ Macro: Anda tentu benar dalam kedua hal (bahwa ini secara teknis memungkinkan, dan secara praktis tidak relevan). Hal yang sama akan berlaku jika Anda memperkirakan tingkat rata-rata proses AR (1) dengan korelasi negatif, tetapi sekali lagi saya bingung memikirkan proses nyata yang mungkin memiliki fitur ini. Tidak seperti autokorelasi positif yang dapat direproduksi sendiri pada skala waktu yang berbeda, korelasi negatif harus menghilang jika Anda menggandakan panjang periode referensi Anda. (Data siklus bisnis, seperti PDB AS, memiliki korelasi negatif pada panjang lag sekitar tiga tahun.)

— StasK

Terima kasih atas jawaban terinci Anda. Saya menyimpulkan bahwa pengambilan sampel parametrik dapat mengurangi efek ketergantungan. Namun, distribusi parametrik harus, sampai batas tertentu, mewakili populasi yang sebenarnya, dan pola ketergantungan diregenerasi dalam pengambilan sampel ulang.

— Sadeghd