Di mana bootstrap - dapatkah seseorang memberikan penjelasan sederhana untuk memulai?


9

Meskipun beberapa upaya membaca tentang bootstrap, saya tampaknya selalu menabrak dinding bata. Saya ingin tahu apakah ada yang bisa memberikan definisi bootstrap yang cukup non-teknis?

Saya tahu tidak mungkin dalam forum ini untuk memberikan detail yang cukup untuk memungkinkan saya untuk memahaminya sepenuhnya, tetapi dorongan lembut ke arah yang benar dengan tujuan utama dan mekanisme bootstrap akan sangat dihargai! Terima kasih.

Jawaban:


8

Entri Wikipedia tentang Bootstrapping sebenarnya sangat bagus:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

Alasan paling umum bootstrap diterapkan adalah ketika bentuk distribusi yang mendasari dari mana sampel diambil tidak diketahui. Secara tradisional ahli statistik mengasumsikan distribusi normal (untuk alasan yang sangat baik terkait dengan teorema batas pusat), tetapi statistik (seperti standar deviasi, interval kepercayaan, perhitungan daya dll.) Yang diperkirakan melalui teori distribusi normal hanya benar-benar valid jika distribusi populasi yang mendasarinya adalah normal.

Dengan berulang kali sampel ulang sampel itu sendiri, bootstrap memungkinkan estimasi yang independen terhadap distribusi. Secara tradisional setiap "resample" dari sampel asli secara acak memilih jumlah pengamatan yang sama seperti pada sampel asli. Namun ini dipilih dengan penggantian. Jika sampel memiliki pengamatan N, setiap bootstrap resample akan memiliki pengamatan N, dengan banyak sampel asli diulang dan banyak yang dikeluarkan.

Parameter yang diminati (mis. Rasio odds dll) kemudian dapat diperkirakan dari setiap sampel yang di-bootstrap. Mengulangi bootstrap mengatakan 1000 kali memungkinkan perkiraan "median" dan interval kepercayaan 95% pada statistik (misalnya rasio odds) dengan memilih persentil ke 2.5, 50 dan 97.5.


8

American Scientist baru-baru ini memiliki artikel bagus oleh Cosma Shalizi tentang bootstrap yang cukup mudah dibaca dan memberi Anda hal-hal penting untuk memahami konsep tersebut.


7

Secara luas: intuisi, serta asal usul nama ("menarik diri dengan tali sepatu"), berasal dari pengamatan bahwa dalam menggunakan properti sampel untuk menarik kesimpulan tentang populasi (masalah statistik "terbalik") inferensi), kami berharap untuk berbuat salah. Untuk mengetahui sifat kesalahan itu, perlakukan sampel itu sendiri sebagai populasi dengan haknya sendiri dan pelajari bagaimana prosedur inferensial Anda bekerja saat Anda mengambil sampel darinya. Itu "maju" masalah: Anda tahu semua tentang sample- Anda qua-populasi dan tidak perlu menebak apa-apa tentang itu. Studi Anda akan menyarankan (a) sejauh mana prosedur inferensial Anda bias dan (b) ukuran dan sifat kesalahan statistik prosedur Anda. Jadi, gunakan informasi ini untuk menyesuaikan perkiraan awal Anda. Dalam banyak (tapi jelas tidak semua) situasi, bias yang disesuaikan secara asimptot jauh lebih rendah.

Satu wawasan yang diberikan oleh deskripsi skematik ini adalah bahwa bootstrap tidak memerlukan simulasi atau subampling berulang: itu hanya omnibus, cara yang bisa dilakukan secara komputasional untuk mempelajari segala jenis prosedur statistik ketika populasi diketahui. Ada banyak perkiraan bootstrap yang dapat dihitung secara matematis.

Jawaban ini berutang banyak pada buku Peter Hall "The Bootstrap dan Edgeworth Expansion" (Springer 1992), terutama deskripsinya tentang "Prinsip Utama" dari bootstrap.


Saya suka pendekatan "asli" ini (wrt. Entri lainnya). Namun, saya selalu menemukan kesulitan untuk menjelaskan mengapa bootstrap bekerja dalam praktek ...
chl

4

Wiki saat bootstrap memberikan deskripsi berikut:

Bootstrapping memungkinkan seseorang untuk mengumpulkan banyak versi alternatif dari statistik tunggal yang biasanya dihitung dari satu sampel. Misalnya, anggap kita tertarik pada ketinggian orang di seluruh dunia. Karena kami tidak dapat mengukur semua populasi, kami hanya mengambil sampel sebagian kecil saja. Dari sampel itu hanya satu nilai statistik yang dapat diperoleh, yaitu satu rata-rata, atau satu standar deviasi dll, dan karenanya kami tidak melihat seberapa banyak statistik itu bervariasi. Saat menggunakan bootstrap, kami secara acak mengekstraksi sampel baru n tinggi dari data sampel N, di mana setiap orang dapat dipilih paling banyak t kali. Dengan melakukan ini beberapa kali, kami membuat sejumlah besar set data yang mungkin telah kita lihat dan menghitung statistik untuk masing-masing set data ini. Dengan demikian kami mendapatkan estimasi distribusi statistik.

Saya akan memberikan detail lebih lanjut jika Anda dapat mengklarifikasi bagian mana dari deskripsi di atas yang tidak Anda mengerti.


4

Saya suka memikirkannya sebagai berikut: Jika Anda memperoleh kumpulan data sampel acak dari suatu populasi, maka agaknya sampel tersebut akan memiliki karakteristik yang kira-kira sama dengan populasi sumber. Jadi, jika Anda tertarik untuk mendapatkan interval kepercayaan pada fitur tertentu dari distribusi, kemiringannya misalnya, Anda dapat memperlakukan sampel sebagai populasi pseudo dari mana Anda dapat memperoleh banyak set sampel pseudo acak, menghitung nilai fitur yang menarik di masing-masing. Asumsi bahwa sampel asli kira-kira sesuai dengan populasi juga berarti bahwa Anda dapat memperoleh sampel semu dengan mengambil sampel dari populasi semu "dengan penggantian" (mis. Anda mengambil sampel nilai, mencatatnya, lalu memasukkannya kembali, sehingga setiap nilai memiliki kesempatan diamati beberapa kali.).


3

Bootstrap pada dasarnya adalah simulasi percobaan berulang; katakanlah Anda memiliki sebuah kotak dengan bola yang ingin mendapatkan ukuran rata-rata bola - jadi Anda menggambar beberapa di antaranya, mengukur dan mengambil rata-rata. Sekarang Anda ingin mengulanginya untuk mendapatkan distribusi, misalnya untuk mendapatkan standar deviasi - tetapi Anda menemukan seseorang mencuri kotak itu.
Apa yang dapat dilakukan sekarang adalah menggunakan apa yang Anda miliki - serangkaian pengukuran ini. Idenya adalah untuk menempatkan bola ke kotak baru dan mensimulasikan percobaan asli dengan menggambar jumlah bola yang sama dengan penggantian - keduanya memiliki ukuran sampel yang sama dan beberapa variabilitas. Sekarang ini dapat direplikasi berkali-kali untuk mendapatkan serangkaian cara yang akhirnya dapat digunakan untuk memperkirakan distribusi rata-rata.


3

Ini adalah inti dari bootstrap: mengambil sampel data Anda yang berbeda, mendapatkan statistik untuk setiap sampel (misalnya, rata-rata, median, korelasi, koefisien regresi, dll.), Dan menggunakan variabilitas dalam statistik lintas sampel untuk menunjukkan sesuatu tentang interval kesalahan dan kepercayaan standar untuk statistik. - Bootstrap dan paket boot di R

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.