Saya sudah membaca pernyataan ini berkali-kali tetapi tidak pernah menemukan bukti. Saya ingin mencoba membuatnya sendiri tetapi saya bahkan tidak yakin dengan notasi apa yang digunakan. Adakah yang bisa membantu saya dengan ini?
Saya sudah membaca pernyataan ini berkali-kali tetapi tidak pernah menemukan bukti. Saya ingin mencoba membuatnya sendiri tetapi saya bahkan tidak yakin dengan notasi apa yang digunakan. Adakah yang bisa membantu saya dengan ini?
Jawaban:
Saya tidak tahu apakah ini jawaban terakhir, tetapi hal-hal itu tidak dapat dikomentari.
Pernyataan bahwa kesalahan OOB tidak bias sering digunakan, tetapi saya tidak pernah melihat demonstrasi. Setelah banyak pencarian, saya akhirnya memberikan setelah membaca dengan seksama halaman Breiman for RF yang terkenal : Perkiraan kesalahan out-of-bag (oob) . Jika Anda tidak memperhatikan (seperti yang saya lewatkan selama beberapa waktu), proposisi terakhir adalah yang penting: Ini telah terbukti tidak bias dalam banyak tes . Jadi, tidak ada tanda derivasi formal.
Lebih dari itu, tampaknya terbukti bahwa untuk kasus ketika Anda memiliki lebih banyak variabel daripada contoh, penaksir ini bias. Lihat di sini .
Untuk kesalahan dalam tas ada derivasi formal. Kesalahan di dalam tas adalah kesalahan bootstrap dan ada banyak literatur yang dimulai dengan "Pengantar Bootsrap, oleh Efron dan Tibshirani". Namun demonstrasi paling bersih yang saya lihat ada di sini .
Jika Anda ingin mulai menemukan bukti, saya pikir titik awal yang baik adalah perbandingan estimasi ini dengan validasi silang N-fold. Dalam ESTL dinyatakan bahwa ada identitas dalam batas, karena jumlah sampel masuk hingga tak terbatas.
Mengapa Anda berharap kesalahan oob tidak bias?
Ada (setidaknya) 1 kasus pelatihan yang kurang tersedia untuk pohon-pohon yang digunakan di hutan pengganti dibandingkan dengan hutan "asli". Saya berharap ini mengarah pada bias pesimistis kecil yang secara kasar sebanding dengan validasi silang keluar-keluar-satu.
Ada kira-kira dari jumlah pohon di hutan "asli" di hutan pengganti yang sebenarnya dievaluasi dengan kasus yang ditinggalkan. Jadi, saya mengharapkan varians yang lebih tinggi dalam prediksi, yang akan menyebabkan bias pesimis lebih lanjut.
Kedua pemikiran terkait erat dengan kurva pembelajaran dari pengklasifikasi dan aplikasi / data yang dipertanyakan: yang pertama sampai kinerja rata-rata sebagai fungsi dari ukuran sampel pelatihan dan yang kedua dengan varians di sekitar kurva rata-rata ini.
Secara keseluruhan, saya berharap paling banyak Anda dapat menunjukkan secara formal bahwa oob adalah penduga yang tidak bias dari kinerja hutan acak yang mengandung dari jumlah pohon di hutan "asli", dan sedang dilatih kasus data pelatihan asli.
Perhatikan juga bahwa Breiman menggunakan "tidak bias" untuk out-of-bootstrap dengan cara yang sama seperti ia menggunakannya untuk validasi silang, di mana kami juga memiliki bias pesimistis (kecil). Berasal dari bidang eksperimental, saya setuju dengan mengatakan bahwa keduanya praktis tidak bias karena bias biasanya jauh lebih sedikit masalah daripada varians (Anda mungkin tidak menggunakan hutan acak jika Anda memiliki kemewahan memiliki banyak kasus) .