Variansi silang validasi keluar satu keluar yang tinggi

Saya membaca berulang-ulang bahwa validasi silang "Leave-one-out" memiliki varian yang tinggi karena tumpang tindih yang besar dari lipatan pelatihan. Namun saya tidak mengerti mengapa itu adalah: Tidak seharusnya kinerja validasi silang menjadi sangat stabil (varian rendah) justru karena set pelatihan hampir identik? Atau apakah saya memiliki pemahaman yang salah tentang konsep "varian" sama sekali?

Saya juga tidak sepenuhnya mengerti bagaimana LOO bisa tidak bias, tetapi memiliki varian yang tinggi? Jika estimasi LOO sama dengan nilai estimator sebenarnya dalam ekspektasi - bagaimana bisa kemudian memiliki varians tinggi?

Catatan: Saya tahu bahwa ada pertanyaan serupa di sini: Mengapa varians silang validasi-tinggalkan (satu-keluar-keluar) tentang estimasi rata-rata untuk kesalahan tinggi? Namun orang yang telah menjawab mengatakan kemudian dalam komentar bahwa meskipun dia mengalami peningkatan, dia menyadari bahwa jawabannya salah.

variance cross-validation bias

— Pegah
sumber

Saya adalah orang itu :-) tetapi harap dicatat bahwa, pertama, saya sudah beberapa waktu yang lalu memperbarui jawaban saya untuk menghilangkan kebingungan, dan, kedua, seluruh utas ditutup sebagai duplikat utas lainnya: stats.stackexchange.com/ pertanyaan / 61783 . Apakah kamu melihat ke sana? Q Anda menurut saya juga merupakan duplikat dari yang itu. Jika Anda tidak puas dengan jawaban yang diberikan di sana, pertimbangkan untuk merumuskan pertanyaan Anda lebih spesifik. Saat ini saya akan memilih untuk menutup, tetapi jangan ragu untuk mengedit Q.

— amoeba berkata Reinstate Monica

Kemungkinan duplikat Varians dan bias dalam validasi silang: mengapa CV cuti satu memiliki varian yang lebih tinggi?

— Amuba mengatakan Reinstate Monica

Yah, itu mudah: biarkan nilai sebenarnya dari parameter menjadi

. Penduga yang menghasilkan

tidak bias dan memiliki varians yang relatif rendah, tetapi estimator yang menghasilkan

juga tidak bias tetapi memiliki varians yang jauh lebih tinggi.

0.5

$0.5$

0.49, 0.51, 0.49, 0.51...

$0.49, 0.51, 0.49, 0.51...$

0.1, 0.9, 0.1, 0.9...

$0.1, 0.9, 0.1, 0.9...$

— Amuba mengatakan Reinstate Monica

Mengenai paragraf pertama Anda: Anda perlu memikirkan varians antar realisasi yang berbeda dari keseluruhan dataset . Untuk set data yang diberikan, LOOCV memang akan menghasilkan model yang sangat mirip untuk setiap split karena set pelatihan berpotongan sangat banyak (seperti yang Anda katakan), tetapi semua model ini dapat bersama-sama jauh dari model sebenarnya ; di seluruh dataset, mereka akan jauh di arah yang berbeda, maka varians yang tinggi. Begitulah cara saya memahaminya secara kualitatif.

— Amuba mengatakan Reinstate Monica

@amoeba, mengapa tidak mengubah komentar itu menjadi jawaban resmi?

— gung - Reinstate Monica

Jawaban:

Pertanyaan ini mungkin akhirnya akan ditutup sebagai duplikat dari Varians dan bias dalam validasi silang: mengapa CV cuti satu memiliki varian yang lebih tinggi? , tetapi sebelum itu terjadi saya pikir saya akan mengubah komentar saya menjadi jawaban.

Saya juga tidak sepenuhnya mengerti bagaimana LOO bisa tidak bias, tetapi memiliki varian yang tinggi?

$0.5$ $0.49,0.51,0.49,0.51...$ $0.1,0.9,0.1,0.9...$

Bukankah seharusnya kinerja validasi silang menjadi sangat stabil (varian rendah) justru karena set pelatihan hampir identik?

Anda perlu memikirkan perbedaan antar realisasi yang berbeda dari keseluruhan dataset. Untuk dataset yang diberikan, validasi silang keluar-keluar-memang akan menghasilkan model yang sangat mirip untuk setiap split karena set pelatihan berpotongan sangat banyak (seperti yang Anda perhatikan dengan benar), tetapi semua model ini dapat bersama-sama jauh dari model sebenarnya; di seluruh dataset, mereka akan jauh di arah yang berbeda, maka varians yang tinggi.

Setidaknya begitulah cara saya memahaminya. Silakan lihat utas terkait untuk diskusi lebih lanjut, dan makalah yang direferensikan untuk diskusi lebih lanjut.

— amuba kata Reinstate Monica
sumber

Jadi, seperti yang saya pahami, bias rendah diberikan karena set pelatihan sangat besar - hampir identik dengan seluruh dataset (karena hanya satu sampel data yang ditinggalkan untuk pengujian). Jadi, untuk satu dataset tertentu kita dapat mengharapkan estimasi yang sangat baik. Namun, karena tingginya korelasi lipatan ini (crossvalidation hampir dilakukan pada data yang identik dalam iterasinya), estimasi ini juga sangat spesifik untuk dataset khusus ini, menghasilkan perbedaan yang tinggi antara kinerja pada dataset berbeda dari distribusi dasar yang sama. . Benar?

— Pegah

Saya pikir itu sebagian besar benar, tetapi orang harus berhati-hati mengatakan itu for one particular dataset we can expect a very good estimation. Saya kira orang dapat mengartikannya sebagai arti bahwa estimasi beberapa parameter dataset spesifik akan baik. Tetapi secara umum validasi silang diperkirakan untuk memperkirakan parameter populasi : seberapa baik jenis model tertentu dapat membuat prediksi tentang variabel dependen dalam populasi; dan kami tidak dapat mengharapkan estimasi yang sangat baik dari itu oleh LOOCV, karena apa yang Anda tulis (perkiraannya very specific for this particular dataset).

— Amuba mengatakan Reinstate Monica

Saya harus menambahkan peringatan bahwa semua itu adalah pemahaman saya saat ini, tetapi secara umum saya menemukan topik ini cukup rumit dan pengalaman saya dengan validasi silang terbatas. Saya bukan ahli.

— Amuba mengatakan Reinstate Monica

Bolehkah saya bertanya mengapa Anda merasa rumit? Saya ingin tahu karena ini mungkin mengajarkan saya sesuatu tentang di mana harus berhati-hati ketika datang ke CV atau di mana untuk memperdalam pengetahuan saya

— Pegah

Mengingat jawaban yang diterima di utas ini , mungkin Anda tidak perlu lagi menyebutkan varian LOOCV yang tinggi dalam jawaban ini, yaitu, maka varian yang tinggi ? Saya telah memikirkan pertanyaan-pertanyaan ini untuk sementara waktu dan tidak dapat menemukan alasan teoretis untuk varian LOOCV yang tinggi dalam masalah-masalah regresi yang terus-menerus ("terus-menerus"?), Walaupun saya melihat poin Paul dalam komentar di utas terkait bahwa LOOCV gagal jika sampel Anda berisi duplikat dari setiap titik.

— Richard Hardy

Varians tinggi ini berkaitan dengan ruang set pelatihan. Inilah sebabnya mengapa LOOCV memiliki varian tinggi: di LOOCV, kami mendapatkan kesalahan prediksi untuk setiap pengamatan, katakanlah pengamatan saya, dengan menggunakan seluruh dataset yang diamati kecuali pengamatan ini. Jadi, nilai prediksi untuk i sangat tergantung pada dataset saat ini. Sekarang asumsikan kita mengamati dataset independen lain dan cocok dengan model pada dataset baru ini. Jika kita menggunakan model baru ini untuk mendapatkan nilai prediksi untuk pengamatan i, nilai prediksi berpotensi sangat berbeda dari yang dievaluasi oleh LOOCV (walaupun benar rata-rata (tidak bias)).

Ini adalah intuisi di balik varian tinggi prediksi kesalahan di LOOCV.

Namun, jika Anda menggunakan LOOCV untuk membandingkan hasil model dengan hiperparameter yang berbeda, saya yakin Anda dapat menggunakan LOOCV dengan aman untuk memperkirakan kesalahan prediksi, asalkan nilai sebenarnya dari kesalahan prediksi bukan minat Anda, yaitu, Anda hanya ingin bandingkan model yang berbeda yang memiliki set pelatihan yang diobservasi dan Anda tidak peduli dengan kesalahan sebenarnya yang akan diperkirakan.

Yang mengatakan, sebagai aturan praktis, jika Anda memiliki sampel kecil, gunakan LOOCV, jika tidak, gunakan CV k-fold dengan nilai lebih kecil untuk k.

— Mehdi Rostami
sumber