Memahami validasi silang bertingkat

55

Apa perbedaan antara validasi silang bertingkat dan validasi silang ?

Wikipedia mengatakan:

Dalam stratifikasi k-fold cross-validation , lipatan dipilih sehingga nilai respons rata-rata hampir sama di semua lipatan. Dalam kasus klasifikasi dikotomis, ini berarti bahwa setiap lipatan berisi proporsi yang hampir sama dari dua jenis label kelas.

Tapi saya masih bingung.

Apa mean response valueartinya dalam konteks ini?
Mengapa # 1 itu penting?
Bagaimana seseorang mencapai # 1 dalam praktek?

cross-validation stratification

— Amelio Vazquez-Reina
sumber

43

Artikel validasi silang dalam Encyclopedia of Database Systems mengatakan:

Stratifikasi adalah proses menata ulang data untuk memastikan setiap lipatan merupakan perwakilan yang baik dari keseluruhan. Misalnya dalam masalah klasifikasi biner di mana setiap kelas terdiri dari 50% dari data, yang terbaik adalah mengatur data sedemikian rupa sehingga di setiap flip, setiap kelas terdiri dari sekitar setengah instance.

Mengenai pentingnya stratifikasi, Kohavi (Sebuah studi validasi silang dan bootstrap untuk estimasi akurasi dan pemilihan model) menyimpulkan bahwa:

stratifikasi umumnya merupakan skema yang lebih baik, baik dari segi bias maupun varians, jika dibandingkan dengan validasi silang reguler.

— Baumann
sumber

5

Bisakah Anda menjelaskan, secara intuitif, mengapa lebih baik daripada CV biasa?

— MohamedEzz

Mungkin termasuk paragraf bahwa ada berbagai tingkat stratifikasi yang dapat Anda tuju dan bahwa mereka mengganggu tingkat yang berbeda dengan keacakan lipatan. Terkadang, yang Anda butuhkan adalah memastikan ada setidaknya satu catatan dari setiap kelas di setiap lipatan. Kemudian Anda bisa membuat lipatan secara acak, periksa apakah kondisi itu terpenuhi dan hanya dalam kasus yang tidak mungkin lipatan itu terpenuhi.

— David Ernst

37

Stratifikasi berupaya memastikan bahwa setiap lipatan mewakili semua strata data. Umumnya ini dilakukan dengan cara yang diawasi untuk klasifikasi dan bertujuan untuk memastikan setiap kelas (kurang-lebih) terwakili secara merata di setiap lipatan tes (yang tentu saja dikombinasikan dengan cara yang saling melengkapi untuk membentuk lipatan pelatihan).

Intuisi di balik ini berkaitan dengan bias sebagian besar algoritma klasifikasi. Mereka cenderung memberi bobot pada masing-masing instance secara sama yang berarti kelas yang terlalu terwakili mendapatkan terlalu banyak bobot (misalnya, mengoptimalkan ukuran-F, Akurasi, atau bentuk kesalahan pelengkap). Stratifikasi tidak begitu penting untuk suatu algoritma yang menimbang setiap kelas secara merata (misalnya mengoptimalkan Kappa, Informedness atau ROC AUC) atau sesuai dengan matriks biaya (misalnya yang memberikan nilai pada setiap kelas dengan bobot yang benar dan / atau biaya untuk setiap cara. kesalahan klasifikasi). Lihat, misalnya DMW Powers (2014), Apa yang ukuran F tidak ukur: Fitur, Cacat, Kesalahan dan Perbaikan. http://arxiv.org/pdf/1503.06410

Salah satu masalah spesifik yang penting di seluruh algoritma yang tidak bias atau seimbang, adalah bahwa mereka cenderung tidak dapat belajar atau menguji kelas yang tidak terwakili sama sekali dalam satu lipatan, dan lebih jauh lagi bahkan kasus di mana hanya satu dari satu kelas adalah diwakili dalam flip tidak memungkinkan generalisasi untuk dilakukan resp. dievaluasi. Namun bahkan pertimbangan ini tidak universal dan misalnya tidak berlaku terlalu banyak untuk pembelajaran satu kelas, yang mencoba untuk menentukan apa yang normal untuk kelas individu, dan secara efektif mengidentifikasi pencilan sebagai kelas yang berbeda, mengingat bahwa validasi silang adalah tentang menentukan statistik yang tidak menghasilkan penggolong spesifik.

Di sisi lain, stratifikasi yang diawasi berkompromi dengan kemurnian teknis evaluasi karena label data pengujian tidak boleh memengaruhi pelatihan, tetapi dalam stratifikasi digunakan dalam pemilihan contoh pelatihan. Stratifikasi tanpa pengawasan juga dimungkinkan berdasarkan penyebaran data serupa hanya dengan melihat atribut data, bukan kelas sebenarnya. Lihat, misalnya http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997), stratifikasi silang validasi silang tanpa validasi untuk estimasi akurasi.

Stratifikasi juga dapat diterapkan untuk regresi daripada klasifikasi, dalam hal ini seperti stratifikasi tanpa pengawasan, kesamaan daripada identitas digunakan, tetapi versi yang diawasi menggunakan nilai fungsi sebenarnya yang diketahui.

Komplikasi lebih lanjut adalah kelas langka dan klasifikasi multilabel, di mana klasifikasi dilakukan pada beberapa dimensi (independen). Di sini tupel label sebenarnya di semua dimensi dapat diperlakukan sebagai kelas untuk tujuan validasi silang. Namun, tidak semua kombinasi harus terjadi, dan beberapa kombinasi mungkin jarang terjadi. Kelas langka dan kombinasi langka adalah masalah karena kelas / kombinasi yang terjadi setidaknya sekali tetapi kurang dari K kali (dalam K-CV) tidak dapat diwakili di semua lipatan uji. Dalam kasus seperti itu, seseorang malah dapat mempertimbangkan bentuk peningkatan bertingkat (pengambilan sampel dengan penggantian untuk menghasilkan lipatan pelatihan ukuran penuh dengan pengulangan yang diharapkan dan 36,8% diharapkan tidak dipilih untuk pengujian, dengan satu instance dari setiap kelas yang dipilih pada awalnya tanpa penggantian untuk lipatan tes) .

Pendekatan lain untuk stratifikasi multilabel adalah mencoba stratifikasi atau bootstrap setiap dimensi kelas secara terpisah tanpa berusaha untuk memastikan pemilihan kombinasi yang representatif. Dengan label L dan instance N dan instance Kkl dari kelas k untuk label l, kita dapat secara acak memilih (tanpa penggantian) dari himpunan instance berlabel yang sesuai Dkl kira-kira instance N / LKkl. Ini tidak memastikan keseimbangan optimal tetapi mencari keseimbangan heuristik. Ini dapat ditingkatkan dengan melarang pemilihan label pada atau melebihi kuota kecuali tidak ada pilihan (karena beberapa kombinasi tidak terjadi atau jarang terjadi). Masalah cenderung berarti bahwa ada terlalu sedikit data atau bahwa dimensi tidak independen.

— David MW Powers
sumber

5

Nilai respons rata-rata kira-kira sama di semua lipatan adalah cara lain untuk mengatakan proporsi setiap kelas di semua lipatan kira-kira sama.

Sebagai contoh, kami memiliki dataset dengan 80 catatan kelas 0 dan 20 catatan kelas 1. Kita dapat memperoleh nilai respons rata-rata (80 * 0 + 20 * 1) / 100 = 0,2 dan kami ingin 0,2 menjadi nilai respons rata-rata dari semua lipatan. Ini juga merupakan cara cepat dalam EDA untuk mengukur apakah dataset yang diberikan tidak seimbang alih-alih dihitung.

— Lucy Lu
sumber