Stratifikasi berupaya memastikan bahwa setiap lipatan mewakili semua strata data. Umumnya ini dilakukan dengan cara yang diawasi untuk klasifikasi dan bertujuan untuk memastikan setiap kelas (kurang-lebih) terwakili secara merata di setiap lipatan tes (yang tentu saja dikombinasikan dengan cara yang saling melengkapi untuk membentuk lipatan pelatihan).
Intuisi di balik ini berkaitan dengan bias sebagian besar algoritma klasifikasi. Mereka cenderung memberi bobot pada masing-masing instance secara sama yang berarti kelas yang terlalu terwakili mendapatkan terlalu banyak bobot (misalnya, mengoptimalkan ukuran-F, Akurasi, atau bentuk kesalahan pelengkap). Stratifikasi tidak begitu penting untuk suatu algoritma yang menimbang setiap kelas secara merata (misalnya mengoptimalkan Kappa, Informedness atau ROC AUC) atau sesuai dengan matriks biaya (misalnya yang memberikan nilai pada setiap kelas dengan bobot yang benar dan / atau biaya untuk setiap cara. kesalahan klasifikasi). Lihat, misalnya DMW Powers (2014), Apa yang ukuran F tidak ukur: Fitur, Cacat, Kesalahan dan Perbaikan. http://arxiv.org/pdf/1503.06410
Salah satu masalah spesifik yang penting di seluruh algoritma yang tidak bias atau seimbang, adalah bahwa mereka cenderung tidak dapat belajar atau menguji kelas yang tidak terwakili sama sekali dalam satu lipatan, dan lebih jauh lagi bahkan kasus di mana hanya satu dari satu kelas adalah diwakili dalam flip tidak memungkinkan generalisasi untuk dilakukan resp. dievaluasi. Namun bahkan pertimbangan ini tidak universal dan misalnya tidak berlaku terlalu banyak untuk pembelajaran satu kelas, yang mencoba untuk menentukan apa yang normal untuk kelas individu, dan secara efektif mengidentifikasi pencilan sebagai kelas yang berbeda, mengingat bahwa validasi silang adalah tentang menentukan statistik yang tidak menghasilkan penggolong spesifik.
Di sisi lain, stratifikasi yang diawasi berkompromi dengan kemurnian teknis evaluasi karena label data pengujian tidak boleh memengaruhi pelatihan, tetapi dalam stratifikasi digunakan dalam pemilihan contoh pelatihan. Stratifikasi tanpa pengawasan juga dimungkinkan berdasarkan penyebaran data serupa hanya dengan melihat atribut data, bukan kelas sebenarnya. Lihat, misalnya
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855
NA Diamantidis, D. Karlis, EA Giakoumakis (1997), stratifikasi silang validasi silang tanpa validasi untuk estimasi akurasi.
Stratifikasi juga dapat diterapkan untuk regresi daripada klasifikasi, dalam hal ini seperti stratifikasi tanpa pengawasan, kesamaan daripada identitas digunakan, tetapi versi yang diawasi menggunakan nilai fungsi sebenarnya yang diketahui.
Komplikasi lebih lanjut adalah kelas langka dan klasifikasi multilabel, di mana klasifikasi dilakukan pada beberapa dimensi (independen). Di sini tupel label sebenarnya di semua dimensi dapat diperlakukan sebagai kelas untuk tujuan validasi silang. Namun, tidak semua kombinasi harus terjadi, dan beberapa kombinasi mungkin jarang terjadi. Kelas langka dan kombinasi langka adalah masalah karena kelas / kombinasi yang terjadi setidaknya sekali tetapi kurang dari K kali (dalam K-CV) tidak dapat diwakili di semua lipatan uji. Dalam kasus seperti itu, seseorang malah dapat mempertimbangkan bentuk peningkatan bertingkat (pengambilan sampel dengan penggantian untuk menghasilkan lipatan pelatihan ukuran penuh dengan pengulangan yang diharapkan dan 36,8% diharapkan tidak dipilih untuk pengujian, dengan satu instance dari setiap kelas yang dipilih pada awalnya tanpa penggantian untuk lipatan tes) .
Pendekatan lain untuk stratifikasi multilabel adalah mencoba stratifikasi atau bootstrap setiap dimensi kelas secara terpisah tanpa berusaha untuk memastikan pemilihan kombinasi yang representatif. Dengan label L dan instance N dan instance Kkl dari kelas k untuk label l, kita dapat secara acak memilih (tanpa penggantian) dari himpunan instance berlabel yang sesuai Dkl kira-kira instance N / LKkl. Ini tidak memastikan keseimbangan optimal tetapi mencari keseimbangan heuristik. Ini dapat ditingkatkan dengan melarang pemilihan label pada atau melebihi kuota kecuali tidak ada pilihan (karena beberapa kombinasi tidak terjadi atau jarang terjadi). Masalah cenderung berarti bahwa ada terlalu sedikit data atau bahwa dimensi tidak independen.