Apa perbedaan antara set tes dan set validasi?

431

Saya menemukan ini membingungkan ketika saya menggunakan toolbox jaringan saraf di Matlab.
Ini membagi set data mentah menjadi tiga bagian:

perlengkapan latihan
set validasi
set tes

Saya perhatikan dalam banyak pelatihan atau algoritma pembelajaran, data sering dibagi menjadi 2 bagian, set pelatihan dan set tes.

Pertanyaan saya adalah:

apa perbedaan antara set validasi dan set tes?
Apakah set validasi benar-benar spesifik untuk jaringan saraf? Atau itu opsional.
Untuk melangkah lebih jauh, apakah ada perbedaan antara validasi dan pengujian dalam konteks pembelajaran mesin?

machine-learning validation

— xiaohan2012
sumber

56

Pertanyaan dijawab dalam buku Elemen pembelajaran statistik halaman 222. Set validasi digunakan untuk pemilihan model, set tes untuk model akhir (model yang dipilih oleh proses seleksi) kesalahan prediksi.

— mpiktas

@mpiktas Apakah Anda merujuk pada bab "Penilaian dan Pemilihan Model"?

— Celdor

2

Iya. Nomor halaman berasal dari edisi cetak ke-5.

— mpiktas

13

@mpiktas tepat. Inilah teks yang sebenarnya:

The training set is used to fit the models; the validation set is used to estimate prediction error for model selection; the test set is used for assessment of the generalization error of the final chosen model. Ideally, the test set should be kept in a “vault,” and be brought out only at the end of the data analysis.

— arun

1

Saya suka penjelasan Jason Brownlee juga.

— delrocco

254

Biasanya untuk melakukan pembelajaran yang diawasi, Anda memerlukan dua jenis kumpulan data:

Dalam satu dataset ("standar emas" Anda), Anda memiliki data input bersama dengan output yang benar / diharapkan, dataset ini biasanya dipersiapkan dengan baik oleh manusia atau dengan mengumpulkan beberapa data dengan cara semi-otomatis. Tetapi penting bahwa Anda memiliki output yang diharapkan untuk setiap baris data di sini, karena Anda memerlukan ini untuk pembelajaran yang diawasi.
Data yang akan Anda gunakan untuk model Anda. Dalam banyak kasus ini adalah data di mana Anda tertarik untuk output dari model Anda dan dengan demikian Anda belum memiliki output "yang diharapkan" di sini.

Saat melakukan pembelajaran mesin, Anda melakukan hal berikut:

Tahap pelatihan: Anda mempresentasikan data dari "standar emas" dan melatih model Anda, dengan memasangkan input dengan output yang diharapkan.
Fase Validasi / Tes: untuk memperkirakan seberapa baik model Anda telah dilatih (yang tergantung pada ukuran data Anda, nilai yang ingin Anda prediksi, input, dll) dan untuk memperkirakan properti model (kesalahan rata-rata untuk prediksi numerik, kesalahan klasifikasi untuk pengklasifikasi, penarikan dan presisi untuk model-IR, dll.)
Fase Aplikasi: sekarang Anda menerapkan model yang baru dikembangkan untuk data dunia nyata dan mendapatkan hasilnya. Karena Anda biasanya tidak memiliki nilai referensi dalam tipe data ini (jika tidak, mengapa Anda membutuhkan model Anda?), Anda hanya dapat berspekulasi tentang kualitas output model Anda menggunakan hasil fase validasi Anda.

Fase validasi sering dibagi menjadi dua bagian :

Pada bagian pertama Anda hanya melihat model Anda dan memilih pendekatan dengan kinerja terbaik menggunakan data validasi (= validasi)
Kemudian Anda memperkirakan keakuratan pendekatan yang dipilih (= tes).

Maka pemisahan menjadi 50/25/25.

Jika Anda tidak perlu memilih model yang sesuai dari beberapa pendekatan saingan, Anda bisa mempartisi ulang perangkat Anda yang pada dasarnya Anda hanya memiliki perangkat pelatihan dan perangkat uji, tanpa melakukan validasi model terlatih Anda. Saya pribadi mempartisi mereka 70/30 lalu.

Lihat juga pertanyaan ini .

— Alexander Galkin
sumber

21

Mengapa saya tidak memilih model dengan kinerja terbaik berdasarkan set tes, menyingkirkan set validasi sama sekali?

— Sebastian Graf

4

Apakah karena overfitting? Atau karena kami ingin beberapa statistik independen berdasarkan hasil tes, hanya untuk estimasi kesalahan?

— Sebastian Graf

12

@Sebastian [Jika Anda hanya menggunakan set tes:] "Kesalahan set tes dari model yang dipilih akhir akan meremehkan kesalahan tes yang sebenarnya, kadang-kadang secara signifikan" [Hastie et al]

— user695652

23

Set validasi sering digunakan untuk menyetel parameter hiper. Misalnya, di komunitas pembelajaran yang dalam, menyetel ukuran lapisan jaringan, nomor unit tersembunyi, istilah regularisasi (apakah L1 atau L2) tergantung pada set validasi

— xiaohan2012

2

Apa cara yang benar untuk membagi set? Haruskah pemilihannya acak? Bagaimana jika Anda memiliki gambar yang serupa? Bukankah ini akan merusak kemampuan Anda untuk menggeneralisasi? Jika Anda memiliki dua set yang diambil di lokasi yang terpisah, bukankah lebih baik untuk mengambil satu sebagai set pelatihan dan yang lainnya sebagai set tes?

— Yonatan Simson

263

Set pelatihan: set contoh yang digunakan untuk belajar: agar sesuai dengan parameter classifier Dalam kasus Multilayer Perceptron (MLP), kita akan menggunakan set pelatihan untuk menemukan bobot "optimal" dengan aturan back-prop

Kumpulan validasi: seperangkat contoh yang digunakan untuk menyesuaikan parameter classifier Dalam kasus MLP, kami akan menggunakan set validasi untuk menemukan jumlah unit tersembunyi "optimal" atau menentukan titik henti untuk algoritma propagasi balik

Kumpulan uji: seperangkat contoh yang hanya digunakan untuk menilai kinerja pengklasifikasi yang terlatih penuh. Dalam kasus MLP, kami akan menggunakan tes untuk memperkirakan tingkat kesalahan setelah kami memilih model akhir (ukuran MLP dan bobot aktual) Setelah menilai model terakhir pada set tes, ANDA TIDAK HARUS menyetel model lebih jauh!

Mengapa tes dan validasi terpisah ditetapkan? Perkiraan tingkat kesalahan dari model akhir pada data validasi akan menjadi bias (lebih kecil dari tingkat kesalahan sebenarnya) karena set validasi digunakan untuk memilih model akhir. Setelah menilai model akhir pada set tes, ANDA TIDAK HARUS menyesuaikan model apa pun lebih lanjut!

sumber: Pengantar Analisis Pola, Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University

— mohsen najafzadeh
sumber

42

+1 untuk "ANDA TIDAK HARUS menyesuaikan model lebih jauh!"

— stmax

6

Apa perbedaan antara "pas parameter" dan "setel parameter"?

— Metariat

18

@stmax Tidak ingin bertele-tele, tetapi begitu kita memiliki kesalahan tes akhir dan kita TIDAK puas dengan hasilnya, apa yang kita lakukan, jika kita tidak bisa menyetel model kita lebih jauh? ... Saya sering bertanya-tanya tentang kasus ini.

— Spacey

5

@Tarantula Anda dapat melanjutkan penyetelan model, tetapi Anda harus mengumpulkan set tes baru. Tentu saja tidak ada yang melakukan itu;) tetapi melanggar itu (terutama ketika Anda mengulanginya beberapa kali) dapat menyebabkan model Anda cocok dengan set tes - yang menghasilkan skor yang tidak realistis / terlalu optimis.

— stmax

4

Saya pikir nomenklatur ini membingungkan. Anda benar mengatakan "ANDA TIDAK HARUS menyelaraskan model" setelah menggunakan set tes, tetapi ... bidang apa yang ingin Anda lakukan? Berhentilah mengerjakannya? Pada kenyataannya Anda membutuhkan seluruh hierarki set tes. 1: Perangkat validasi - digunakan untuk menyetel model, 2: Perangkat uji, digunakan untuk mengevaluasi model dan lihat apakah Anda harus kembali ke papan gambar, 3: Perangkat uji super, digunakan pada algoritma final-final untuk melihat bagaimana bagusnya, 4: set hyper-test, digunakan setelah peneliti telah mengembangkan algoritma MNIST selama 10 tahun untuk melihat seberapa gila pakaian mereka ... dll.

— Timmmm

66

Pengalaman 5 tahun saya dalam Ilmu Komputer mengajarkan saya bahwa tidak ada yang lebih baik daripada kesederhanaan.

Konsep Set Data Pelatihan / Validasi Lintas / Tes semudah ini. Saat Anda memiliki kumpulan data besar, disarankan untuk membaginya menjadi 3 bagian:

++ Kumpulan pelatihan (60% dari kumpulan data asli): Ini digunakan untuk membangun algoritme prediksi kami. Algoritma kami mencoba untuk menyesuaikan diri dengan kebiasaan set data pelatihan. Dalam fase ini kami biasanya membuat beberapa algoritma untuk membandingkan kinerja mereka selama Fase Lintas-Validasi.

++ Kumpulan Validasi Lintas (20% dari kumpulan data asli): Kumpulan data ini digunakan untuk membandingkan kinerja algoritma prediksi yang dibuat berdasarkan pada rangkaian pelatihan. Kami memilih algoritma yang memiliki kinerja terbaik.

++ Kumpulan uji (20% dari kumpulan data asli): Sekarang kami telah memilih algoritme prediksi pilihan kami, tetapi kami belum tahu bagaimana kinerjanya pada data dunia nyata yang sama sekali tidak terlihat. Jadi, kami menerapkan algoritme prediksi yang kami pilih pada set pengujian kami untuk melihat bagaimana kinerjanya sehingga kami dapat memiliki gagasan tentang kinerja algoritma kami pada data yang tidak terlihat.

Catatan:

-Sangat penting untuk diingat bahwa melewatkan fase pengujian tidak dianjurkan, karena algoritma yang berkinerja baik selama fase validasi silang tidak benar-benar berarti bahwa itu benar-benar yang terbaik, karena algoritma dibandingkan berdasarkan pada cross Set validasi dan keanehan dan kebisingannya ...

-Selama Fase Uji, tujuannya adalah untuk melihat bagaimana model akhir kita akan berhadapan di alam liar, jadi jika kinerjanya sangat buruk, kita harus mengulangi seluruh proses mulai dari Fase Pelatihan.

— innovIsmail
sumber

1

mudah dan membingungkan untuk menyebut set sebagai fase dan sebaliknya.

— Matt O'Brien

2

@innovIsmail Bagaimana jika saya melewatkan langkah validasi? Katakanlah saya memiliki banyak algoritme dan saya melatihnya di set kereta, maka saya hanya menerapkan semuanya pada set tes, kemudian saya memilih yang memiliki performa terbaik pada set tes

— KevinKim

3

Bagi saya sepertinya Anda baru saja melewatkan langkah uji.

— Mihai Danila

1

> bandingkan kinerja algoritma prediksi - apa itu "algoritma" dalam konteks ini? bukankah model Anda adalah sebuah algoritma? apakah kita harus membuat beberapa model dan melatihnya secara terpisah untuk mendapatkan beberapa fase untuk divalidasi?

— Boppity Bop

2

Kesederhanaan ini adalah ilusi karena dalam situasi ukuran sampel yang tidak besar kita akan mendapatkan algoritma prediksi yang sangat berbeda dan hasil validasi seandainya pemisahan acak diulang.

— Frank Harrell

33

Pada setiap langkah di mana Anda diminta untuk mengambil keputusan (yaitu memilih satu opsi di antara beberapa opsi), Anda harus memiliki set / partisi tambahan untuk mengukur keakuratan pilihan Anda sehingga Anda tidak hanya memilih hasil yang paling disukai dari keacakan dan kesalahan ujung distribusi untuk pusat ¹ . Kiri adalah pesimis. Yang benar adalah yang optimis. Pusat adalah pragmatis. Jadilah pragmatis.

masukkan deskripsi gambar di sini

Langkah 1) Pelatihan: Setiap jenis algoritma memiliki opsi parameter sendiri (jumlah lapisan dalam Jaringan Saraf Tiruan, jumlah pohon di Hutan Acak, dll). Untuk setiap algoritme Anda, Anda harus memilih satu opsi. Itu sebabnya Anda memiliki satu set pelatihan.

Langkah 2) Memvalidasi: Anda sekarang memiliki koleksi algoritma. Anda harus memilih satu algoritma. Itu sebabnya Anda memiliki set tes. Sebagian besar orang memilih algoritma yang berkinerja terbaik pada set validasi (dan itu tidak masalah). Tetapi, jika Anda tidak mengukur tingkat kesalahan algoritma berkinerja terbaik Anda pada set tes, dan hanya pergi dengan tingkat kesalahan pada set validasi, maka Anda telah secara salah mengira "skenario terbaik" untuk "skenario yang paling mungkin." Itu resep untuk bencana.

Langkah 3) Pengujian: Saya kira jika algoritma Anda tidak memiliki parameter apa pun maka Anda tidak perlu langkah ketiga. Dalam hal itu, langkah validasi Anda akan menjadi langkah pengujian Anda. Mungkin Matlab tidak meminta Anda untuk parameter atau Anda memilih untuk tidak menggunakannya dan itu adalah sumber kebingungan Anda.

¹ Sering membantu untuk masuk ke setiap langkah dengan asumsi (hipotesis nol) bahwa semua opsi adalah sama (mis. Semua parameter adalah sama atau semua algoritma adalah sama), maka referensi saya untuk distribusi.

² Gambar ini bukan milik saya. Saya telah mengambilnya dari situs ini: http://www.teamten.com/lawrence/writings/bell-curve.png

— Ryan Zotti
sumber

3

Saya pikir kalimat pertama menangkap jawaban mendasar untuk pertanyaan ini lebih baik daripada jawaban lainnya. "Pada setiap langkah yang Anda diminta untuk mengambil keputusan (yaitu memilih satu opsi di antara beberapa opsi), Anda harus memiliki set / partisi tambahan untuk mengukur keakuratan pilihan Anda ..."

— kobejohn

Pada pertanyaan: Jika saya ingin menemukan RandomForest (RF) terbaik dan berpura-pura hanya ada satu parameter hiper RF, yaitu jumlah pohon (N), maka pada langkah1, saya menjalankan banyak RF dengan N berbeda untuk membangun hutan ; pada langkah2, terapkan pada tes validasi dan pilih RF dengan N * yang memberikan kesalahan terendah dibandingkan tes validasi, kemudian pada langkah3, saya menerapkan RF dengan N * ke set tes dan mendapatkan estimasi bias dari kesalahan pengujian sejati RF ini dengan N *. Tapi saya bisa menerapkan semua RF saya pada set tes dan memilih satu dengan kesalahan tes terendah, yang mungkin bukan N *. Lalu itu gunanya melakukan validasi step2?

— KevinKim

1

@KevinKim: Jika Anda menerapkan set tes Anda ke semua RF dan menggunakan hasilnya untuk membuat pilihan lebih lanjut (pilih model lain), maka Anda baru saja mengulangi langkah validasi. Anda telah menetapkan pikiran pada "Saya harus mendapatkan kesalahan terendah dengan model!". Itu adalah titik pelatihan dan validasi, BUKAN pengujian. Pengujian hanya tentang: Saya sudah melatih dan memilih model, sekarang mari kita lihat bagaimana kinerjanya "secara umum". Jelas set tes "umum" hanyalah sepotong data lain yang mungkin atau mungkin tidak sesuai, tetapi intinya adalah bahwa ANDA belum sengaja menyesuaikan model Anda dengan pilihan.

— Honeybear

Perpecahan tiga-bijaksana hanyalah pendekatan yang sangat umum (A) untuk memberi Anda gambaran tentang bagaimana model menggeneralisasi (B) dengan upaya terbatas dan (C) data yang diamati terbatas. Jika Anda ingin melakukan yang lebih baik dalam hal (B), Anda dapat melakukan apa yang Anda sarankan: Gunakan set validasi berbeda untuk menetapkan untuk generalisasi. Dengan data terbatas yang disebut cross-validation: Ulangi pelatihan dan validasi dengan berbagai pelatihan dan set tes (untuk jaringan saraf di mana pelatihan mungkin memakan waktu berminggu-minggu ini bukan hal yang penting).

— Honeybear

1

TAPI: Bagaimana model akan tampil "di dunia nyata" masih belum diketahui. Ini hanya asumsi yang divalidasi dan diuji, bahwa itu akan bekerja dengan baik pada data yang tidak terlihat dan untuk tujuan ilmiah ini biasanya dianggap cukup. Jika sekarang Anda kembali dan menghasilkan dan memilih model, sampai satu set validasi DAN uji ditetapkan dengan sempurna, maka Anda merosot set tes Anda ke set validasi. Lebih baik lakukan cross-validation untuk itu. Jika kinerja Anda secara terus-menerus jauh lebih buruk pada set tes, itu selalu merupakan opsi bahwa data Anda hanya terpecah-pecah dan Anda ingin memulai kembali dengan set yang diacak ulang.

— Honeybear

21

Itu tidak berarti bahwa Anda perlu membagi data dengan cara apa pun. Bootstrap dapat memberikan estimasi kesalahan kuadrat rata-rata yang lebih kecil dari akurasi prediksi menggunakan seluruh sampel untuk pengembangan dan pengujian model.

— Frank Harrell
sumber

1

Jadi Anda tidak menganjurkan validasi silang melalui pemisahan kumpulan data besar untuk pengujian / validasi model prediktif?

— OFish

9

Tidak, kecuali dataset sangat besar atau sinyal: rasio noise tinggi. Validasi silang tidak setepat bootstrap dalam pengalaman saya, dan tidak menggunakan ukuran sampel keseluruhan. Dalam banyak kasus, Anda harus mengulangi validasi silang 50-100 kali untuk mencapai presisi yang memadai. Tetapi dalam dataset Anda memiliki> 20.000 subjek, pendekatan sederhana seperti validasi split-sampel sering OK.

— Frank Harrell

2

Itu sangat bagus untuk diketahui! Terima kasih. Dan datang dari Anda, itu adalah "sumber" informasi yang bagus. Tepuk tangan!

— OFish

1

Validasi split-sampel sering berkinerja lebih buruk daripada bootstrap yang ketat. Buat tampilan bootstrap luar yang mengulangi semua langkah pembelajaran yang dilindungi (semua langkah yang menggunakan Y). Bootstrap optimisme Efron-Gong memperkirakan berapa banyak model prediksi hancur dalam data yang tidak terlihat oleh algoritma, tanpa menahan data.

— Frank Harrell

1

Ya dengan penekanan pada pengulangan . Ini adalah pemecahan tunggal yang bermasalah.

— Frank Harrell

13

Tugas pembelajaran mesin yang khas dapat divisualisasikan sebagai loop bersarang berikut:

while (error in validation set > X) {
    tune hyper-parameters
    while (error in training set > Y) {
        tune parameters
    }
}

Biasanya loop luar dilakukan oleh manusia , pada set validasi , dan loop dalam oleh mesin , pada set pelatihan . Anda kemudian membutuhkan set tes ke-3 untuk menilai kinerja akhir model.

Dengan kata lain, set validasi adalah set pelatihan untuk manusia.

— Yu Zhou
sumber

9

Satu cara untuk memikirkan ketiga perangkat ini adalah bahwa dua dari mereka ( trainingdan validation) berasal dari masa lalu, sedangkan testperangkat tersebut berasal dari "masa depan". Model harus dibangun dan disetel menggunakan data dari "masa lalu" ( training/ validationdata), tetapi tidak pernah testdata yang berasal dari "masa depan".

Untuk memberikan contoh praktis, katakanlah kita sedang membangun model untuk memprediksi seberapa baik kinerja pemain baseball di masa depan. Kami akan menggunakan data dari 1899-2014 untuk membuat testdan validationmengatur. Setelah model dibangun dan dicari pada data tersebut, kami akan menggunakan data dari 2015 (sebenarnya di masa lalu!) Sebagai set uji, yang dari perspektif model muncul seperti data "masa depan" dan sama sekali tidak memengaruhi pembuatan model . (Jelas, secara teori, kami bisa menunggu data dari 2016 jika kami benar-benar mau!)

Jelas saya menggunakan tanda kutip di mana-mana, karena urutan temporal sebenarnya dari data mungkin tidak sesuai dengan masa depan yang sebenarnya (menurut definisi semua generasi data mungkin terjadi di masa lalu yang sebenarnya). Pada kenyataannya, testhimpunan mungkin hanya data dari periode waktu yang sama dengan training/ validationset, yang Anda "tahan". Dengan cara ini, tidak ada pengaruh pada penyetelan model, tetapi mereka yang menahan data sebenarnya tidak datang dari masa depan.

— thecity2
sumber

4

Setelah membaca semua jawaban lain, jawaban ini membuatnya "klik" untuk saya! Anda berlatih dengan set kereta, periksa bahwa Anda tidak terlalu cocok dengan set validasi (dan bahwa model dan hiperparameter bekerja dengan "data tidak dikenal"), dan kemudian Anda menilai dengan set tes - "data baru" - apakah Anda sekarang punya kekuatan prediksi ..!

— stolsvik

Ini adalah cara yang adil untuk melihatnya dalam arti bahwa testdata tidak boleh menjadi bagian dari proses pelatihan: dan jika kita memperlakukannya sebagai data "masa depan" maka itu menjadi kesalahan yang mustahil untuk dibuat.

— javadba

7

Sebagian besar algoritma penambangan data yang diawasi mengikuti tiga langkah ini:

Set pelatihan digunakan untuk membangun model. Ini berisi sekumpulan data yang memiliki variabel target dan prediktor yang telah diklasifikasi.
Biasanya set data penahan atau set tes digunakan untuk mengevaluasi seberapa baik model melakukan dengan data di luar set pelatihan. Set uji berisi data hasil yang sudah diklasifikasikan sebelumnya tetapi tidak digunakan saat data set uji dijalankan melalui model hingga akhir, ketika data yang sudah diklasifikasikan sebelumnya dibandingkan dengan hasil model. Model disesuaikan untuk meminimalkan kesalahan pada set tes.
Dataset penahanan atau set validasi yang lain digunakan untuk mengevaluasi model yang disesuaikan pada langkah # 2 di mana, sekali lagi, set data validasi dijalankan terhadap model yang disesuaikan dan hasilnya dibandingkan dengan data pra-klasifikasi yang tidak digunakan.

— Scott
sumber

4

Beberapa orang bingung mengapa kami menggunakan set validasi, jadi saya akan memberikan penjelasan yang sederhana dan intuitif tentang apa yang akan terjadi jika Anda tidak menggunakan dataset validasi.

Jika Anda tidak menggunakan set validasi, Anda harus memilih hiperparameter dan memutuskan kapan harus berhenti pelatihan berdasarkan kinerja model pada dataset pengujian. Jika Anda memutuskan kapan harus menghentikan pelatihan berdasarkan kinerja model pada dataset pengujian, Anda bisa menghentikan pelatihan ketika model tersebut bekerja dengan baik pada dataset pengujian. Kemudian ketika Anda melaporkan hasil Anda, Anda melaporkan keakuratan pada dataset pengujian. Masalah dengan ini adalah bahwa Anda bisa mengatakan model Anda bekerja dengan sangat baik padahal sebenarnya itu hanya variasi acak yang menyebabkannya melakukan lebih baik pada set pengujian saja.

Jika Anda menggunakan set validasi sebagai gantinya untuk memutuskan kapan harus berhenti pelatihan, keakuratan model pada set pengujian lebih merupakan refleksi yang tidak bias dari seberapa baik kinerjanya pada tugas secara umum, dan itu menunjukkan bahwa Anda tidak mengoptimalkan model hanya untuk tampil baik di set pengujian.

— dan dan
sumber

2

Saya ingin menambahkan jawaban lain yang sangat bagus di sini dengan menunjukkan pendekatan yang relatif baru dalam pembelajaran mesin yang disebut "privasi diferensial" (lihat makalah dari Dwork; the Win Vector Blog untuk lebih lanjut). Idenya memungkinkan untuk benar-benar menggunakan kembali set pengujian tanpa mengorbankan kinerja model akhir. Dalam pengaturan tipikal, set tes hanya digunakan untuk memperkirakan kinerja akhir; idealnya seseorang bahkan tidak diizinkan untuk melihatnya.

Seperti yang dijelaskan dengan baik di blog Win Vector ini (lihat entri lain juga), adalah mungkin untuk "menggunakan" set tes tanpa bias kinerja model. Ini dilakukan dengan menggunakan prosedur khusus yang disebut "privasi diferensial". Pelajar tidak akan memiliki akses langsung ke set tes.

— Vladislavs Dovgalecs
sumber

-1

Ide saya adalah bahwa opsi-opsi dalam kotak peralatan jaringan saraf adalah untuk menghindari overfitting. Dalam situasi ini bobot ditentukan hanya untuk data pelatihan dan tidak menunjukkan tren global. Dengan memiliki satu set validasi, iterasi dapat diadaptasi ke mana penurunan kesalahan data pelatihan menyebabkan penurunan data validasi dan peningkatan kesalahan data validasi; seiring dengan penurunan kesalahan data pelatihan, ini menunjukkan fenomena overfitting.

— Azade
sumber

Saya berani mengatakan set tes menambahkan pemeriksaan kewarasan untuk seluruh proses. Anda dapat memiliki kurva pelatihan yang mereplikasi kurva validasi / kehilangan di setiap zaman. Tetapi jika akurasi set pengujian Anda tidak meningkat dengan zaman atau tank Anda sampai tidak baik. Anda overfitting.

— agcala