Apakah Greedy Layer-Wise Training dari Deep Networks diperlukan untuk keberhasilan pelatihan atau apakah keturunan gradien stokastik cukup?


8

Apakah mungkin untuk mencapai hasil terbaik dengan menggunakan back-propagation saja (tanpa pra-pelatihan )?

Atau apakah semua pendekatan pemecahan rekor menggunakan beberapa bentuk pra-pelatihan?

Apakah back-propagation saja cukup baik?

Jawaban:


8

Pra-pelatihan tidak lagi diperlukan . Tujuannya adalah untuk menemukan inisialisasi yang baik untuk bobot jaringan untuk memfasilitasi konvergensi ketika sejumlah besar lapisan dipekerjakan. Saat ini, kami memiliki ReLU , normalisasi dropout dan batch , yang semuanya berkontribusi untuk memecahkan masalah pelatihan jaringan saraf dalam. Mengutip dari pos reddit terkait di atas (oleh pemenang tantangan Galaxy Zoo Kaggle):

Saya akan mengatakan bahwa "era pra-pelatihan", yang dimulai sekitar 2006, berakhir pada awal 10-an ketika orang mulai menggunakan unit linear yang diperbaiki (ReLUs), dan kemudian dropout, dan menemukan bahwa pra-pelatihan tidak lagi bermanfaat untuk ini jenis jaringan.

Dari makalah ReLU (ditautkan di atas):

jaringan penyearah yang dalam dapat mencapai kinerja terbaiknya tanpa memerlukan pra-pelatihan tanpa pengawasan

Dengan itu, tidak lagi diperlukan , tetapi masih dapat meningkatkan kinerja dalam beberapa kasus di mana ada terlalu banyak sampel yang tidak diawasi (tidak berlabel), seperti yang terlihat dalam makalah ini .


Ini adalah jawaban yang bagus tapi saya pikir akan lebih baik jika Anda bisa menemukan referensi akademis, daripada utas Reddit.
Sycorax berkata Reinstate Monica

Bukankah 3 di atas cukup? Itu bahkan ditulis dalam abstrak yang pertama.
rcpinto

Revisi persis seperti dukungan untuk klaim bahwa "pra-pelatihan tidak lagi diperlukan" yang saya harapkan. Terima kasih telah berkontribusi ke situs web kami.
Sycorax berkata Reinstate Monica

1
Berikut adalah pertanyaan terkait: apakah pra-pelatihan melakukan hal yang sama dengan putus sekolah (dalam beberapa hal)?

Jawaban ini sangat salah , atau paling tidak menyesatkan; BN, Dropout, dll melayani sebagian besar peran orthogonal untuk pretraining, di mana yang terakhir memungkinkan pembelajaran fitur yang dapat ditransfer . Contoh: denoising, pengurangan dimensionalitas, data yang hilang, rekrining timeseries autoencoder, encoder ditempatkan pada input sebelum suatu jaringan syaraf pengklasifikasi; classifier mempelajari fitur-fitur diskriminatif , sangat berbeda dari autoencoder.
OverLordGoldDragon
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.