Bagaimana memilih jumlah layer dan node tersembunyi dalam jaringan neural feedforward?

542

Apakah ada metode standar dan diterima untuk memilih jumlah lapisan, dan jumlah node di setiap lapisan, dalam jaringan saraf umpan maju? Saya tertarik dengan cara otomatis membangun jaringan saraf.

model-selection neural-networks

— Rob Hyndman
sumber

4

Di antara semua jawaban hebat, saya menemukan makalah ini bermanfaat dstath.users.uth.gr/papers/IJRS2009_Stathakis.pdf

— Segel Debpriya

@DebpriyaSeal tidak yang berguna meskipun ...

— DarkCygnus

469

Saya menyadari bahwa pertanyaan ini telah dijawab, tetapi saya tidak berpikir bahwa jawaban yang ada benar-benar melibatkan pertanyaan di luar menunjuk ke tautan yang umumnya terkait dengan masalah pokok pertanyaan. Secara khusus, tautan tersebut menjelaskan satu teknik untuk konfigurasi jaringan terprogram, tetapi itu bukan " [a] metode standar dan diterima " untuk konfigurasi jaringan.

Dengan mengikuti seperangkat aturan yang jelas, seseorang dapat secara terprogram mengatur arsitektur jaringan yang kompeten (yaitu jumlah dan jenis lapisan neuron dan jumlah neuron yang terdiri dari setiap lapisan). Mengikuti skema ini, ini akan memberi Anda arsitektur yang kompeten tetapi mungkin tidak optimal.

Tetapi begitu jaringan ini diinisialisasi, Anda dapat menyesuaikan konfigurasi selama pelatihan dengan menggunakan beberapa algoritma tambahan; satu keluarga dari karya-karya ini dengan memangkas node berdasarkan nilai vektor bobot (kecil) setelah sejumlah periode pelatihan - dengan kata lain, menghilangkan node yang tidak perlu / redundan (lebih lanjut tentang ini di bawah).

Jadi setiap NN memiliki tiga jenis lapisan: input , tersembunyi , dan output .

Oleh karena itu, membuat arsitektur NN berarti memberikan nilai untuk jumlah lapisan dari setiap jenis dan jumlah node di setiap lapisan ini.

Lapisan Input

Sederhana - setiap NN memiliki persis salah satunya - tidak ada pengecualian yang saya ketahui.

Sehubungan dengan jumlah neuron yang terdiri dari lapisan ini, parameter ini sepenuhnya dan unik ditentukan setelah Anda mengetahui bentuk data pelatihan Anda. Secara khusus, jumlah neuron yang terdiri dari lapisan itu sama dengan jumlah fitur (kolom) dalam data Anda . Beberapa konfigurasi NN menambahkan satu node tambahan untuk istilah bias.

Lapisan Keluaran

Seperti layer Input, setiap NN memiliki tepat satu layer output. Menentukan ukurannya (jumlah neuron) sederhana; itu sepenuhnya ditentukan oleh konfigurasi model yang dipilih.

Apakah NN Anda akan berjalan dalam Mode Mesin atau Mode Regresi (konvensi ML tentang penggunaan istilah yang juga digunakan dalam statistik tetapi menetapkan makna yang berbeda untuk itu sangat membingungkan). Mode mesin: mengembalikan label kelas (misalnya, "Akun Premium" / "Akun Dasar"). Mode Regresi mengembalikan nilai (misalnya, harga).

Jika NN adalah sebuah regressor, maka layer output memiliki satu node.

Jika NN adalah classifier, maka ia juga memiliki satu simpul kecuali jika softmax digunakan dalam hal ini lapisan keluaran memiliki satu simpul per label kelas dalam model Anda.

Lapisan Tersembunyi

Jadi beberapa aturan itu mengatur jumlah layer dan ukuran (neuron / layer) untuk layer input dan output. Yang meninggalkan lapisan tersembunyi.

Berapa banyak lapisan tersembunyi? Nah jika data Anda terpisah secara linear (yang sering Anda ketahui saat Anda mulai mengkode NN) maka Anda tidak memerlukan lapisan tersembunyi sama sekali. Tentu saja, Anda juga tidak perlu NN untuk menyelesaikan data Anda, tetapi masih akan melakukan pekerjaan.

Di luar itu, seperti yang mungkin Anda ketahui, ada segunung komentar tentang pertanyaan konfigurasi lapisan tersembunyi di NN (lihat FAQ NN yang sangat teliti dan mendalam untuk ringkasan yang luar biasa dari komentar itu). Salah satu masalah dalam subjek ini di mana ada konsensus adalah perbedaan kinerja dari menambahkan lapisan tersembunyi tambahan: situasi di mana kinerja meningkat dengan lapisan tersembunyi kedua (atau ketiga, dll.) Sangat sedikit. Satu lapisan tersembunyi sudah cukup untuk sebagian besar masalah.

Jadi bagaimana dengan ukuran lapisan tersembunyi - berapa banyak neuron? Ada beberapa aturan yang diturunkan secara empiris, di antaranya, yang paling sering diandalkan adalah ' ukuran optimal dari lapisan tersembunyi biasanya antara ukuran input dan ukuran lapisan output '. Jeff Heaton, penulis Pengantar Neural Networks di Jawa menawarkan beberapa lagi.

Singkatnya, untuk sebagian besar masalah, orang mungkin bisa mendapatkan kinerja yang layak (bahkan tanpa langkah optimasi kedua) dengan mengatur konfigurasi lapisan tersembunyi hanya dengan menggunakan dua aturan: (i) jumlah lapisan tersembunyi sama dengan satu; dan (ii) jumlah neuron di lapisan itu adalah rata-rata dari neuron di lapisan input dan output.

Optimalisasi Konfigurasi Jaringan

Pemangkasanmenjelaskan serangkaian teknik untuk memangkas ukuran jaringan (bukan node) untuk meningkatkan kinerja komputasi dan kadang-kadang kinerja resolusi. Inti dari teknik ini adalah menghapus node dari jaringan selama pelatihan dengan mengidentifikasi simpul-simpul yang, jika dihapus dari jaringan, tidak akan secara nyata mempengaruhi kinerja jaringan (yaitu, resolusi data). (Bahkan tanpa menggunakan teknik pemangkasan formal, Anda bisa mendapatkan gambaran kasar node mana yang tidak penting dengan melihat matriks bobot Anda setelah pelatihan; lihat bobotnya sangat dekat dengan nol - itu adalah simpul di kedua ujung bobot yang sering dihapus selama pemangkasan.) Jelas, jika Anda menggunakan algoritma pemangkasan selama pelatihan kemudian mulai dengan konfigurasi jaringan yang lebih cenderung memiliki kelebihan (yaitu, 'prunable') node - dengan kata lain,

Dengan kata lain, dengan menerapkan algoritma pemangkasan ke jaringan Anda selama pelatihan, Anda dapat mendekati konfigurasi jaringan yang optimal; apakah Anda dapat melakukannya dalam satu "muka" (seperti algoritma berbasis-genetika) saya tidak tahu, meskipun saya tahu bahwa untuk saat ini, optimasi dua langkah ini lebih umum.

— doug
sumber

31

Anda menyatakan bahwa untuk sebagian besar masalah hanya perlu satu lapisan tersembunyi. Mungkin lebih baik untuk mengatakan bahwa NN dengan lapisan yang lebih tersembunyi sangat sulit untuk dilatih (jika Anda ingin tahu caranya, periksa publikasi kelompok Hinton di Uof Toronto, "pembelajaran mendalam") dan dengan demikian masalah yang memerlukan lebih dari yang disembunyikan lapisan dianggap "tidak dapat dipecahkan" oleh jaringan saraf.

— bayerj

13

Anda menulis Jika NN adalah sebuah regressor, maka layer output memiliki satu node. . Kenapa hanya satu simpul? Mengapa saya tidak dapat memiliki beberapa output berkelanjutan?

— gerrit

5

@gerrit Anda pasti dapat memiliki banyak output berkelanjutan jika output target Anda bernilai vektor. Mendefinisikan fungsi kerugian yang sesuai untuk output bernilai vektor bisa sedikit lebih sulit daripada dengan satu output.

— lmjohns3

5

Saya pikir itu kebalikan dari ini: Jika NN adalah classifier, maka ia juga memiliki satu node kecuali softmax digunakan dalam hal ini lapisan output memiliki satu node per label kelas dalam model Anda.

— viyps

2

@doug Terima kasih atas jawaban yang luar biasa ini. Ini memungkinkan saya untuk mengurangi JST dari 3 lapisan tersembunyi menjadi 1 dan mencapai akurasi klasifikasi yang sama dengan mengatur jumlah neuron tersembunyi yang tepat ... Saya hanya menggunakan rata-rata input dan output yang dijumlahkan bersama-sama. Terima kasih!

— rayryeng

130

Jawaban @ doug telah bekerja untuk saya. Ada satu aturan tambahan yang membantu untuk masalah pembelajaran yang diawasi. Anda biasanya dapat mencegah pemasangan berlebihan jika Anda mempertahankan jumlah neuron Anda di bawah ini:

N_{h} = \frac{N_{s}}{(α * (N_{i} + N_{o}))}

$N_h = \frac{N_s} {(\alpha * (N_i + N_o))}$

$N_i$ = jumlah neuron input. = jumlah neuron keluaran. = jumlah sampel dalam kumpulan data pelatihan. = faktor penskalaan yang berubah-ubah biasanya 2-10.
$N_o$
$N_s$
$\alpha$

Lainnya merekomendasikan pengaturan ke nilai antara 5 dan 10, tetapi saya menemukan nilai 2 akan sering bekerja tanpa overfitting. Anda dapat menganggap alpha sebagai faktor percabangan yang efektif atau jumlah bobot bukan-nol untuk setiap neuron. Lapisan dropout akan menurunkan faktor percabangan "efektif" dari faktor percabangan rata-rata aktual untuk jaringan Anda. $alpha$

Seperti yang dijelaskan oleh teks NN Design yang luar biasa ini , Anda ingin membatasi jumlah parameter gratis dalam model Anda ( derajat atau jumlah bobot bukan nol) hingga sebagian kecil dari derajat kebebasan dalam data Anda. Derajat kebebasan dalam data Anda adalah jumlah sampel * derajat kebebasan (dimensi) dalam setiap sampel atau (dengan asumsi mereka semua independen). Jadi adalah cara untuk menunjukkan seberapa umum model yang Anda inginkan, atau seberapa banyak Anda ingin mencegah overfitting. $N_s * (N_i + N_o)$ $\alpha$

Untuk prosedur otomatis Anda akan mulai dengan alfa 2 (dua kali lebih banyak derajat kebebasan dalam data pelatihan Anda sebagai model Anda) dan bekerja hingga 10 jika kesalahan (kerugian) untuk dataset pelatihan Anda secara signifikan lebih kecil daripada untuk dataset uji Anda.

— hobs
sumber

7

Formula ini sangat menarik dan bermanfaat. Apakah ada referensi untuk formula ini? Akan lebih membantu.

— prashanth

2

@prashanth I menggabungkan beberapa pernyataan dan formula dalam teks NN Design yang dirujuk di atas. Tapi saya tidak berpikir itu secara eksplisit dipanggil dalam bentuk yang saya perlihatkan. Dan versi saya adalah perkiraan yang sangat kasar dengan banyak asumsi penyederhanaan. Jadi YMMV.

— Hobs

1

Pertama saya ingin menulis set pelatihan alih-alih test set di komentar sebelumnya. Mungkin rumus ini masuk akal jika kita ingin membacanya sebagai "Anda membutuhkan setidaknya banyak neuron untuk mempelajari fitur yang cukup (DOF yang Anda sebutkan) dari dataset". Jika fitur dataset mewakili populasi dan seberapa baik model dapat digeneralisasi mungkin itu pertanyaan yang berbeda (tapi yang penting).

— kon psych

3

Apakah Anda yakin ini merupakan perkiraan yang baik untuk jaringan dengan lebih dari satu lapisan tersembunyi? Bukankah ini masalahnya daripada untuk beberapa lapisan tersembunyi jumlah parameter jauh lebih besar dari ?

N_{h} \cdot (N_{i} + N_{o})

$N_h \cdot (N_i + N_o)$

— Mateusz

2

@mateus, mungkin aturan praktis yang sedikit lebih baik untuk beberapa lapisan adalah N_h(jumlah rata-rata neuron tersembunyi per lapisan) solusi untuk ini N_s = (N_i + N_o) * N_h ^ N_hidden_layers. Tetapi saya masih tidak akan menggunakan formula ini. Ini hanya untuk masalah yang sangat mendasar (masalah mainan) ketika Anda tidak berencana untuk menerapkan pendekatan regularisasi lainnya.

— Hobs

61

Dari Pengantar Neural Networks for Java (edisi kedua) oleh Jeff Heaton - pratinjau tersedia secara gratis di Google Buku dan sebelumnya di situs web penulis :

Jumlah Lapisan Tersembunyi

Sebenarnya ada dua keputusan yang harus dibuat mengenai lapisan tersembunyi: berapa banyak lapisan tersembunyi yang benar-benar ada dalam jaringan saraf dan berapa banyak neuron akan berada di masing-masing lapisan ini. Kami pertama-tama akan memeriksa bagaimana menentukan jumlah lapisan tersembunyi untuk digunakan dengan jaringan saraf.

Masalah yang membutuhkan dua lapisan tersembunyi jarang dijumpai. Namun, jaringan saraf dengan dua lapisan tersembunyi dapat mewakili fungsi dengan bentuk apa pun. Saat ini tidak ada alasan teoritis untuk menggunakan jaringan saraf dengan lebih dari dua lapisan tersembunyi. Bahkan, untuk banyak masalah praktis, tidak ada alasan untuk menggunakan lebih dari satu lapisan tersembunyi. Tabel 5.1 merangkum kemampuan arsitektur jaringan saraf dengan berbagai lapisan tersembunyi.

Tabel 5.1: Menentukan Jumlah Lapisan Tersembunyi
| Jumlah Lapisan Tersembunyi | Hasil |

 0 - Hanya mampu mewakili fungsi atau keputusan linier yang dapat dipisahkan.

 1 - Dapat memperkirakan fungsi apa pun yang berisi pemetaan berkelanjutan
dari satu ruang terbatas ke yang lain.

 2 - Dapat mewakili batas keputusan sewenang-wenang untuk akurasi sewenang-wenang
dengan fungsi aktivasi yang rasional dan dapat mendekati segala kelancaran
pemetaan dengan akurasi apa pun.
Memutuskan jumlah lapisan neuron tersembunyi hanya sebagian kecil dari masalahnya. Anda juga harus menentukan berapa banyak neuron di masing-masing lapisan tersembunyi ini. Proses ini dibahas di bagian selanjutnya.

Jumlah Neuron dalam Lapisan Tersembunyi

Memutuskan jumlah neuron dalam lapisan tersembunyi adalah bagian yang sangat penting dalam menentukan arsitektur jaringan saraf Anda secara keseluruhan. Meskipun lapisan-lapisan ini tidak secara langsung berinteraksi dengan lingkungan eksternal, mereka memiliki pengaruh yang luar biasa pada hasil akhir. Baik jumlah lapisan tersembunyi dan jumlah neuron di masing-masing lapisan tersembunyi ini harus dipertimbangkan dengan cermat.

Menggunakan terlalu sedikit neuron di lapisan tersembunyi akan menghasilkan sesuatu yang disebut underfitting. Underfitting terjadi ketika ada terlalu sedikit neuron di lapisan tersembunyi untuk secara memadai mendeteksi sinyal dalam kumpulan data yang rumit.

Menggunakan terlalu banyak neuron di lapisan tersembunyi dapat menyebabkan beberapa masalah. Pertama, terlalu banyak neuron di lapisan tersembunyi dapat menyebabkan overfitting. Overfitting terjadi ketika jaringan saraf memiliki begitu banyak kapasitas pemrosesan informasi sehingga jumlah informasi yang terkandung dalam set pelatihan tidak cukup untuk melatih semua neuron dalam lapisan tersembunyi. Masalah kedua dapat terjadi bahkan ketika data pelatihan cukup. Sejumlah besar neuron dalam lapisan tersembunyi dapat meningkatkan waktu yang dibutuhkan untuk melatih jaringan. Jumlah waktu pelatihan dapat meningkat ke titik yang tidak mungkin untuk melatih jaringan saraf secara memadai. Jelas, beberapa kompromi harus dicapai antara terlalu banyak dan terlalu sedikit neuron di lapisan tersembunyi.

Ada banyak metode aturan praktis untuk menentukan jumlah neuron yang tepat untuk digunakan dalam lapisan tersembunyi, seperti berikut ini:

Jumlah neuron tersembunyi harus antara ukuran lapisan input dan ukuran lapisan output.

Jumlah neuron tersembunyi harus 2/3 ukuran lapisan input, ditambah ukuran lapisan output.

Jumlah neuron yang tersembunyi harus kurang dari dua kali ukuran lapisan input.

Tiga aturan ini memberikan titik awal untuk Anda pertimbangkan. Pada akhirnya, pemilihan arsitektur untuk jaringan saraf Anda akan menuju ke coba-coba. Tapi apa sebenarnya yang dimaksud dengan coba-coba? Anda tidak ingin mulai melemparkan sejumlah layer dan neuron secara acak ke jaringan Anda. Untuk melakukannya akan sangat memakan waktu. Bab 8, "Memangkas Jaringan Saraf Tiruan" akan mengeksplorasi berbagai cara untuk menentukan struktur optimal untuk jaringan saraf.

Saya juga suka cuplikan berikut dari jawaban yang saya temukan di researchgate.net , yang menyampaikan banyak hal hanya dalam beberapa kata:

Steffen B Petersen · Universitas Aalborg

[...]

Untuk mengamankan kemampuan jaringan untuk menggeneralisasi jumlah node harus dijaga serendah mungkin. Jika Anda memiliki banyak node, jaringan Anda menjadi bank memori yang dapat memanggil kembali set pelatihan dengan sempurna, tetapi tidak berkinerja baik pada sampel yang bukan bagian dari set pelatihan.

— jj_
sumber

Apakah Anda mengetahui sumber kutipan Steffen B Petersen?

— Sebastian Nielsen

Maaf saya tidak. Saya mencoba mencarinya tetapi saya tidak dapat menemukannya ... Saya pikir artikel tersebut telah dihapus dari web. Mungkin Anda bisa menghubunginya secara langsung?

— jj_

Bukankah ukuran pelatihan harus diperhitungkan? Saya memiliki dataset tabular dengan ~ 300.000 sampel unik (harga mobil). Lapisan input memiliki 89 node. Melatih jaringan tanpa regularisasi dan hanya 89 node dalam satu lapisan tersembunyi, saya mendapatkan kerugian pelatihan hingga dataran tinggi setelah beberapa zaman. Dataran tinggi RMSE pada ~ $ 1.800 (node output tunggal adalah harga dalam masalah regresi ini).

— rodrigo-silveira

Saya pikir sumber kutipan oleh Steffen B Petersen ada di sini: researchgate.net/post/…

— TripleAntigen

43

Saya sedang mengerjakan studi empiris tentang hal ini pada saat ini (menyetujui simulasi abad prosesor pada fasilitas HPC kami!). Saran saya adalah menggunakan jaringan "besar" dan regularisasi, jika Anda menggunakan regularisasi maka arsitektur jaringan menjadi kurang penting (asalkan itu cukup besar untuk mewakili fungsi dasar yang ingin kita tangkap), tetapi Anda perlu menyelaraskan regularisasi tersebut. parameter dengan benar.

Salah satu masalah dengan pemilihan arsitektur adalah bahwa itu adalah kontrol diskrit, daripada kontinu, dari kompleksitas model, dan karena itu dapat menjadi sedikit instrumen tumpul, terutama ketika kompleksitas ideal rendah.

Namun, ini semua tunduk pada teorema "tidak ada makan siang gratis", sementara regularisasi efektif dalam banyak kasus, akan selalu ada kasus di mana pemilihan arsitektur bekerja lebih baik, dan satu-satunya cara untuk mengetahui apakah itu benar dari masalah yang dihadapi. adalah mencoba pendekatan dan validasi silang.

Jika saya membangun pembangun jaringan saraf otomatis, saya akan menggunakan pendekatan Bayesian Hybrid Monte Carlo (HMC) berbasis sampel Radford, dan menggunakan jaringan besar dan berintegrasi pada bobot daripada mengoptimalkan bobot satu jaringan. Namun itu mahal secara komputasional dan sedikit "seni hitam", tetapi hasil yang dicapai Prof. Neal menunjukkan bahwa itu sepadan!

— Dikran Marsupial
sumber

"Saya sedang mengerjakan studi empiris tentang ini saat ini" - Apakah ada pembaruan?

— Martin Thoma

2

tidak, 'takut tidak, saya masih akan merekomendasikan jaringan besar (ish) dan regularisasi, tetapi tidak ada peluru perak, beberapa masalah tidak perlu regularisasi, tetapi beberapa dataset membutuhkan penyetelan ukuran layer tersembunyi serta regularisasi. Sayangnya pengulas tidak suka koran :-(

— Dikran Marsupial

17

Sejauh yang saya tahu tidak ada cara untuk memilih secara otomatis jumlah lapisan dan neuron di setiap lapisan. Tetapi ada jaringan yang dapat membangun topologi mereka secara otomatis, seperti EANN (Jaringan Syaraf Tiruan Evolusi, yang menggunakan Algoritma Genetika untuk mengembangkan topologi).

Ada beberapa pendekatan, yang kurang lebih modern yang tampaknya memberikan hasil yang baik adalah NEAT (Neuro Evolution of Augmented Topologies) .

— Vicente Cartas
sumber

13

$\sqrt{n*m}$

Ref:

1 Tuan, Timotius. Resep jaringan saraf yang praktis di C ++. Morgan Kaufmann, 1993.

[2] http://www.iitbhu.ac.in/faculty/min/rajesh-rai/NMEICT-Slope/lecture/c14/l1.html

— prashanth
sumber

n

$n$

6

Cara otomatis membangun jaringan saraf menggunakan pencarian parameter hiper global:

Lapisan input dan output adalah ukuran tetap.

Apa yang bisa bervariasi:

jumlah lapisan
jumlah neuron di setiap lapisan
jenis lapisan

Beberapa metode dapat digunakan untuk masalah optimasi diskrit ini , dengan jaringan keluar dari kesalahan sampel sebagai fungsi biaya.

1) Pencarian grid / acak di atas ruang parameter, untuk memulai dari posisi yang sedikit lebih baik
2) Banyak metode yang dapat digunakan untuk menemukan arsitektur yang optimal. (Ya, itu butuh waktu).
3) Lakukan beberapa regularisasi, bilas, ulangi.

— shuriken x blue
sumber

6

Maaf saya belum bisa memposting komentar, jadi tolong tahan dengan saya. Ngomong-ngomong, aku menabrak utas diskusi ini yang mengingatkanku pada sebuah makalah yang baru saja kulihat. Saya pikir mungkin menarik bagi orang-orang yang berpartisipasi di sini:

AdaNet: Pembelajaran Struktural Adaptif Jaringan Syaraf Tiruan

Corinna Cortes, Xavier Gonzalvo, Vitaly Kuznetsov, Mehryar Mohri, Scott Yang; Prosiding Konferensi Internasional ke-34 tentang Pembelajaran Mesin, PMLR 70: 874-883, 2017.

Abstrak Kami menyajikan kerangka kerja baru untuk menganalisis dan mempelajari jaringan saraf tiruan. Pendekatan kami secara simultan dan adaptif mempelajari struktur jaringan serta bobotnya. Metodologi ini didasarkan pada dan disertai dengan jaminan pembelajaran teoretis yang bergantung pada data, sehingga arsitektur jaringan akhir terbukti beradaptasi dengan kerumitan setiap masalah yang diberikan.

— rantaiD
sumber

5

Saya telah mendaftarkan banyak cara pembelajaran topologi dalam tesis master saya, bab 3 . Kategori besar adalah:

Pendekatan yang berkembang
Pendekatan pemangkasan
Pendekatan genetik
Pembelajaran Penguatan
Kain Syaraf Konvolusional

— Martin Thoma
sumber

3

Saya ingin menyarankan metode yang kurang umum tetapi sangat efektif .

Pada dasarnya, Anda dapat memanfaatkan sekumpulan algoritma yang disebut "algoritma genetika" yang mencoba sebagian kecil dari opsi potensial (jumlah acak layer dan node per layer). Kemudian memperlakukan populasi pilihan ini sebagai "orang tua" yang menciptakan anak-anak dengan menggabungkan / bermutasi satu atau lebih dari orang tua seperti organisme berevolusi. Anak-anak terbaik dan beberapa anak ok acak disimpan di setiap generasi dan dari generasi ke generasi, yang terkuat bertahan.

Untuk ~ 100 atau lebih sedikit parameter (seperti pilihan jumlah lapisan, jenis lapisan, dan jumlah neuron per lapisan), metode ini sangat efektif. Gunakan dengan membuat sejumlah arsitektur jaringan potensial untuk setiap generasi dan melatihnya sebagian hingga kurva pembelajaran dapat diperkirakan (100-10k mini-batch biasanya tergantung pada banyak parameter). Setelah beberapa generasi, Anda mungkin ingin mempertimbangkan titik di mana kereta dan validasi mulai memiliki tingkat kesalahan yang sangat berbeda (overfitting) sebagai fungsi tujuan Anda untuk memilih anak-anak. Sebaiknya gunakan subset data Anda yang sangat kecil (10-20%) hingga Anda memilih model akhir untuk mencapai kesimpulan lebih cepat. Juga, gunakan satu seed untuk inisialisasi jaringan Anda untuk membandingkan hasilnya dengan benar.

10-50 generasi harus menghasilkan hasil yang bagus untuk jaringan berukuran layak.

— Dan Erez
sumber

Cara lain yang sangat menarik adalah optimasi Bayesian yang juga merupakan metode optimasi kotak hitam yang sangat efektif untuk sejumlah kecil parameter. arxiv.org/pdf/1206.2944.pdf

— Dan Erez

2

Jumlah Lapisan Tersembunyi dan apa yang dapat mereka raih:

0 - Hanya mampu mewakili fungsi atau keputusan linier yang dapat dipisahkan.

1 - Dapat memperkirakan fungsi apa pun yang berisi pemetaan terus menerus dari satu ruang terbatas ke yang lain.

2 - Dapat mewakili batas keputusan arbitrer untuk akurasi sewenang-wenang dengan fungsi aktivasi rasional dan dapat memperkirakan pemetaan yang mulus untuk akurasi apa pun.

Lebih dari 2 - Lapisan tambahan dapat mempelajari representasi kompleks (semacam rekayasa fitur otomatis) untuk lapisan lapisan.

— lemah
sumber

8

Sumber silakan. - Pengulas

— Jim