Hambatan menerapkan pembelajaran yang mendalam dalam praktik


9

Setelah membaca banyak makalah pembelajaran yang mendalam, semacam perasaan kasar adalah bahwa ada banyak trik dalam melatih jaringan untuk mendapatkan kinerja yang lebih baik dari biasanya. Dari perspektif aplikasi industri, sangat sulit untuk mengembangkan trik semacam ini kecuali kelompok-kelompok penelitian elit di perusahaan teknologi besar, misalnya, google atau facebook. Lalu apa cara terbaik untuk menerapkan algoritma pembelajaran yang mendalam dalam praktik. Setiap pemikiran dan saran akan sangat dihargai.

Jawaban:


9

Benar, beberapa detail yang digunakan untuk meningkatkan kinerja dianggap sebagai trik dan Anda tidak akan selalu tahu jika trik ini menghasilkan peningkatan yang sama untuk data dan jaringan Anda.

Beberapa hal yang pasti Anda perlukan:

  • Data , banyak sekali
  • GPU akan memungkinkan Anda menjalankan eksperimen lebih cepat dan mencoba lebih banyak hal dalam rentang waktu yang lebih pendek.
  • Analisis kurva pembelajaran. Pada akhirnya, itu tergantung pada kinerja pada set tes, tetapi melihat pada kereta dan metrik tes Anda dapat mengidentifikasi alasan untuk kinerja yang buruk. Bias yang kuat? Overfitting dari terlalu banyak node tersembunyi?
  • Fungsi aktivasi . Saya tidak berpikir itu dianggap sebagai trik untuk mengetahui jenis fungsi aktivasi yang Anda butuhkan. ReLU memiliki karakteritik kritis karena mereka tidak jenuh seperti sigmoids dan tanh. Neuron dengan ReLU akan lebih lama memiliki keluaran seperti probabilitas, tetapi Anda tidak memerlukan ini untuk neuron di lapisan tingkat menengah. Keuntungan yang Anda dapatkan adalah mengurangi menghilang atau meledaknya gradien dan mempercepat konvergensi.
  • Regularisasi . Mungkin berlaku sebagai trik, tetapi jika Anda menggunakan salah satu perpustakaan pembelajaran mendalam arus utama Anda bisa mendapatkan implementasi off-the-shelf untuk regularisasi melalui putus sekolah.
  • Augmentasi data. Anda pada dasarnya memperluas dataset Anda secara sintetis tanpa tambahan biaya anotasi manual. Kuncinya adalah menambah data dengan transformasi yang benar-benar masuk akal. Sehingga jaringan dapat melihat varian data yang mungkin ditemui dalam fase uji atau ketika akan digunakan ke dalam produk. Untuk data visual, membalik horizontal itu sepele dan menambah banyak keuntungan. Jitter mungkin tergantung pada jenis data dan seberapa berisiknya.
  • Menyelam ke eksplorasi hyperparameter bisa membuat frustasi. Mulailah dengan jaringan kecil dan prosedur pelatihan sederhana. Jaringan yang lebih kecil lebih cepat dilatih. Tambahkan lebih banyak layer ketika Anda melihat tanda-tanda overfitting.
  • Inisialisasi yang bagus . Inisialisasi acak sesuai untuk mengukur kemampuan jaringan untuk melakukan konvergensi tetapi tidak akan menghasilkan kinerja yang optimal. Pada saat yang sama, hanya terus iterasi dapat menyebabkan jaringan overfitting ke data pelatihan. Jika mungkin gunakan jaringan pra-terlatih yang telah mempelajari representasi dan sesuaikan dengan set data Anda. Pra-pelatihan tanpa pengawasan adalah cara lain untuk pergi dan dapat memungkinkan prosedur pelatihan yang diawasi untuk memulai dari posisi yang jauh lebih menjanjikan di ruang berat.
  • TelitiTrik. Pahami apa sebenarnya triknya. Makalah yang menjelaskan detail kecil yang digunakan dalam meningkatkan kinerja jaringan akan fokus pada aspek baru itu. Makalah ini dapat menjadi bagian dari serangkaian proyek yang sedang dikerjakan oleh penulis. Konteks trik mungkin tidak selalu jelas segera tetapi bagi penulis itu bukan trik tetapi teknik yang memecahkan masalah yang mereka miliki. Kadang-kadang suatu teknik keluar dan diperlakukan sebagai trik dan kemudian seseorang akan menganalisis dampaknya dan menggambarkan fungsinya. Sebagai contoh bahwa trik ini setara dengan regularisasi L2 yang banyak orang kenal. Kita dapat memutuskan apakah kita harus mencoba teknik baru ini atau tetap dengan regularisasi L2 yang sudah kita ketahui. Banyak trik ini mencoba menyelesaikan masalah dalam pembelajaran yang mendalam, seperti risiko overfitting, perhitungan mahal, parameterisasi lebih dan bobot yang sangat berlebihan. Sebaiknya luangkan waktu untuk memahami apa yang sebenarnya dilakukan trik ini. Dengan memahami masalah yang mereka coba selesaikan, kita dapat menilai penerapan berbagai trik dan memilih yang bekerja dengan baik dengan kendala yang mungkin kita miliki (mis. Daya komputasi kecil, dataset kecil)

2

Berikut ini adalah buku yang menarik, Neural Networks: Tricks of the Trade , versi terbaru dari buku tersebut. Banyak artikel oleh beberapa pelopor jaringan saraf.

ypx dengan indah menyentuh banyak masalah praktis dengan pelatihan, jadi untuk menyentuh isu-isu lain yang Anda ajukan: banyak laboratorium industri elit masih mempublikasikan hasilnya. Misalnya tim Microsoft Research baru saja memenangkan ImageNet 2015 dan mereka merilis laporan teknis yang menggambarkan modul deep net baru mereka: Pembelajaran Residual Jauh untuk Pengenalan Gambar , tim Google juga menerbitkan arsitektur Inception mereka, Going Deeper with Convolutions . Untuk tingkat non-sepele masih ada budaya dalam pembelajaran mesin (untuk saat ini) berbagi inovasi besar. Mungkin karena kuncinya adalah akses ke data. Google dan Facebook hanya memiliki akses ke data yang tidak kami miliki. Sulit untuk mengatakan berapa banyak kredit yang digunakan untuk inovasi algoritmik mentah dan berapa banyak ke data dalam jumlah besar.

Berkenaan dengan apa yang akan terjadi di masa depan? Sulit untuk dikatakan. Ini adalah masalah yang diangkat banyak orang mengingat betapa berharganya perusahaan yang didorong oleh data ini dan seberapa kompetitifnya pasar. Tetapi untuk saat ini, saya pikir ada keseimbangan yang cukup baik dari apa yang dibagi dan tidak dibagi oleh laboratorium penelitian industri. Saya mengerti mereka tidak membagikan implementasi kode yang tepat. Tetapi mereka memang berbagi beberapa inovasi yang sangat baru.

Temukan peneliti yang mempublikasikan hasil penting dan membaca, membaca, membaca. Saya percaya pada AMA Yann LeCun tentang Reddit, dia menyebutkan bahwa dia adalah pembaca yang rakus. Saya percaya ini adalah hal yang paling penting. Dan sejauh itu praktis, cobalah untuk membuat ulang tolok ukur mereka, atau menerapkan metode mereka ke dataset yang sesuai dengan anggaran Anda.

Saya pikir terlepas dari di mana Anda berada atau apa stasiun Anda dalam hidup, ini adalah cara terbaik untuk tetap tajam dan terus mengembangkan keterampilan Anda. Jadilah pembaca yang rakus dan terapkan berbagai hal dan bangun intuisi. Saya pribadi tidak memiliki sumber daya untuk berpartisipasi dalam kompetisi ImageNet, tetapi membaca semua artikel grup berkinerja terbaik ImageNet telah sangat membantu saya.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.