Apakah sebenarnya ada kekurangan teori mendasar tentang pembelajaran yang mendalam?


10

Saya mendengar beberapa kali bahwa salah satu masalah mendasar / terbuka dari pembelajaran mendalam adalah kurangnya "teori umum" di dalamnya karena sebenarnya kita tidak tahu mengapa pembelajaran mendalam bekerja dengan baik. Bahkan halaman Wikipedia tentang pembelajaran dalam memiliki komentar serupa . Apakah pernyataan seperti itu kredibel dan mewakili keadaan lapangan?

Jawaban:


5

Ada sebuah makalah yang disebut Mengapa Deep Learning bekerja dengan baik? .

"Namun, masih belum sepenuhnya dipahami mengapa pembelajaran yang mendalam bekerja dengan sangat baik. Berbeda dengan algoritma GOFAI (" AI kuno yang bagus ") yang dibuat dengan tangan dan dipahami secara analitis, banyak algoritma menggunakan jaringan saraf tiruan hanya dipahami pada tingkat heuristik, di mana kita secara empiris tahu bahwa protokol pelatihan tertentu yang menggunakan kumpulan data besar akan menghasilkan kinerja yang sangat baik.Ini mengingatkan kita pada situasi dengan otak manusia: kita tahu bahwa jika kita melatih anak berdasarkan kurikulum tertentu, dia akan belajar keterampilan - tetapi kami tidak memiliki pemahaman yang mendalam tentang bagaimana otaknya mencapai ini. "


3

Ini adalah masalahnya. Model pembelajaran mendalam bahkan yang dangkal seperti autoencoder bertumpuk dan jaringan saraf tidak sepenuhnya dipahami. Ada upaya untuk memahami apa yang terjadi pada proses optimisasi untuk fungsi intensif variabel yang sedemikian kompleks. Tapi, ini tugas yang sulit.

Salah satu cara yang peneliti gunakan untuk menemukan seberapa dalam pembelajaran bekerja adalah dengan menggunakan model generatif. Pertama kita melatih algoritma pembelajaran dan mengatasinya secara sistematis sambil memintanya untuk menghasilkan contoh. Dengan mengamati contoh yang dihasilkan kami akan dapat menyimpulkan apa yang terjadi dalam algoritma pada tingkat yang lebih signifikan. Ini sangat mirip dengan menggunakan inhibitor dalam ilmu saraf untuk memahami apa komponen yang berbeda dari otak yang digunakan. Sebagai contoh, kita tahu bahwa korteks visual adalah tempatnya karena jika kita merusaknya, Anda akan menjadi buta.


2

Ini mungkin tergantung pada apa yang orang maksudkan dengan "teori fundamental", tetapi tidak ada kekurangan teori kuantitatif yang ketat dalam pembelajaran mendalam, beberapa di antaranya sangat umum, meskipun mengklaim sebaliknya.

Salah satu contoh yang baik adalah bekerja di sekitar metode berbasis energi untuk belajar. Lihat misalnya karya Neal & Hinton tentang inferensi variasional dan energi bebas: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

Juga panduan untuk meminimalkan energi ini sebagai "kerangka teori umum untuk banyak model pembelajaran" oleh Yann LeCun dan rekannya: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

Dan kerangka umum untuk model berbasis energi oleh Scellier dan Bengio: https://arxiv.org/pdf/1602.05179.pdf

Ada juga karya Hinton & Sejnowski sebelumnya yang menunjukkan secara analitis bahwa jaringan yang diilhami Hopfield tertentu + algoritma pembelajaran yang tidak diawasi dapat memperkirakan inferensi optimal Bayes: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%2019ference -646.pdf

Ada banyak makalah yang menghubungkan pembelajaran mendalam dengan ilmu saraf teoretis juga, seperti yang berikut, yang menunjukkan bahwa efek backpropagation dapat dicapai dalam arsitektur saraf yang masuk akal secara biologis: https://arxiv.org/pdf/1411.0247.pdf

Tentu saja ada banyak pertanyaan terbuka dan tidak ada satu teori tunggal yang tidak bertentangan, tetapi hal yang sama dapat dikatakan untuk hampir semua bidang.


1

Kutipan wikipedia Anda dipertanyakan karena pembelajaran yang dalam dikembangkan dengan baik. Bahkan, ada [citation needed]di halaman Wikipedia.

Lihatlah https://github.com/terryum/awesome-deep-learning-papers . Ada sekitar 100 makalah dalam tautan, apakah Anda masih berpikir pembelajaran mendalam tidak memiliki "teori umum"?

Iya. Pembelajaran mendalam sulit dipahami karena ini adalah model yang sangat rumit. Tetapi itu tidak berarti kita tidak memiliki teorinya.

Mungkin limepaket dan makalahnya: "Mengapa Saya Harus Mempercayai Anda?": Menjelaskan Prediksi Setiap Klasifikasi akan membantu Anda. Makalah ini menyarankan agar kita dapat memperkirakan model yang rumit (termasuk pembelajaran mendalam) secara lokal dengan model yang jauh lebih sederhana.


3
Banyak aplikasi menarik bukan berarti aplikasi itu dikembangkan mengikuti beberapa proses yang ketat. "Hmm ... mungkin aku harus mencoba 8 layer saja? Ah .. itu berhasil! Hebat, mari kita publikasikan hasilnya."
Chris Anderson

2
"Pembelajaran mendalam sulit untuk dipahami karena itu adalah model yang sangat rumit. Tetapi itu tidak berarti kita tidak memiliki teorinya." Benar, tapi kami juga tidak punya teori. Ada sedikit pemahaman matematis tentang teknik dalam literatur. Sebagian besar penjelasan tentang bagaimana atau mengapa pembelajaran yang mendalam bekerja didasarkan pada intuisi dan empirisme, yang oke, tetapi tidak merupakan teori imo.
user27182

0

Sebuah pertanyaan kunci yang tetap ada dalam teori pembelajaran mendalam adalah mengapa model besar seperti itu (dengan lebih banyak parameter daripada titik data) tidak sesuai dengan dataset yang kami gunakan.

Teori klasik berdasarkan ukuran kompleksitas tidak menjelaskan perilaku jaringan saraf praktis. Misalnya perkiraan dimensi VC memberikan batas generalisasi yang kosong. Sejauh yang saya tahu, batas ketat (atas dan bawah) pada dimensi VC diberikan dalam [1] dan berada di urutan jumlah bobot dalam jaringan. Jelas kompleksitas kasus terburuk ini tidak dapat menjelaskan bagaimana mis. Resnet besar generalisasi pada CIFAR atau MNIST.

Baru-baru ini ada upaya lain untuk memastikan generalisasi untuk jaringan saraf, misalnya terkait dengan kernel tangen saraf atau dengan berbagai ukuran norma pada bobot. Masing-masing, ini ditemukan tidak berlaku untuk jaringan berukuran praktis dan memiliki sifat tidak memuaskan lainnya [2].

Ada beberapa pekerjaan dalam kerangka PAC Bayes untuk batas yang tidak kosong, misalnya [3]. Pengaturan ini, bagaimanapun, membutuhkan beberapa pengetahuan tentang jaringan yang terlatih dan berbeda dalam hal analisis PAC klasik.

Beberapa aspek lain:

  • optimisasi: bagaimana kita mendapatkan solusi 'baik' dari gradient descent pada masalah non-cembung seperti itu? (Ada beberapa jawaban untuk ini dalam literatur terbaru)

  • interpretabilitas: Bisakah kita menjelaskan secara intuitif apa yang dipikirkan oleh jaringan? (Bukan daerah saya)

referensi (tidak lengkap):


0

Saya ingin menunjukkan bahwa tidak ada teori yang baik tentang mengapa pembelajaran mesin bekerja secara umum. Batas VC masih menggunakan model, tetapi kenyataan tidak cocok dengan cita-cita matematika ini. Pada akhirnya ketika datang ke aplikasi semuanya turun ke hasil emperical. Bahkan mengukur kesamaan antara gambar menggunakan algoritma yang konsisten dengan pemahaman intuitif manusia sangat sulit

Pokoknya NN tidak bekerja dengan baik dalam bentuk mereka yang terhubung sepenuhnya. Semua jaringan yang sukses memiliki semacam regularisasi yang dibangun ke dalam arsitektur jaringan (CNN, LSTM, dll).

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.