Apa jenis jawaban yang TCS inginkan untuk pertanyaan "Mengapa jaringan saraf bekerja dengan baik?"


52

Ph.D. saya dalam matematika murni, dan saya akui saya tidak tahu banyak (yaitu apa-apa) tentang CS teoritis. Namun, saya telah mulai mengeksplorasi pilihan non-akademik untuk karir saya dan dalam memperkenalkan diri pada pembelajaran mesin, menemukan pernyataan seperti "Tidak ada yang mengerti mengapa jaringan saraf bekerja dengan baik," yang menurut saya menarik.

Pertanyaan saya, pada dasarnya, adalah jawaban seperti apa yang diinginkan peneliti? Inilah yang saya temukan dalam pencarian singkat saya pada topik:

  • Algoritma yang mengimplementasikan jaringan saraf sederhana cukup mudah.
  • Proses SGD dipahami dengan baik secara matematis, seperti teori statistik.
  • Teorema aproksimasi universal sangat kuat dan terbukti.
  • Ada makalah terbaru yang bagus https://arxiv.org/abs/1608.08225 yang pada dasarnya memberikan jawaban bahwa perkiraan universal jauh lebih banyak daripada yang sebenarnya kita butuhkan dalam praktik karena kita dapat membuat asumsi penyederhanaan yang kuat tentang fungsi yang kita coba modelkan dengan jaringan syaraf.

Dalam makalah yang disebutkan di atas, mereka menyatakan (parafrase) "Algoritma GOFAI sepenuhnya dipahami secara analitis, tetapi banyak algoritma JST hanya dipahami secara heuristik." Teorema konvergensi untuk algoritma yang diterapkan adalah contoh pemahaman analitik yang tampaknya kita miliki tentang jaringan saraf, sehingga pernyataan pada tingkat umum ini tidak memberi tahu saya banyak tentang apa yang diketahui vs tidak dikenal atau apa yang akan dianggap "jawaban" . "

Para penulis menyarankan dalam kesimpulan bahwa pertanyaan-pertanyaan seperti batas efektif pada ukuran jaringan saraf yang dibutuhkan untuk memperkirakan polinomial tertentu terbuka dan menarik. Apa contoh lain dari pertanyaan analitik khusus matematis yang perlu dijawab untuk mengatakan bahwa kita "memahami" jaringan saraf? Apakah ada pertanyaan yang dapat dijawab dalam bahasa matematika yang lebih murni?

(Saya secara khusus memikirkan metode dalam teori representasi karena penggunaan fisika dalam makalah ini --- dan, egois, karena ini adalah bidang studi saya. Namun, saya juga dapat membayangkan bidang-bidang seperti teori kombinatorik / grafik, geometri aljabar , dan topologi menyediakan alat yang layak.)


3
Apakah GOFAI benar-benar dipahami dengan baik? Banyak GOFAI tampaknya mengarah pada pemecahan SAT, masalah NP-arketipikal yang lengkap. Pemecah SAT modern bekerja sangat baik dalam praktiknya, meskipun mereka tidak harus sesuai dengan teori yang ada. Mengapa?
Martin Berger

benar-benar ada pembelajaran pra-mendalam dan pembelajaran / perubahan / sejarah pembelajaran pasca-dalam di bidang ini dan merupakan pergeseran paradigma utama di bidang ini. pembelajaran mendalam hanya berlangsung dalam setengah dekade terakhir. jawaban sederhananya adalah bahwa jaringan syaraf tiruan dapat mewakili fungsi-fungsi kompleks yang sewenang-wenang dan kompleksitas itu kini berada pada tingkat yang sangat maju dengan jaringan syaraf yang dalam. jawaban lain adalah bahwa masalah yang dipelajari, dan mungkin bahkan "kenyataan secara umum,", "dibangun dari fitur" dan JST sekarang mahir mempelajari fitur yang sangat kompleks.
vzn

Saya tidak berpikir orang benar-benar mencari "jawaban" di sini. Mereka berusaha menggunakan jaringan saraf untuk menyelesaikan masalah, dan jika masalahnya memang dipecahkan, maka itu tidak masalah. Mengetahui bagaimana jaringan mencapai solusi itu belum tentu menarik di sini. Tidak ada yang peduli jika itu kotak hitam / buram selama itu memecahkan masalah.
xji

Jawaban:


38

Ada banyak teorema "tanpa makan siang gratis" dalam pembelajaran mesin, yang secara kasar menyatakan bahwa tidak ada satu algoritma pembelajaran master yang memiliki kinerja yang lebih baik daripada semua algoritma lainnya (lihat, misalnya, di sini http: //www.no-free- lunch.org/ ). Benar saja, pembelajaran mendalam dapat "dihancurkan" tanpa banyak kesulitan: http://www.evolvingai.org/fooling

Oleh karena itu, agar terbukti efektif, pelajar membutuhkan bias induktif --- yaitu, beberapa asumsi sebelumnya tentang data. Contoh-contoh bias induktif termasuk asumsi sparsity data, atau dimensi rendah, atau bahwa distribusi membuat faktor dengan baik, atau memiliki margin yang besar, dll. Berbagai algoritma pembelajaran yang berhasil memanfaatkan asumsi-asumsi ini untuk membuktikan jaminan generalisasi. Sebagai contoh, (linear) SVM bekerja dengan baik ketika data dipisahkan dengan baik dalam ruang; jika tidak - tidak begitu banyak.

Saya pikir tantangan utama dengan pembelajaran mendalam adalah untuk memahami apa itu bias induktif. Dengan kata lain, itu adalah untuk membuktikan teorema jenis: Jika data pelatihan memenuhi asumsi ini, maka saya dapat menjamin sesuatu tentang kinerja generalisasi. (Jika tidak, semua taruhan dibatalkan.)

Pembaruan (Sep-2019): Dalam dua tahun sejak jawaban saya diposting, telah ada banyak kemajuan dalam memahami bias induktif yang tersirat dalam berbagai DL dan algoritma terkait. Salah satu wawasan utama adalah bahwa algoritma pengoptimalan aktual yang digunakan adalah penting, karena konvergensi yang seragam tidak dapat menjelaskan mengapa sistem yang terlalu banyak ditentukan secara masif seperti JST besar yang berhasil belajar sama sekali. Ternyata berbagai metode optimasi (seperti SGD) secara implisit mengatur sehubungan dengan berbagai norma (seperti ). Lihat kuliah luar biasa ini untuk contoh lain dan banyak lagi: https://www.youtube.com/watch?v=zK84N6ST9sM2


Perlu dicatat bahwa contoh permusuhan tidak unik untuk jaringan saraf yang dalam. Mereka juga dapat dengan mudah dibangun untuk regresi linier dan logistik, misalnya: arxiv.org/pdf/1412.6572.pdf
Lenar Hoyt

1
Ya, tetapi regresi linier dan logistik jauh lebih baik dipahami secara teoritis.
Aryeh

2
Mungkin juga harus dicatat bahwa teorema NFL mungkin tidak memainkan peran besar dalam pembelajaran mesin praktis karena sementara NFL berkaitan dengan kelas semua fungsi, masalah dunia nyata biasanya dibatasi misalnya fungsi yang halus atau bahkan fungsi yang lebih spesifik seperti yang dipertimbangkan di koran oleh Lin dan Tegmark. Dimungkinkan untuk menemukan bias induktif yang mencakup semua masalah pembelajaran yang kami minati.
Lenar Hoyt

4
Maka pertama-tama kita harus memformalkan ruang "semua masalah pembelajaran yang kita minati" ini.
Aryeh

1
Itu jelas tampak bermanfaat, terutama berkaitan dengan keamanan AI. Kita harus dapat menentukan apa yang seharusnya dipelajari oleh algoritma pembelajaran mesin.
Lenar Hoyt

26

Ada dua celah utama dalam pemahaman kita tentang jaringan saraf: optimasi kekerasan dan kinerja generalisasi.

Melatih jaringan saraf membutuhkan pemecahan masalah optimisasi yang sangat non-cembung dalam dimensi tinggi. Algoritma pelatihan saat ini semuanya didasarkan pada gradient descent, yang hanya menjamin konvergensi ke titik kritis (minimum lokal atau pelana). Bahkan, Anandkumar & Ge 2016 baru-baru ini membuktikan bahwa menemukan bahkan minimum lokal adalah NP-hard, yang berarti bahwa (dengan asumsi P! = NP) ada "buruk", sulit untuk melarikan diri, titik sadel di dalam permukaan kesalahan.
Namun, algoritma pelatihan ini secara empiris efektif untuk banyak masalah praktis, dan kami tidak tahu mengapa.
Ada makalah teoritis seperti Choromanska et al. 2016 dan Kawaguchi 2016yang membuktikan bahwa, di bawah asumsi tertentu, minima lokal pada dasarnya sama baiknya dengan minima global, tetapi asumsi yang mereka buat agak tidak realistis dan mereka tidak membahas masalah poin sadel yang buruk.

Kesenjangan utama lainnya dalam pemahaman kami adalah kinerja generalisasi: seberapa baik kinerja model pada contoh-contoh baru yang tidak terlihat selama pelatihan? Sangat mudah untuk menunjukkan bahwa dalam batas jumlah contoh pelatihan yang tak terbatas (sampel iid dari distribusi stasioner), kesalahan pelatihan menyatu dengan kesalahan yang diharapkan pada contoh-contoh baru (asalkan Anda dapat melatih ke optimum global), tetapi karena kami tidak memiliki contoh pelatihan yang tak terbatas, kami tertarik pada berapa banyak contoh yang dibutuhkan untuk mencapai perbedaan antara pelatihan dan kesalahan generalisasi. Teori belajar statistik mempelajari batasan-batasan generalisasi ini.
Secara empiris, pelatihan jaringan saraf modern besar membutuhkan sejumlah besar contoh pelatihan (Big Data, jika Anda suka kata kunci), tetapi tidak terlalu besar secara praktis tidak praktis. Tetapi jika Anda menerapkan batasan yang paling dikenal dari teori pembelajaran statistik (misalnya Gao & Zhou 2014 ), Anda biasanya mendapatkan angka yang sangat besar ini. Karena itu batas-batas ini sangat jauh dari ketat, setidaknya untuk masalah praktis.
Salah satu alasannya mungkin karena batas-batas ini cenderung mengasumsikan sangat sedikit tentang distribusi penghasil data, oleh karena itu mencerminkan kinerja kasus terburuk terhadap lingkungan permusuhan, sedangkan lingkungan "alami" cenderung lebih "dapat dipelajari".
Dimungkinkan untuk menulis batas-batas generalisasi yang bergantung pada distribusi, tetapi kami tidak tahu bagaimana secara formal mengkarakterisasi distribusi di atas lingkungan "alami". Pendekatan seperti teori informasi algoritmik masih kurang memuaskan.
Oleh karena itu kita masih tidak tahu mengapa jaringan saraf dapat dilatih tanpa overfitting.

Lebih lanjut, perlu dicatat bahwa dua masalah utama ini tampaknya terkait dengan cara yang masih kurang dipahami: generalisasi yang terikat pada teori pembelajaran statistik mengasumsikan bahwa model tersebut dilatih secara optimal secara global pada set pelatihan, tetapi dalam pengaturan praktis Anda tidak akan pernah melatih jaringan saraf sampai konvergensi bahkan ke titik pelana, karena melakukannya biasanya akan menyebabkan overfitting. Alih-alih, Anda menghentikan pelatihan saat kesalahan pada set validasi yang ditahan (yang merupakan proksi untuk kesalahan generalisasi) berhenti membaik. Ini dikenal sebagai "penghentian dini".
Jadi, dalam arti tertentu, semua penelitian teoretis tentang pengelompokan kesalahan generalisasi dari optimum global ini mungkin sangat tidak relevan: tidak hanya kita tidak dapat menemukannya secara efisien, tetapi bahkan jika kita bisa, kita tidak mau, karena itu akan berkinerja lebih buruk pada contoh-contoh baru daripada banyak solusi "kurang optimal".
Mungkin kasus bahwa kekerasan pengoptimalan bukan cacat jaringan saraf, sebaliknya, mungkin jaringan saraf dapat bekerja sama sekali karena mereka sulit dioptimalkan.
Semua pengamatan ini bersifat empiris dan tidak ada teori bagus yang menjelaskannya. Juga tidak ada teori yang menjelaskan cara mengatur hyperparameter jaringan saraf (lebar dan kedalaman lapisan tersembunyi, tingkat pembelajaran, detail arsitektur, dll.). Praktisi menggunakan intuisi mereka yang diasah oleh pengalaman dan banyak trial and error untuk menghasilkan nilai-nilai yang efektif, sementara sebuah teori dapat memungkinkan kita untuk merancang jaringan saraf dengan cara yang lebih sistematis.


11

Lain mengambil pertanyaan ini, untuk menambah komentar @ Aryeh: Untuk banyak model pembelajaran lainnya, kita tahu "bentuk" dari ruang hipotesis. SVM adalah contoh terbaik dari ini, dalam apa yang Anda temukan adalah pemisah linear dalam ruang Hilbert (mungkin dimensi tinggi).

Untuk jaringan saraf pada umumnya, kami tidak memiliki deskripsi yang jelas atau bahkan perkiraan. Dan deskripsi seperti itu penting bagi kita untuk memahami apa sebenarnya yang ditemukan jaringan saraf dalam data.


Apa yang Anda sebut sebagai "bentuk" ruang hipotesis? :) Apakah Teorema 2.1 (halaman 3) dari kami menjawab beberapa pertanyaan Anda: eccc.weizmann.ac.il/report/2017/098 ? : D
Anirbit

4

Prinsip Bottleneck Informasi telah diusulkan untuk menjelaskan keberhasilan jaringan mendalam nueral.

Ini kutipan dari majalah Quanta

Bulan lalu, sebuah video YouTube dari ceramah konferensi di Berlin, yang dibagikan secara luas di antara para peneliti kecerdasan buatan, menawarkan jawaban yang mungkin. Dalam pembicaraan itu, Naftali Tishby, seorang ilmuwan komputer dan ilmuwan saraf dari Universitas Ibrani Yerusalem, menyajikan bukti yang mendukung teori baru yang menjelaskan bagaimana pembelajaran yang dalam bekerja. Tishby berpendapat bahwa jaringan saraf yang dalam belajar sesuai dengan prosedur yang disebut "bottleneck informasi," yang ia dan dua kolaborator pertama kali jelaskan dalam istilah teoretis murni pada tahun 1999. Idenya adalah bahwa sebuah jaringan mengeluarkan data input berisik dari detail yang asing seolah-olah dengan memerasnya. informasi melalui bottleneck, hanya mempertahankan fitur yang paling relevan dengan konsep umum.

Referensi:

1- Pembelajaran mendalam dan prinsip bottleneck informasi , Naftali Tishby dan Noga Zaslavsky

2- Membuka Kotak Hitam Jaringan Saraf Tiruan Jauh melalui Informasi , Ravid Shwartz-Ziv dan Naftali Tishby

3- Video ceramah konferensi: Teori Informasi Pembelajaran Dalam oleh Naftali Tishby


1

Saya akan mengatakan bahwa kita masih perlu menemukan algoritma yang efisien untuk melatih jaringan saraf yang dalam. Ya, SGD bekerja dengan baik dalam praktiknya tetapi menemukan algoritma yang lebih baik yang memiliki jaminan untuk konvergen ke global minimum akan sangat bagus.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.