Apa model yang berpotensi menggantikan jaringan saraf dalam waktu dekat?

10

Apakah ada model yang mungkin yang berpotensi untuk menggantikan jaringan saraf dalam waktu dekat?

Dan apakah kita perlu itu? Apa hal terburuk tentang menggunakan jaringan saraf dalam hal efisiensi?

neural-networks convolutional-neural-networks recurrent-neural-networks

— Abaqus
sumber

4

Ini akan mundur, tetapi jenisnya mengikuti logika argumen.

Dalam hal efisiensi, saya dapat melihat beberapa masalah utama dengan jaringan saraf klasik.

Pengumpulan data dan overhead preprocessing

Jaringan saraf besar membutuhkan banyak data untuk dilatih. Jumlahnya dapat bervariasi tergantung pada ukuran jaringan dan kompleksitas tugas, tetapi sebagai aturan praktis biasanya sebanding dengan jumlah bobot. Untuk beberapa tugas pembelajaran yang dilindungi, tidak ada cukup data berlabel berkualitas tinggi. Mengumpulkan data pelatihan khusus dalam jumlah besar bisa memakan waktu berbulan-bulan atau bahkan bertahun-tahun, dan pelabelan bisa menjadi rumit dan tidak dapat diandalkan. Ini sebagian dapat dikurangi dengan augmentasi data, yang berarti "mensintesis" lebih banyak contoh dari yang sudah Anda miliki, tetapi ini bukan obat mujarab.

Waktu pelatihan vs. tradeoff energi

Tingkat pembelajaran biasanya cukup kecil, sehingga kemajuan pelatihan lambat. Model besar yang bisa memakan waktu berminggu-minggu untuk berlatih pada CPU desktop dapat dilatih, katakanlah, dua jam dengan menggunakan cluster GPU yang menghabiskan daya beberapa kW. Ini adalah kompromi mendasar karena sifat prosedur pelatihan. Yang mengatakan, GPU semakin efisien - misalnya, arsitektur GPU nVidia Volta baru memungkinkan untuk 15,7 TFLOP sementara mengonsumsi kurang dari 300 W.

Non-transferrability

Saat ini, hampir setiap masalah yang berbeda membutuhkan jaringan saraf khusus untuk dirancang, dilatih, dan digunakan. Sementara solusinya sering berhasil, itu semacam terkunci ke dalam masalah itu. Misalnya, AlphaGo brilian di Go, tetapi tidak ada harapan untuk mengendarai mobil atau memberikan rekomendasi musik - itu hanya tidak dirancang untuk tugas-tugas seperti itu. Redundansi yang luar biasa ini adalah kelemahan utama dari jaringan saraf dalam pandangan saya, dan juga merupakan hambatan utama bagi kemajuan penelitian jaringan saraf pada umumnya. Ada seluruh area penelitian yang disebut transfer learningyang berkaitan dengan menemukan cara menerapkan jaringan yang dilatih pada satu tugas ke tugas yang berbeda. Seringkali ini berkaitan dengan fakta bahwa mungkin tidak ada cukup data untuk melatih jaringan dari awal pada tugas kedua, sehingga dapat menggunakan model pra-terlatih dengan beberapa penyetelan ekstra sangat menarik.

Bagian pertama dari pertanyaan lebih rumit. Mengesampingkan model statistik murni, saya belum melihat pendekatan menonjol untuk pembelajaran mesin yang secara radikal berbeda dari jaringan saraf. Namun, ada beberapa perkembangan menarik yang perlu disebutkan karena mereka mengatasi beberapa ketidakefisienan di atas.

Keping neuromorfik

Sedikit latar belakang terlebih dahulu.

Sparing neural network memiliki potensi yang sangat besar dalam hal kekuatan komputasi. Bahkan, telah terbukti bahwa mereka benar - benar lebih kuat daripada jaringan saraf klasik dengan aktivasi sigmoid.

Selain itu, spiking neural networks memiliki pemahaman intrinsik waktu - sesuatu yang telah menjadi rintangan utama untuk jaringan klasik sejak awal mereka. Bukan hanya itu, tetapi jaringan spiking juga event-driven , yang berarti bahwa neuron hanya beroperasi jika ada sinyal yang masuk. Ini berbeda dengan jaringan klasik, di mana setiap neuron dievaluasi terlepas dari inputnya (sekali lagi, ini hanya konsekuensi dari prosedur evaluasi yang biasanya diimplementasikan sebagai perkalian dari dua matriks padat). Jadi jaringan spiking menggunakan skema pengkodean yang jarang , yang berarti bahwa hanya sebagian kecil dari neuron yang aktif pada waktu tertentu.

Sekarang, pengkodean berbasis spike spike dan event-driven cocok untuk implementasi berbasis perangkat keras dari jaringan spiking yang disebut chip neuromorfik . Sebagai contoh, chip TrueNorth IBM dapat mensimulasikan 1 juta neuron dan 256 juta koneksi sambil menggambar hanya sekitar 100 mW daya rata-rata. Ini adalah urutan besarnya yang lebih efisien daripada GPU nVidia saat ini. Keripik neuromorfik mungkin merupakan solusi dari waktu pelatihan / pertukaran energi yang saya sebutkan di atas.

Juga, memristor adalah perkembangan yang relatif baru tetapi sangat menjanjikan. Pada dasarnya, memristor adalah elemen rangkaian fundamental yang sangat mirip dengan resistor tetapi dengan tahanan variabel yang proporsional dengan jumlah total arus yang telah melewatinya selama masa pakainya. Pada dasarnya, ini berarti bahwa ia mempertahankan "memori" dari jumlah arus yang telah melewatinya. Salah satu aplikasi potensial memristor yang menarik adalah memodelkan sinapsis dalam perangkat keras dengan sangat efisien.

Pembelajaran penguatan dan evolusi

Saya pikir ini layak disebutkan karena mereka adalah kandidat yang menjanjikan untuk mengatasi masalah non-transferrability. Ini tidak terbatas pada jaringan saraf - didorong oleh imbalan, RL dan evolusi secara teori dapat diterapkan dalam pengaturan umum untuk tugas apa pun di mana dimungkinkan untuk menentukan hadiah atau tujuan yang ingin dicapai agen. Ini tidak selalu sepele untuk dilakukan, tetapi jauh lebih generik daripada pendekatan berbasis kesalahan yang biasa, di mana agen pembelajaran mencoba untuk meminimalkan perbedaan antara output dan kebenaran dasar. Poin utama di sini adalah tentang belajar transfer: idealnya, menerapkan agen terlatih untuk tugas yang berbeda harus sesederhana mengubah tujuan atau hadiah (mereka belum cukup pada tingkat itu, meskipun ...).

— tidak bisa dipercaya
sumber

"Benar-benar lebih kuat," adalah apa yang ditulis Maass dalam makalahnya tahun 1996, namun ia mengklaim ketelitian matematis dan gagal mendefinisikan kekuatan komputasi. Lebih jauh lagi, pada tahun 1996 ditulis ketika fungsi aktivasi sigmoid sedang populer, yang tidak sekarang, justru karena mereka tidak menyatu untuk berbagai skenario sebagai andal atau secepat fungsi aktivasi yang lebih sederhana. Maass hanya menyebutkan konvergensi dua kali di kertas dan tidak menunjukkan bagaimana konvergensi terjadi, lebih jauh menggarisbawahi tidak adanya definisi daya komputasi dalam hal tujuan pembelajaran mesin.

— FauChristian

Hubungan antara RL dan evolusi tidak jelas. Apakah Anda mengacu pada beberapa kombinasi dari algoritma genetik dan RL? Jika demikian, apa rujukannya?

— FauChristian

@ Fu christian Bahkan jika Anda tidak membaca seluruh makalah, definisi kemampuan komputasi disediakan dalam abstrak (kalimat kedua):

In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.

— cantordust

Aktivasi @FauChristian Sigmoid masih sangat hidup dan menendang. Misalnya, LSTM menggunakan aktivasi sigmoid untuk gerbang, softmax (normalized sigmoids) masih merupakan hal terbaik yang kami miliki untuk klasifikasi multi-kelas, dll. Aktivasi "lebih sederhana" belum tentu lebih baik - ReLU asli ( max(0, x)) sangat berbahaya. macet x < 0, menghasilkan neuron mati. Bagaimanapun, intinya adalah tentang kekuatan komputasi dari spiking nets dan implementasi perangkat keras yang sangat efisien dalam hal konsumsi daya.

— cantordust

@ Fu christian Saya tidak menggambar paralel antara RL dan evolusi. Saya memberikan mereka sebagai contoh pendekatan yang menjanjikan untuk mengatasi jenis ketidakefisienan tertentu, yaitu harus membuat solusi (baik itu NN atau yang lain) untuk setiap masalah individu yang Anda miliki. Idealnya, Anda harus dapat merancang pemecah generik yang secara otomatis disetel oleh RL dan / atau evolusi untuk masalah tertentu yang hanya didasarkan pada tujuan tingkat tinggi.

— cantordust

1

Mengganti Jaring Saraf Tiruan

Mungkin ada algoritma baru yang berpotensi menggantikan jaring saraf. Namun, salah satu karakteristik jaring saraf adalah bahwa mereka menggunakan elemen sederhana, masing-masing dengan tuntutan rendah pada sumber daya komputasi dalam pola geometris.

Neuron tiruan dapat dijalankan secara paralel (tanpa pembagian waktu atau putaran CPU) dengan memetakan komputasi ke perangkat DSP atau perangkat keras komputasi paralel lainnya. Karena itu, banyak neuron pada dasarnya sama adalah keuntungan yang kuat.

Apa yang Akan Kita Ganti?

Ketika kami mempertimbangkan penggantian algoritmik ke jaring saraf, kami menyiratkan bahwa desain jaring adalah algoritma. Bukan itu.

Neural net adalah pendekatan untuk konvergen pada sirkuit waktu nyata untuk melakukan transformasi input ke output nonlinier berdasarkan beberapa perumusan apa yang optimal. Formulasi seperti itu mungkin merupakan minimalisasi ukuran kesalahan atau disparitas dari beberapa ideal yang didefinisikan. Ini mungkin ukuran kesehatan yang harus dimaksimalkan.

Sumber penentuan kebugaran untuk setiap perilaku jaringan yang diberikan mungkin internal. Kami menyebutnya pembelajaran tanpa pengawasan. Mungkin eksternal, yang kita sebut diawasi ketika informasi kebugaran eksternal digabungkan dengan vektor input dalam bentuk nilai output yang diinginkan, yang kita sebut label.

Kebugaran juga dapat berasal secara eksternal sebagai skalar atau vektor yang tidak digabungkan dengan data input melainkan waktu nyata, yang kami sebut penguatan. Tersebut membutuhkan algoritma belajar kembali peserta. Kebugaran perilaku bersih dapat dievaluasi secara alternatif oleh jaring lain di dalam sistem, dalam kasus jaring bertumpuk atau konfigurasi lain seperti hierarki Laplacian.

Pemilihan algoritma tidak ada hubungannya dengan kecerdasan komparatif setelah desain matematika dan proses dipilih. Desain algoritma lebih langsung terkait dengan meminimalkan permintaan akan sumber daya komputasi dan mengurangi kebutuhan waktu. Minimalisasi ini juga bergantung pada perangkat keras dan sistem operasi.

Apakah Penggantian Diindikasikan?

Tentu. Akan lebih baik jika jaringan lebih seperti neuron mamalia.

Kecanggihan aktivasi
Heterogenitas pola koneksi
Plastisitas desain, untuk mendukung meta-adaptasi
Diatur oleh banyak dimensi pensinyalan regional

Dengan pensinyalan regional berarti banyak sinyal kimia di luar transmisi sinyal melintasi sinapsis.

Kita bahkan dapat mempertimbangkan untuk melampaui neurologi mamalia.

Menggabungkan pembelajaran berbasis parametrik dan hipotesis
Belajar bentuk yang digunakan ketika mikroba melewati DNA

Efisiensi Saraf Bersih

Efisiensi tidak dapat diukur dalam beberapa skala universal karena suhu dapat diukur dalam derajat Kelvin. Efisiensi hanya dapat dikuantifikasi sebagai hasil bagi dari beberapa nilai terukur atas beberapa ideal teoretis. Perhatikan bahwa itu adalah ideal, bukan maksimum, dalam penyebut. Dalam mesin termodinamika, yang ideal adalah laju input energi, yang tidak pernah dapat sepenuhnya ditransfer ke output.

Demikian pula, jaring saraf tidak pernah bisa belajar dalam waktu nol. Neural net tidak dapat mencapai zero error selama waktu yang lama dalam produksi. Oleh karena itu informasi dalam beberapa hal seperti energi, sebuah konsep yang diselidiki oleh Claude Shannon dari Bell Labs pada awal otomatisasi digital, dan hubungan antara entropi informasi dan entropi termodinamika sekarang menjadi bagian penting dari fisika teoretis.

Tidak ada efisiensi belajar yang buruk atau efisiensi belajar yang baik. Mungkin tidak ada kinerja yang buruk atau kinerja yang baik, jika kita ingin berpikir secara logis dan ilmiah - hanya perbaikan relatif dari beberapa konfigurasi sistem sehubungan dengan beberapa konfigurasi sistem lainnya untuk sekumpulan skenario kinerja yang sangat spesifik.

Oleh karena itu, tanpa spesifikasi yang jelas dari kedua perangkat keras, sistem operasi, dan konfigurasi perangkat lunak dan test suite yang sepenuhnya digunakan untuk evaluasi relatif, efisiensi tidak ada artinya.

— Douglas Daseeco
sumber

1

Kami memiliki beberapa harapan yang mengintai di depan itu. Sampai sekarang kami memiliki jaringan kapsul oleh J.Hinton yang menggunakan aktivasi non-linear yang berbeda yang disebut fungsi 'squash'.

Hinton menyebut max-pooling di CNN sebagai 'kesalahan besar', karena CNN hanya mencari objek keberadaan dalam gambar daripada orientasi relatif di antara mereka. Jadi mereka kehilangan informasi spasial ketika mencoba mencapai terjemahan invarian.
Jaring saraf memiliki koneksi tetap, sedangkan kapsul dalam jaringan kapsul 'memutuskan' kapsul mana yang harus dilewati aktivasi selama setiap zaman. Ini disebut 'perutean'.
Aktivasi setiap neuron dalam jaring saraf adalah skalar. Sedangkan aktivasi kapsul adalah vektor yang menangkap pose dan orientasi suatu objek dalam suatu gambar.
CNN dianggap representasi buruk dari sistem visual manusia. Yang saya maksud dengan sistem visual manusia adalah mata dan otak / kognitif bersama. Kita bisa mengidentifikasi Patung Liberty dari pose apa pun, bahkan jika kita telah melihatnya dari satu pose. CNN pada sebagian besar kasus tidak dapat mendeteksi objek yang sama dalam posisi dan orientasi yang berbeda.

Jaringan kapsul sendiri memiliki beberapa kekurangan. Jadi telah ada pekerjaan ke arah melihat melampaui jaring saraf. Anda dapat membaca blog ini untuk pemahaman yang baik sebelum Anda membaca makalah oleh J.Hinton.

— varsh
sumber

0

Jaringan saraf membutuhkan banyak data dan pelatihan. Untuk kebanyakan dataset format tabel, jauh lebih baik menggunakan model berbasis pohon keputusan. Sebagian besar waktu, model sederhana sudah cukup untuk memberikan akurasi yang baik. Namun jaringan saraf memiliki ujian waktu. Sudah lima sampai enam tahun sejak revolusi pembelajaran yang mendalam dimulai, jadi kita masih belum tahu potensi sebenarnya dari pembelajaran yang mendalam.

— riemann77
sumber