Masalah dengan dan alternatif untuk pendekatan Deep Learning?


17

Selama 50 tahun terakhir, kenaikan / penurunan / peningkatan popularitas jaring saraf telah bertindak sebagai 'barometer' untuk penelitian AI.

Jelas dari pertanyaan di situs ini bahwa orang-orang tertarik untuk menerapkan Deep Learning (DL) ke berbagai masalah sulit.

Karena itu saya punya dua pertanyaan:

  1. Praktisi - Apa yang Anda temukan sebagai hambatan utama untuk menerapkan DL 'di luar kotak' untuk masalah Anda?
  2. Peneliti - Teknik apa yang Anda gunakan (atau telah kembangkan) yang dapat membantu mengatasi masalah praktis? Apakah mereka dalam DL atau mereka menawarkan pendekatan alternatif?

3
Jika Anda memiliki dua pertanyaan, Anda harus mengajukan dua pertanyaan.
bpachev

1
Mereka jelas saling terkait.
NietzscheanAI

Jawaban:


5

Sebagai rangkuman, Ada dua masalah utama dalam Pembelajaran Dalam yang diterapkan.

  • Yang pertama adalah yang komputasi, itu lengkap. CPU normal membutuhkan banyak waktu untuk melakukan bahkan perhitungan dasar / pelatihan dengan Deep Learning. Karena itu GPU direkomendasikan, bahkan mereka mungkin tidak cukup dalam banyak situasi. Model pembelajaran mendalam yang khas tidak mendukung waktu teoretis untuk berada di Polinomial. Namun, jika kita melihat model yang relatif lebih sederhana dalam ML untuk tugas yang sama, terlalu sering kita memiliki jaminan matematis bahwa waktu pelatihan yang diperlukan untuk Algoritma yang lebih sederhana ada di Polinomial. Bagi saya, ini paling tidak mungkin merupakan perbedaan terbesar.

    Namun, ada solusi untuk mengatasi masalah ini. Salah satu pendekatan utama adalah untuk mengoptimalkan Algoritma DL ke sejumlah iterasi saja (alih-alih melihat solusi global dalam praktiknya, hanya mengoptimalkan algoritma untuk solusi lokal yang baik, sedangkan kriteria untuk "Baik" ditentukan oleh pengguna).

  • Masalah lain yang mungkin sedikit kontroversial bagi para penggemar pembelajaran mendalam muda adalah bahwa algoritma Deep Learning tidak memiliki pemahaman dan alasan teoretis. Deep Neural Networks telah berhasil digunakan dalam banyak situasi termasuk pengenalan tulisan tangan, pemrosesan Gambar, Mobil Mengemudi Sendiri, Pemrosesan Sinyal, NLP dan Analisis Biomedis. Dalam beberapa kasus ini, mereka bahkan telah melampaui manusia. Namun, yang dikatakan, mereka tidak dalam keadaan apa pun, secara teori sama sehatnya dengan sebagian besar Metode Statistik.

    Saya tidak akan menjelaskan secara detail, tetapi saya menyerahkannya kepada Anda. Ada pro dan kontra untuk setiap Algoritma / metodologi dan DL tidak terkecuali. Ini sangat berguna karena telah terbukti dalam banyak situasi dan setiap ilmuwan Data muda harus belajar setidaknya dasar-dasar DL. Namun, dalam kasus masalah yang relatif sederhana, lebih baik menggunakan metode statistik yang terkenal karena mereka memiliki banyak hasil / jaminan teoritis untuk mendukungnya. Selain itu, dari sudut pandang pembelajaran, selalu lebih baik untuk memulai dengan pendekatan sederhana dan menguasainya terlebih dahulu.


Dengan 'dalam polinomial' yang Anda maksud 'dalam polinomial waktu', bukan? Apakah Anda punya referensi untuk mendukungnya?
NietzscheanAI

Ya, itulah yang saya maksud. Tentu, ini dapat dibuktikan dalam banyak situasi ... Saya akan mulai dengan contoh paling sederhana yang mungkin, Hanya melatih Jaringan dengan tiga Node, dan dua lapisan adalah masalah NP-Lengkap seperti yang ditunjukkan di sini. ( Citeseerx.ist.psu. edu / viewdoc / ... ). Ingat bahwa makalah ini sudah sangat tua, dan sekarang kami memiliki lebih banyak ide tentang bagaimana meningkatkan dalam praktek, dengan beberapa heuristik, tetapi masih, secara teoritis, tidak ada hasil yang ditingkatkan.
Sibghat Ullah

Artikel bagus lainnya tentang masalah yang sama, yang juga menjelaskan beberapa trik untuk meningkatkan waktu pelatihan dalam praktik. ( pdfs.semanticscholar.org/9499/… )
Sibghat Ullah

Katakanlah, kami ingin memprediksi harga untuk sesuatu. Regresi Linier Sederhana dengan kuadrat terkecil akan memiliki waktu Polinomial, sedangkan menyelesaikan masalah yang sama dengan Neural Networks (bahkan yang paling sederhana) akan menghasilkan masalah lengkap NP. Ini perbedaan yang sangat besar. Akhirnya, Anda harus hati-hati memilih algoritma untuk tugas tertentu. Misalnya, Least Square fit memiliki asumsi spesifik, yang meliputi, "Fungsi ideal yang dipelajari algoritma, dapat dipelajari sebagai kombinasi linear fitur". Jika asumsi itu tidak valid, maka hasil yang dicapai.
Sibghat Ullah

Tentu saja, hanya karena masalah (dalam hal ini, menemukan bobot optimal) adalah NP-complete tidak dengan sendirinya tidak berarti bahwa tidak ada metode praktis yang efisien untuk menemukan bobot yang baik ...
NietzscheanAI

5

Saya memiliki sedikit pengalaman dengan ML / DL untuk menyebut diri saya seorang praktisi, tetapi inilah jawaban saya pada pertanyaan pertama:

Pada intinya DL menyelesaikan tugas klasifikasi dengan baik. Tidak setiap masalah praktis dapat diulang dalam hal klasifikasi. Domain klasifikasi perlu diketahui di muka. Meskipun klasifikasi dapat diterapkan untuk semua jenis data, perlu untuk melatih NN dengan sampel dari domain tertentu di mana itu akan diterapkan. Jika domain diaktifkan di beberapa titik, sambil mempertahankan model yang sama (struktur NN), domain tersebut harus dilatih ulang dengan sampel baru. Selain itu, bahkan pengklasifikasi terbaik pun memiliki "celah" - Contoh Adversarial dapat dengan mudah dibangun dari sampel pelatihan, sedemikian rupa sehingga perubahan tidak terlihat oleh manusia, tetapi dikelompokkan secara keliru oleh model yang terlatih.


2
'Klasifikasi' dapat dianggap sebagai kasus khusus 'regresi', yang mungkin karena itu merupakan karakterisasi DL yang lebih baik.
NietzscheanAI

3

Pertanyaan 2. Saya sedang meneliti apakah komputasi dimensi Hyper adalah alternatif untuk Deep Learning. Hyper-D menggunakan vektor bit yang sangat panjang (10.000 bit) untuk menyandikan informasi. Vektornya acak dan karena itu mereka kira-kira ortogonal. Dengan mengelompokkan dan rata-rata koleksi vektor seperti itu, "himpunan" dapat dibentuk dan kemudian ditanya untuk melihat apakah vektor yang tidak diketahui milik himpunan. Himpunan dapat dianggap sebagai konsep atau gambar generalisasi, dll. Pelatihan sangat cepat seperti pengakuan. Yang perlu dilakukan adalah mensimulasikan domain di mana Deep Learning telah berhasil dan membandingkan Hyper-D dengan itu.


Menarik. Jadi bagaimana hal ini berbeda dari 'Memori Jarang Terdistribusi' Kanerva?
NietzscheanAI

Keduanya dikembangkan oleh Pentti Kanerva. Cari komputasi dimensi Hyper untuk melihat perbedaannya. Terlalu lama untuk menjawab di sini.
Douglas G Danforth

1

Dari sudut pandang matematika, salah satu masalah utama dalam jaringan yang dalam dengan beberapa lapisan adalah gradien yang hilang atau tidak stabil . Setiap lapisan tersembunyi tambahan belajar secara signifikan lebih lambat, hampir meniadakan manfaat lapisan tambahan.

Pendekatan pembelajaran mendalam modern dapat meningkatkan perilaku ini, tetapi dalam jaringan saraf sederhana dan kuno ini adalah masalah yang sudah diketahui. Anda dapat menemukan analisis yang ditulis dengan baik di sini untuk studi lebih lanjut.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.