Apakah ada masalah pembelajaran terawasi yang jaringan saraf (dalam) jelas tidak bisa mengungguli metode lain?

Saya telah melihat orang-orang telah melakukan banyak upaya pada SVM dan kernel, dan mereka terlihat cukup menarik sebagai pemula dalam Machine Learning. Tetapi jika kita berharap bahwa hampir selalu kita dapat menemukan solusi yang lebih baik dalam hal Jaringan Saraf (dalam), apa arti dari mencoba metode lain di era ini?

Inilah kendala saya tentang topik ini.

Kami hanya memikirkan Pembelajaran yang Dibimbing; Regresi, dan Klasifikasi.
Keterbacaan Hasil tidak dihitung; hanya Akurasi pada Masalah yang Dibimbing-Pembelajaran yang diperhitungkan.
Biaya komputasi tidak dipertimbangkan.
Saya tidak mengatakan bahwa metode lain tidak berguna.

— Robin
sumber

Adakah kendala pada jumlah data pelatihan yang tersedia?

— Jake Westfall

Saya belum melakukannya, tetapi saya berharap Anda akan mengalami kesulitan untuk melatih jaringan saraf untuk melakukan misalnya dekomposisi nilai singular pada matriks berukuran non-trivial (katakanlah, peringkat> 10).

— Mehrdad

Google Translate sekarang menggunakan jaringan saraf , dan sekarang menghasilkan kegagalan yang lebih aneh untuk nama kota Brasil di mana penggunaan kata-demi-kata dari kamus akan jauh lebih baik

— Henry

Saya belum pernah mendengar pembelajaran mendalam untuk penggunaan penyelesaian matriks (meskipun menggunakan penyelesaian matriks sebelum pembelajaran mendalam adalah praktik umum). Anda bisa berpendapat ini bisa menjadi masalah biaya komputasi, tetapi juga patut dicatat bahwa saya tidak tahu apakah semua komputer di dunia dapat melakukan penyelesaian matriks pembelajaran yang mendalam dengan, katakanlah, masalah netflix.

— Cliff AB

@CliffAB: (setengah lidah di pipi ...) mungkin perlu dicatat bahwa mereka mungkin tidak mampu, tapi saya tidak yakin perlu dicatat bahwa Anda tidak tahu apakah mereka bisa;)

— Mehrdad

Jawaban:

Berikut adalah satu alasan teoretis dan dua praktis mengapa seseorang mungkin secara rasional lebih memilih pendekatan non-DNN.

Teorema Tanpa Makan Siang Gratis dari Wolpert dan Macready mengatakan

Kami telah menjuluki hasil terkait teorema NFL karena mereka menunjukkan bahwa jika suatu algoritma berkinerja baik pada kelas masalah tertentu maka itu harus membayar untuk itu dengan kinerja terdegradasi pada set semua masalah yang tersisa.

Dengan kata lain, tidak ada algoritma tunggal yang mengatur semuanya; Anda harus melakukan tolok ukur.

Bantahan jelas di sini adalah bahwa Anda biasanya tidak peduli tentang semua masalah yang mungkin, dan pembelajaran yang mendalam tampaknya bekerja dengan baik pada beberapa kelas masalah yang orang lakukan peduli (misalnya, objek pengakuan), dan itu adalah wajar pertama /-satunya pilihan untuk aplikasi lain di domain tersebut.
Banyak dari jaringan yang sangat dalam ini membutuhkan banyak data, serta banyak perhitungan, agar sesuai. Jika Anda memiliki (katakanlah) 500 contoh, jaringan dua puluh lapisan tidak akan pernah belajar dengan baik, sementara itu mungkin untuk menyesuaikan model yang jauh lebih sederhana. Ada sejumlah masalah yang mengejutkan di mana tidak layak untuk mengumpulkan banyak data. Di sisi lain, orang mungkin mencoba belajar untuk memecahkan masalah terkait (di mana lebih banyak data tersedia), gunakan sesuatu seperti transfer learning untuk menyesuaikannya dengan tugas spesifik ketersediaan data rendah.
Jaringan saraf dalam juga dapat memiliki mode kegagalan yang tidak biasa. Ada beberapa makalah yang menunjukkan bahwa perubahan yang nyaris tidak terlihat oleh manusia dapat menyebabkan jaringan beralih dari mengklasifikasi gambar dengan benar ke kesalahan klasifikasi. (Lihat di sini dan makalah yang menyertai oleh Szegedy et al.) Pendekatan lain mungkin lebih kuat terhadap ini: ada serangan keracunan terhadap SVM (misalnya, ini oleh Biggio, Nelson, dan Laskov), tetapi yang terjadi di kereta api, bukan tes waktu. Sebaliknya, ada batas kinerja yang diketahui (tapi tidak hebat) untuk algoritma tetangga terdekat. Dalam beberapa situasi, Anda mungkin lebih bahagia dengan kinerja keseluruhan yang lebih rendah dengan kemungkinan bencana yang lebih kecil.

— Matt Krause
sumber

Saya setuju semua yang Anda katakan. Tetapi masalahnya adalah tentang "masalah komputasi diabaikan". Itu berarti OP berasumsi, Anda akan memiliki sampel tak terbatas dan sumber daya komputasi tak terbatas.

— SmallChess

Perhitungan tanpa batas! = Sampel tanpa batas. Sebagai contoh, saya memiliki akses ke cluster besar yang menakjubkan untuk memproses data. Namun, percobaan laboratorium yang kami lakukan untuk benar-benar memperoleh beberapa data itu sulit, lambat, dan memakan waktu (berdasarkan urutan jam hingga hari untuk satu titik data tunggal) dan semua perhitungan di dunia tidak akan membantu sepanjang .

— Matt Krause

SVM dengan ekstraktor fitur yang diberikan cenderung rentan terhadap input permusuhan seperti CNN - hanya sulit untuk menemukannya, karena kami tidak memiliki gradien yang mudah tersedia dari lapisan ekstraksi fitur.

— Dougal

Contoh kehidupan nyata terkini dan menarik dari masalah yang diberikan @MattKrause dan upaya untuk menggunakannya menggunakan pembelajaran transfer disajikan dalam Pembelajaran Robot Sim-to-Real dari Pixels dengan Jaring Progresif

— HBeel

@ Dougal, saya juga bertanya-tanya apakah penting bahwa fitur-ekstraktor DNN dipelajari, sedangkan yang SVM adalah (biasanya) buatan tangan dan sesuai dengan fitur yang diperhatikan manusia. Bagian dari apa yang membuat contoh panda begitu berbahaya adalah perbedaan yang tak terlihat antara contoh permusuhan dan yang biasa.

— Matt Krause

Di suatu tempat di daftar putar kuliah ini oleh Geoff Hinton (dari kursus Coursera tentang jaringan saraf), ada segmen di mana ia berbicara tentang dua kelas masalah:

Masalah di mana kebisingan adalah fitur utama,
Masalah di mana sinyal adalah fitur utama.

Saya ingat penjelasan bahwa sementara jaring saraf berkembang di ruang terakhir ini, metode statistik tradisional seringkali lebih cocok untuk yang pertama. Menganalisis foto-foto digital beresolusi tinggi dari hal-hal aktual di dunia, tempat di mana jaring konvolusional yang unggul unggul, jelas merupakan yang terakhir.

Di sisi lain, ketika kebisingan adalah fitur dominan, misalnya, dalam studi kasus kontrol medis dengan 50 kasus dan 50 kontrol, metode statistik tradisional mungkin lebih cocok untuk masalah tersebut.

Jika ada yang menemukan video itu, beri komentar dan saya akan memperbarui.

— Ben Ogorek
sumber

Jawaban yang sangat bagus. Tepatnya mengapa kita beralih ke pembelajaran mendalam untuk hal-hal yang sudah dapat kita lakukan (seperti mengenali gambar dan menulis teks) tetapi dapat beralih ke model lain untuk hal-hal yang mungkin secara intuitif sulit.

— Mustafa S Eisa

Saya pribadi menerima jawaban ini demi minat terbesar saya. Terima kasih banyak atas jawabannya.

— Robin

Dua variabel berkorelasi yang disempurnakan secara linear. Bisakah jaringan dalam dengan 1 juta lapisan tersembunyi dan 2 triliun neutron mengalahkan regresi linier sederhana?

Diedit

Dalam pengalaman saya, pengumpulan sampel lebih mahal daripada perhitungan. Maksud saya, kita bisa menyewa beberapa mesin Amazon, menjalankan pelatihan pembelajaran yang dalam dan kemudian kembali beberapa hari kemudian. Biaya di bidang saya adalah sekitar $ 200 USD. Biayanya minimal. Rekan kerja saya menghasilkan lebih dari itu dalam sehari.

Pengumpulan sampel umumnya membutuhkan pengetahuan domain dan peralatan khusus. Pembelajaran mendalam hanya cocok untuk masalah dengan set data akses yang murah dan mudah, seperti pemrosesan bahasa alami, pemrosesan gambar, dan apa pun yang dapat Anda hilangkan dari Internet.

— Catur kecil
sumber

Tentu saja setiap metode MLE akan lebih baik dari pembelajaran yang dalam dengan syarat pada model pembangkit memenuhi asumsi MLE . Namun, ini tidak pernah terjadi pada data nyata, atau setidaknya untuk masalah yang menarik (yaitu tidak memprediksi hasil dari koin balik). Jadi saya pikir OP meminta contoh yang melibatkan pertanyaan nyata yang menarik dengan data nyata.

— Cliff AB

Itu jawaban yang sangat bagus. Anda telah menawarkan sudut pandang yang sangat intuitif, dan realistis. Terima kasih banyak.

— Robin