Jawaban:
Orang umumnya dapat memikirkan dua jenis hasil kekerasan dalam pembelajaran mesin: Kekerasan teori informasi dalam konteks pembelajaran statistik (yaitu, memberikan batas yang lebih rendah ke jumlah minimal contoh yang diperlukan untuk belajar) dan kekerasan algoritmik (yaitu, pilihan algoritmik yang buruk berarti optimasi menjadi tidak mungkin).
Dalam konteks pembelajaran yang mendalam, membahas kekerasan itu sulit, karena kita sebenarnya tahu sedikit tentang mengapa pembelajaran yang mendalam secara teoritis berhasil. (Ingat: Masalah optimisasi yang dipecahkan dalam pembelajaran mendalam adalah meminimalkan fungsi sangat cembung dimensi tinggi, dan dikenal sebagai NP-hard secara umum. Yaitu, tidak ada jaminan yang mencapai minimum global. Namun dalam praktiknya, praktisi telah menggunakan varian SGD untuk menyelesaikan banyak masalah dengan sangat baik. Ada beberapa kemajuan baru-baru ini dalam memberikan jawaban yang dapat dibenarkan mengapa hal ini terjadi, tetapi ini di luar ruang lingkup pertanyaan Anda.)
Salah satu contoh yang sangat bagus untuk kekerasan algoritmik dalam pembelajaran mendalam adalah untuk mencoba mempelajari masalah di mana gradiennya tidak informatif. Pembelajaran mendalam saat ini menggunakan beberapa bentuk SGD untuk memperbarui bobot jaringan. misalnya, gumpalan mini GD menghitung gradien dari fungsi biaya di atas sampel acak dari contoh wrt ke parameter :
Dengan kata lain, optimisasi DL berusaha mengoptimalkan fungsi secara global dengan menggunakan informasi gradien lokal ; Ini menunjukkan bahwa jika masalah pembelajaran ditandai oleh gradien non-informatif, maka tidak ada arsitektur pembelajaran yang mendalam yang dapat mempelajarinya.
Belajar paritas acak adalah masalah belajar berikut:
Setelah memilih vektor , tujuannya adalah untuk melatih pemetaan prediktor ke , di mana secara seragam didistribusikan. Dengan kata lain, kami mencoba mempelajari pemetaan yang menentukan apakah angka 1 dalam subhimpunan koordinat (ditunjukkan oleh ) genap atau ganjil.
Dalam "Kegagalan Pembelajaran Jauh Berbasis Gradien" ( Shamir, 2017 ) penulis membuktikan bahwa masalah ini (dan lebih umum, setiap fungsi linier yang disusun dengan fungsi periodik ) menderita gradien non-informatif, sehingga membuat masalah optimisasi menjadi sulit .
Mereka juga menunjukkan ini secara empiris, dengan mengukur keakuratan sebagai fungsi dari jumlah iterasi pelatihan, untuk berbagai dimensi input.
Jaringan yang digunakan di sini adalah satu lapisan yang sepenuhnya terhubung dengan lebar dengan aktivasi ReLU, dan lapisan keluaran yang sepenuhnya terhubung dengan aktivasi linier dan satu unit tunggal. (Lebar dipilih untuk memastikan bahwa fungsi paritas yang diperlukan memang direalisasikan oleh jaringan seperti itu)
T: Mengapa paritas belajar hanya menjadi sulit pada sekitar ?
Gagal ketika Anda tidak memaksakan struktur yang tepat pada masalah. Jaringan saraf convolutional berfungsi karena mereka menganggap piksel yang dekat satu sama lain saling terkait, jadi masuk akal untuk menerapkan konvolusi spasial ke fitur Anda. Dan dengan melakukan itu, Anda telah mengurangi ruang pencarian hipotesis secara dramatis, yang berarti pembelajaran mendalam lebih mungkin untuk mencapai solusi optimal.
Jika Anda menerapkan pembelajaran mendalam ke masalah di mana fitur tidak setuju dengan konvolusi spasial / temporal, maka pembelajaran mendalam akan gagal, karena tidak masuk akal untuk meringkas fitur tertentu dan menerapkan fungsi ke penjumlahan, yang adalah apa jaringan saraf lakukan.
Jika seseorang dapat memikirkan contoh di mana pembelajaran mendalam telah berhasil diterapkan pada data yang bukan gambar atau audio (atau data spasial / temporal), saya akan senang untuk menarik kembali jawaban ini.