Analisis teoretis yang baik dengan dan tanpa skema pengganti dalam konteks algoritma iteratif berdasarkan pengundian acak (yang merupakan jumlah pelatihan Jaringan Neural Dalam (DNN) diskriminatif) dapat ditemukan di sini
Singkatnya, ternyata pengambilan sampel tanpa penggantian, mengarah pada konvergensi yang lebih cepat daripada pengambilan sampel dengan penggantian.
Saya akan memberikan analisis singkat di sini berdasarkan contoh mainan yang mereka berikan: Katakanlah kita ingin mengoptimalkan fungsi tujuan berikut:
xopt=argminx12∑i=1N(x−yi)2
di mana target . Dalam contoh ini, kami mencoba menyelesaikan untuk x yang optimal , diberi label N dari y i jelas.yi∼N(μ,σ2)xNyi
Ok, jadi jika kita memecahkan optimal di atas secara langsung, maka kita akan mengambil turunan dari fungsi kerugian di sini, atur ke 0, dan selesaikan untuk x . Jadi untuk contoh kita di atas, kerugiannya adalahxx
L=12∑i=1N(x−yi)2
dan turunan pertamanya adalah:
δLδx=∑i=1N(x−yi)
Pengaturan ke 0 dan penyelesaian untukx, menghasilkan:δLδxx
xopt=1N∑i=1Nyi
Dengan kata lain, solusi optimal tidak lain adalah mean sampel dari semua sampel dari y .Ny
Sekarang, jika kita tidak dapat melakukan perhitungan di atas secara bersamaan, kita harus melakukannya secara rekursif, melalui persamaan pembaruan gradient descent di bawah ini:
xi=xi−1−λi∇(f(xi−1))
dan cukup memasukkan istilah kami di sini menghasilkan:
xsaya= xi - 1- λsaya( xi - 1- ysaya)
Jika kita menjalankan atas untuk semua , maka kami secara efektif melakukan pembaruan ini tanpa penggantian. Pertanyaannya kemudian menjadi, bisakah kita juga mendapatkan nilai x yang optimal dengan cara ini? (Ingat bahwa nilai optimal x tidak lain adalah mean sampel dari y ). Jawabannya adalah ya, jika Anda membiarkan λ i = 1 / i . Untuk melihat, ini kami kembangkan:i ∈ 1 , 2 , . . . Nxxyλsaya= 1 / i
xsaya= xi - 1- λsaya( xi - 1- ysaya) xsaya= xi - 1- 1saya( xi - 1- ysaya) xsaya= i xi - 1- ( xi - 1- ysaya)saya xsaya= ( i - 1 ) xi - 1+ ysayasaya saya xsaya= ( i - 1 ) xi - 1+ ysaya
Namun persamaan terakhir hanyalah formula untuk rata-rata berlari! Jadi ketika kita mengulang set dari , i = 2 , dll, semua jalan ke i = N , kita akan melakukan pembaruan tanpa penggantian, dan formula pembaruan kita memberi kita solusi optimal x , yang merupakan mean sampel!i = 1i = 2i = Nx
NxN=(N−1)xN−1+yN==>xN=1N∑i=1Nyi=μ
Sebaliknya, jika kita benar-benar menggambar dengan penggantian, maka sementara undian kita akan benar-benar independen, nilai yang dioptimalkan akan berbeda dari rata-rata (optimal) μ , dan kesalahan kuadrat akan diberikan oleh:xNμ
E{(xN−μ)2}
yang akan menjadi nilai positif, dan contoh mainan sederhana ini dapat diperluas ke dimensi yang lebih tinggi. Ini memiliki konsekuensi bahwa kami ingin melakukan pengambilan sampel tanpa penggantian sebagai solusi yang lebih optimal.
Semoga ini semakin memperjelasnya!