Mengapa penggabungan ini terbukti bermanfaat?
Jika Anda berpikir tentang jaringan Nilai / Kebijakan yang dibagi sebagai yang terdiri dari komponen bersama (lapisan Jaringan Residual) dengan komponen Nilai dan Kebijakan di atas daripada Pemisahan Masalah, itu lebih masuk akal.
Premis yang mendasarinya adalah bahwa bagian yang dibagikan dari jaringan (ResNet) memberikan generalisasi tingkat tinggi dari input (permainan menyatakan sebelum bergerak) yang merupakan representasi input yang baik untuk jaringan Nilai dan Kebijakan yang dangkal.
Ketika hal itu terjadi, kita dapat mengurangi banyak beban komputasi dengan melatih satu ResNet bersama dan menggunakannya untuk dua jaringan yang jauh lebih sederhana daripada melatih dua ResNets untuk Nilai dan Kebijakan. Dalam kasus mereka, melatih keduanya bersama-sama juga meningkatkan regularisasi dan dengan demikian menciptakan representasi umum yang lebih kuat.
Secara khusus, kertas Alpha Go Zero oleh Silver et al. , Menguasai Game Go tanpa Pengetahuan Manusia , menyatakan bahwa:
Menggabungkan kebijakan dan nilai bersama-sama ke dalam satu jaringan sedikit mengurangi akurasi prediksi gerakan, tetapi mengurangi kesalahan nilai dan mendorong kinerja bermain di AlphaGo sekitar 600 Elo. Ini sebagian karena peningkatan efisiensi komputasi, tetapi yang lebih penting adalah tujuan ganda mengatur jaringan untuk representasi umum yang mendukung banyak kasus penggunaan.
Bisakah teknik ini diterapkan secara umum atau hanya dalam kasus-kasus khusus?
Seperti komponen umum dalam pustaka perangkat lunak, itu hanya masuk akal ketika masalah yang Anda coba selesaikan dari perwakilan bersama.
Anda dapat menggunakannya jika Anda melatih pengklasifikasi untuk tugas-tugas serupa, atau melatih tugas baru dengan sedikit data di mana Anda sudah memiliki pengklasifikasi dilatih atas dataset yang lebih besar, serupa .
Di luar Go, ini sering digunakan dalam pengenalan gambar. Jaringan pra-terlatih yang dalam seperti dari kompetisi ImageNet ILSVRC umumnya digunakan sebagai titik awal. Mereka adalah pengklasifikasi yang telah dilatih (selama berminggu-minggu!) Pada lebih dari satu juta gambar.
Kemudian, katakan Anda ingin membuat jaringan untuk mengenali sepeda merek favorit Anda, Anda mulai dengan pipa pengenalan gambar umum yang dilatih di ImageNet, memotong lapisan terakhir yang melakukan klasifikasi aktual ("itu adalah Border Collie") dan tambahkan classifier baru kecil untuk memilih hanya sepeda yang Anda pedulikan.
Karena classifier pra-terlatih sudah menyediakan konsep gambar tingkat tinggi yang merupakan blok bangunan yang baik untuk pengenalan gambar (itu mengklasifikasikan 200 kategori), ini menghemat banyak pelatihan dan membuat untuk classifier yang sangat kuat.
Tentu saja ada banyak kasus di mana masalah tidak memiliki representasi bersama yang bermanfaat dan karenanya tidak mendapat manfaat dari jaringan gabungan. Meskipun demikian, ini adalah alat yang berguna dalam situasi yang tepat.
Cari Transfer Belajar atau Pembelajaran Multi-Tugas untuk mempelajari lebih lanjut tentang ini.