Pasti ada cara untuk memperkenalkan apa yang disebut oleh banyak orang sebagai pembelajaran yang diperkuat ke dalam aplikasi web, seluler, dan workstation yang nyata.
Organisasi militer melakukannya, industri film yang melakukannya, perusahaan yang berpusat pada perangkat lunak melakukannya, dan saya telah melakukannya untuk bisnis-bisnis Fortune 500 dan bisnis kecil. Ada komponen pembelajaran adaptif dalam semua jenis komponen sistem yang tertanam dalam sistem yang lebih besar, mulai dari robot pengenalan wajah FaceBook hingga Google Translate hingga USPS sistem pengakuan kode pos hingga penerbangan mandiri dan sistem kontrol lalu lintas. Computer aided design software (CAD) tentu saja merupakan target yang layak.
Dasar Penguatan
Pertimbangkan serangkaian vektor yang menggambarkan peristiwa. Bayangkan mereka dibagi menjadi dua sub-seri A dan B. Jaring saraf (buatan atau biologis) dapat dilatih menggunakan A.
Pelatihan dapat diawasi, artinya salah satu dimensi vektor dianggap label dan karenanya variabel dependen untuk diprediksi secara optimal. Dimensi lain kemudian menjadi fakta atau sinyal input dan oleh karena itu variabel independen untuk digunakan untuk prediksi. Pelatihan bisa tanpa pengawasan menggunakan ekstraksi fitur.
Either way, ketika diberikan dengan A sebelum B dan diharapkan untuk melakukan produksi (penggunaan nyata) sebelum B tiba, kedatangan B selanjutnya menghadirkan pilihan.
- Hapus bobot dan penyesuaian meta-parameter apa pun yang dilakukan selama pelatihan dengan A dan jalankan kembali pelatihan dengan rangkaian gabungan A dan B.
- Lanjutkan pelatihan dengan B, dalam hal ini jaringan akan bias dengan A dan hasilnya akan berbeda dari hasil yang diperoleh dengan pelatihan dengan B kemudian A.
- Temukan cara untuk membatasi bias memiliki pertama kali dilatih dengan A sambil menghindari konsumsi sumber daya yang diperlukan untuk pilihan # 1 di atas.
Pilihan # 3 adalah pilihan terbaik dalam banyak kasus karena mengandung manfaat pilihan # 1 dan # 2. Secara matematis, # 3 dilakukan dengan memfasilitasi preempting dari apa yang dipelajari dari seri A dengan cara tertentu. Berat neural net dan penyesuaian meta-parameter harus dibuat rentan terhadap koreksi karena pengalaman baru menunjukkan perlunya melakukannya. Satu pendekatan naif dapat dirumuskan secara matematis fungsi eksponensial terbalik, yang memodelkan pembusukan alami dalam banyak fenomena dalam fisika, kimia, dan ilmu sosial.
P = e- bukan , di mana P adalah probabilitas faktanya masih berkhasiat, n adalah tingkat peluruhan informasi yang dipelajari di masa lalu, dan t adalah beberapa ukuran kemajuan maju, seperti cap waktu, nomor sub-urutan (batch), nomor urut fakta, atau nomor acara.
Dalam kasus sub-seri A dan B, ketika formula di atas diterapkan dalam beberapa cara dalam mekanisme pembelajaran, pelatihan A akan menempatkan lebih sedikit bias pada hasil akhir setelah pelatihan lanjutan menggunakan B karena t untuk A kurang daripada t untuk B, mengatakan pada mekanisme bahwa B lebih mungkin relevan.
Jika kita membagi A dan B secara rekursif menjadi dua bagian, menciptakan lebih banyak dan lebih banyak sub-seri granular, gagasan di atas untuk membiarkan informasi sebelumnya secara bertahap membusuk tetap valid dan berharga. Bias jaringan terhadap informasi pertama yang digunakan untuk pelatihan setara dengan konsep psikologis pikiran picik. Sistem pembelajaran yang telah berevolusi menjadi otak mamalia tampaknya melupakan atau kehilangan minat pada hal-hal di masa lalu untuk mendorong pikiran terbuka, yang tidak lebih dari membiarkan pembelajaran baru kadang-kadang mendahului pembelajaran sebelumnya jika informasi baru mengandung pola yang lebih kuat untuk belajar.
Ada DUA alasan untuk mengizinkan data contoh yang lebih baru untuk secara progresif melebihi data contoh yang lebih lama.
- Penghapusan bias pembelajaran di atas untuk menimbang peristiwa yang lebih baru dalam pembelajaran lebih lanjut masuk akal jika semua peristiwa yang dialami (dilatih) mewakili fakta yang masuk akal tentang dunia luar yang coba dipelajari oleh sistem.
- Dunia eksternal mungkin berubah dan pembelajaran yang lebih tua sebenarnya menjadi tidak relevan atau bahkan menyesatkan.
Kebutuhan ini untuk membiarkan pentingnya informasi sebelumnya membusuk secara bertahap karena pembelajaran berlanjut adalah salah satu dari dua aspek utama penguatan. Aspek kedua adalah serangkaian konsep korektif dibangun di atas gagasan pensinyalan umpan balik.
Umpan balik dan penguatan
Sinyal umpan balik dalam pembelajaran yang diperkuat adalah pembelajaran mesin yang setara dengan konsep psikologis yang sudah dikenal seperti rasa sakit, kesenangan, kepuasan, dan kesehatan. Sistem pembelajaran diberikan informasi untuk memandu pelatihan di luar tujuan ekstraksi fitur, kemandirian pengelompokan, atau menemukan matriks bobot bersih neural yang mendekati hubungan antara fitur acara input dan labelnya.
Informasi yang diberikan dapat berasal secara internal dari pengenalan pola yang diprogram sebelumnya atau secara eksternal dari hadiah dan hukuman, seperti halnya dengan mamalia. Teknik dan algoritma yang dikembangkan dalam pembelajaran mesin bertulang menggunakan sinyal tambahan ini secara berkala (menggunakan slicing waktu dalam pemrosesan) atau terus menerus menggunakan independensi unit pemrosesan arsitektur pemrosesan paralel.
Karya ini dipelopori di MIT oleh Norbert Wiener dan dituangkan dalam bukunya Cybernetics (MIT Press 1948). Kata Sibernetika berasal dari kata yang lebih tua yang berarti kemudi Kapal . Pergerakan kemudi secara otomatis untuk tetap berada di jalur mungkin merupakan sistem umpan balik mekanis pertama. Mesin pemotong rumput Anda mungkin memiliki satu.
Aplikasi dan Pembelajaran Adaptif
Adaptasi sederhana secara real time untuk posisi kemudi atau throttle mesin pemotong rumput tidak belajar. Adaptasi semacam itu biasanya berupa kontrol PID linier. Teknologi pembelajaran mesin yang dikembangkan saat ini mencakup penilaian dan kontrol sistem nonlinier kompleks yang oleh para ahli matematika disebut kacau.
Dengan kacau, mereka tidak berarti bahwa proses yang dijelaskan dalam hiruk-pikuk atau tidak terorganisir. Chaoticians menemukan beberapa dekade yang lalu bahwa persamaan non-linear sederhana dapat menyebabkan perilaku yang sangat terorganisir. Apa yang mereka maksudkan adalah bahwa fenomena tersebut terlalu sensitif terhadap sedikit perubahan untuk menemukan beberapa algoritma atau formula tetap untuk memprediksikannya.
Bahasa seperti itu. Pernyataan yang sama mengatakan dengan selusin infleksi vokal yang berbeda dapat berarti selusin hal yang berbeda. Kalimat bahasa Inggris, "Sungguh," adalah contoh. Sangat mungkin bahwa teknik penguatan akan memungkinkan mesin masa depan untuk membedakan dengan probabilitas keberhasilan yang tinggi antara berbagai makna pernyataan itu.
Mengapa Game Pertama?
Game memiliki serangkaian skenario yang sangat sederhana dan mudah ditentukan. Salah satu kontributor utama kemunculan komputer, John von Neumann, berpendapat dalam Teori Permainan dan Perilaku Ekonomi , sebuah buku yang ia tulis bersama Oskar Morgenstern, bahwa semua perencanaan dan pengambilan keputusan sebenarnya adalah permainan dari berbagai kompleksitas.
Pertimbangkan permainan contoh pelatihan kumpulan otak yang akan, pada saatnya, menciptakan sistem yang dapat menentukan makna pernyataan seperti yang dapat dididik orang dari tiga sumber petunjuk.
- Konteks dalam percakapan atau skenario sosial
- Infleksi vokal pembicara
- Ekspresi wajah dan bahasa tubuh pembicara
Beyond Chess dan The Game of Go
Sepanjang jalan dari permainan ke sistem bahasa dengan pemahaman yang akurat dan kemampuan mendengarkan yang lebih dalam ada beberapa aplikasi pembelajaran yang diperkuat yang jauh lebih penting bagi bumi dan pengalaman manusia.
- Sistem yang mempelajari cara mematikan atau menipiskan lampu, peralatan, sistem digital, HVAC, dan perangkat konsumsi energi lainnya - Energi mungkin merupakan komoditas yang paling berpengaruh secara geo-politik dalam sejarah manusia karena penipisan sumber daya bahan bakar fosil dari waktu ke waktu.)
- Pengembangan kendaraan otonom - Tren berbahaya dari pengoperasian alat-alat berat, seperti pesawat terbang, RV, truk, bus, dan trailer traktor oleh orang-orang yang tidak diketahui cara berpikirnya di jalan terbuka kemungkinan akan dipandang kembali oleh orang-orang di masa depan sebagai kegilaan.
- Peringkat keandalan informasi - Informasi ada di mana-mana dan lebih dari 99% kesalahan, baik sebagian atau seluruhnya. Sangat sedikit yang disahkan oleh penelitian nyata, baik yang dirancang dan ditafsirkan dengan benar studi acak ganda-buta atau pengujian laboratorium yang dapat dikonfirmasi dan analisis.
- Aplikasi perawatan kesehatan yang mendiagnosis lebih baik, menyesuaikan pengobatan untuk individu, dan membantu dengan perawatan berkelanjutan untuk mencegah kekambuhan.
Keempat dan banyak lainnya jauh lebih penting daripada akumulasi kekayaan melalui perdagangan kecepatan tinggi otomatis atau memenangkan kompetisi permainan, dua minat pembelajaran mesin yang berpusat pada diri sendiri yang hanya berdampak pada satu atau dua generasi keluarga satu orang.
Kekayaan dan ketenaran adalah apa yang dalam teori permainan disebut permainan zero sum . Mereka menghasilkan kerugian sebanyak ada kemenangan jika Anda mempertimbangkan filosofi Peraturan Emas yang lebih tinggi bahwa orang lain dan keluarga mereka sama pentingnya bagi kami.
Reinforced Learning untuk Perangkat Lunak CAD (Computer Aided Design)
Desain berbantuan komputer adalah cikal bakal desain komputer (tanpa bantuan manusia), seperti halnya anti-lock yang secara alami mengarah pada kendaraan yang sepenuhnya otonom.
Pertimbangkan perintah, "Buatkan saya sabun cuci piring untuk mandi saya yang memaksimalkan kemungkinan keluarga saya bisa mengambil sabun pada percobaan pertama tanpa membuka mata mereka dan meminimalkan kesulitan dalam menjaga sabun dan permukaan shower bersih. Berikut adalah ketinggian dari anggota keluarga saya dan beberapa gambar ruang mandi. " Kemudian printer 3D akan mengeluarkan perangkat, siap untuk dipasang, bersama dengan instruksi instalasi.
Tentu saja, sistem CD seperti itu (CAD tanpa A) perlu dilatih tentang tata graha, perilaku manusia tanpa visi, cara melampirkan item ke ubin, alat dan kemampuan perawatan rumah dari konsumen rata-rata, kemampuan printer 3D , dan beberapa hal lainnya.
Perkembangan semacam itu dalam otomasi pembuatan mungkin akan dimulai dengan pembelajaran yang diperkuat dari perintah yang lebih sederhana seperti, "Pasang kedua bagian ini menggunakan pengencang yang diproduksi massal dan praktik terbaik." Program CAD kemudian akan memilih perangkat keras dari antara sekrup, paku keling, perekat, dan opsi lainnya, mungkin mengajukan pertanyaan kepada perancang tentang suhu operasi dan rentang getaran. Pilihan, posisi, dan sudut kemudian akan ditambahkan ke set yang sesuai dari bagian CAD dan gambar perakitan dan tagihan bahan.