Bisakah jaringan saraf bekerja di luar konsep jarak?


10

Bayangkan sebuah game di mana itu adalah layar hitam selain dari piksel merah dan piksel biru. Mengingat permainan ini untuk manusia, pertama-tama mereka akan melihat bahwa menekan tombol panah akan memindahkan piksel merah. Hal berikutnya yang akan mereka coba adalah memindahkan piksel merah ke piksel biru.

Berikan game ini ke AI, itu akan secara acak memindahkan pixel merah sampai satu juta mencoba nanti secara tidak sengaja pindah ke pixel biru untuk mendapatkan hadiah. Jika AI memiliki beberapa konsep jarak antara piksel merah dan biru, ia mungkin mencoba meminimalkan jarak ini.

Tanpa benar-benar memprogram dalam konsep jarak, jika kita mengambil piksel permainan, dapatkah kita menghitung angka, seperti "entropi", yang akan lebih rendah ketika piksel berjauhan daripada saat berdekatan? Ini harus bekerja dengan konfigurasi piksel lainnya. Seperti game dengan tiga piksel di mana satu bagus dan satu buruk. Hanya untuk memberikan jaringan saraf lebih banyak rasa bagaimana tampilan layar? Kemudian berikan NN tujuan, seperti "cobalah untuk meminimalkan entropi papan serta mencoba untuk mendapatkan hadiah".

Apakah ada yang serupa dengan ini dalam penelitian saat ini?


Saya tidak berpikir Anda akan langsung memberi makan gambar dan memilikinya menemukan jarak ... Sebaliknya Anda akan memberinya makan satu set angka yang mewakili jarak, jarak vertikal, jarak horizontal, dll.
FreezePhoenix

@Po ya, tetapi Anda harus memberinya nilai yang berbeda untuk setiap jenis "game". Sedangkan yang saya katakan adalah, dapatkah kita memiliki beberapa jenis nilai global yang tinggi ketika piksel dikelompokkan bersama dan rendah ketika piksel ditempatkan terpisah?
zooby

"Hal berikutnya yang akan mereka coba adalah memindahkan piksel merah ke piksel biru." mungkin untuk tidak akan "merah" dan "biru" yang paling sering adalah musuh sehingga Anda akan mulai meningkatkan jarak sebelum pemberitahuan piksel biru Anda.
Lee

Jawaban:


1

Menjawab

Saya akan menjawab pertanyaan Anda begitu saja, dan masuk ke dalam topik ini.

Ya mereka bisa. Pikiran manusia yang khas bisa. Tetapi pertimbangkan pikiran manusia. Jutaan, jika bukan miliaran , neuron. Bahkan, seseorang dapat menganggap jarak sebagai konsep manusia, hanya sebuah teori yang dikembangkan dari interaksi dengan dunia.

Karena itu, mengingat satu atau dua tahun, dengan satu ton neuron di tangan Anda, Anda dapat meniru skenario ini. Itu jika komputer Anda sejajar dengan pikiran manusia. Penjelasan singkatnya adalah bahwa pikiran manusia sangat paralel.

Namun, akan lebih mudah untuk menghitung jarak dengan suatu program, bukan AI, dan hanya memberi makan hasilnya ke AI yang akan membuat keputusan.

Pertimbangkan jumlah waktu yang Anda habiskan untuk melihat layar. Jika Anda dapat mengetahui jarak (perkiraan) antara dua piksel, demikian juga dengan Neural Network, karena Anda adalah satu. Namun, tambahkan jumlah waktu yang Anda habiskan hidup-hidup dan pelajari persamaannya, dan itu menjadi bencana.

Bacaan lebih lanjut

Otak manusia paralel

Ini adalah hasil dari kenyataan bahwa semua neuron di otak manusia saling independen satu sama lain. Mereka dapat menjalankan tindakan simultan yang benar , sehingga membuat tindakan menafsirkan gambar dan jauh lebih mudah, karena blok neuron dapat "berpikir" independen dari operasi yang lain, membatasi apa yang akan "tertinggal" ke jumlah yang sangat kecil.


1

Anda dapat membuat AI untuk "melihat" sebagai manusia. Seperti yang Anda katakan, memberi manusia kunci, dia akan mengklik secara acak. Dia hanya perlu tahu tombol mana yang dia tekan yang membawanya lebih dekat ke objek lain di layar. Saya pikir dasar-dasar AI adalah pengenalan objek. Saya akan mencoba membuat skrip untuk memetakan objek layar permainan. Ada contoh hukum dalam Python.

Saya akan mencoba mengikuti jalan seperti ini:

  • Buat AI mengerti bahwa dengan mengklik panah atau WASD dan itu dalam konteks GAME, objek yang memindahkan piksel sesuai dengan arahnya, mewakili penulis utama (pemain).

  • Secara paralel: memetakan semua batas wilayah dan mengindeks objek yang berbeda dalam wilayah tersebut untuk secara otomatis memiliki koordinat domain dan jarak objek. AI perlu MELIHAT (streaming) game dan melalui gambar untuk mengkategorikan objek. Apakah Anda mengerti maksud saya?

  • Secara paralel: AI perlu mengetahui semua teks dan informasi yang ada di layar (semua dipetakan, ingat?). Anda perlu memahami kapan teks berubah atau sesuatu yang berbeda terjadi. Misalnya: setiap kali ia kembali ke posisi awal setiap fase, setiap kali ia memiliki hitungan, apa yang terjadi ketika cout mencapai nol atau angka umum yang menghasilkan jenis perubahan lain.

  • Dia perlu memahami apa yang diulang pada setiap "respawn". Anda juga perlu memahami apa itu "respawn". Mungkin posisi peta tertentu pada setiap peta yang dikembalikan kapan pun hitungan di layar berakhir. Atau ketika muncul terhadap jenis objek tertentu (objek yang dipetakan)

Sejujurnya, jika Anda ingin membuat robot super cerdas, Anda bisa mengikuti semua langkah yang melewati kepala manusia yang berbeda, atau manusia terbaik, atau aturan dari setiap permainan. Tetapi kadang-kadang lebih mudah untuk membangun bot khusus untuk melakukan tugas tertentu. Itu tergantung pada apa yang ingin Anda lakukan


Dia tidak bertanya bagaimana Anda akan melakukannya, tetapi Anda dapat melakukannya.
FreezePhoenix

Dimungkinkan untuk melakukannya dengan beberapa cara. Saya melewati cara yang akan saya ambil untuk membuat template. Ini bukan teori, itu adalah proses yang dapat mencakup proses lain sesuai dengan evolusi AI.
Guilherme IA

1

Apa yang Anda sebutkan adalah contoh sempurna untuk perencanaan jalur , yang banyak diteliti dalam AI.

Silakan cari algoritma bintang-A dan cara meningkatkannya dengan jaringan saraf :)


1

Kami dapat memecah masalah sebagai berikut:

Pertama, jika Anda memiliki dua titik di pesawat dan mengumpankan koordinat titik-titik tersebut ke jaringan saraf (misalnya, vektor ) dan dan latihlah pada label yang jarak sebenarnya (misalnya, ), itu harus dapat mempelajari hubungan ini dengan akurasi mendekati sewenang-wenang.<x0,y0,x1,y1>(x0y0)2+(x1y1)2

Selanjutnya, jika Anda memiliki gambar yang mirip dengan apa yang Anda gambarkan, dan mengumpankannya melalui jaringan saraf yang berbeda (misalnya, CNN), dan sebagai label Anda menggunakan titik-titik dari dua titik (sekali lagi ), maka itu harus dapat mempelajari hubungan itu dengan akurasi yang sewenang-wenang sekali lagi.<x0,y0,x1,y1>

Tentu saja, tidak ada alasan untuk melakukan ini dalam dua jaringan saraf yang terpisah, jadi kita hanya bisa menggabungkan dua ujung ke ujung memiliki model yang mengambil gambar sebagai input dan jarak sebagai output.

Model ini perlu dilatih tentang data berlabel, jadi Anda harus membuat data sendiri atau memberi label gambar.

Tetapi jika Anda ingin mempelajari gagasan menutup jarak dengan cara yang kurang diawasi, Anda harus menggunakan pembelajaran penguatan. Dalam hal ini, Anda harus menyiapkan lingkungan yang memberi insentif agen untuk mengurangi jarak. Ini bisa sesederhana mendapatkan hadiah jika suatu tindakan mengurangi jarak.

Pendekatan lain adalah memberi insentif kepada agen dengan menggunakan hadiah di masa depan. Artinya, hadiah itu tidak hanya datang dari hasil keadaan cepat berikutnya, tetapi ada juga kontribusi dari keadaan selanjutnya yang mungkin, dan yang setelah itu, dan seterusnya. Ini adalah ide di balik Deep Q-Learning, dan saya menerapkan contoh sederhana (sangat mirip dengan apa yang Anda gambarkan) di notebook ini .

Jadi, sekarang pertanyaannya adalah: sudahkah implementasi ini melakukan sesuatu selain bergerak secara acak sampai mengikuti jalan menuju kesuksesan?

Dalam contoh Anda, Anda berbicara tentang memberi penghargaan kepada agen ketika agen itu mendarat di tujuan. Tetapi dalam apa yang saya jelaskan, itu mendapatkan hadiah dengan bergerak lebih dekat ke tujuan (baik melalui Fungsi-Q atau langsung dari lingkungan). Hal ini dapat dilakukan dengan mempelajari beberapa gagasan abstrak jarak (yang dapat diilustrasikan dalam versi yang diawasi).

Ketika seorang manusia mengetahui hal ini, itu karena alasan yang persis sama: manusia mendapatkan hadiah karena bergerak ke arah itu melalui rasa imbalan di masa depan.

Saya akan mengatakan bahwa, dengan cukup pelatihan dan data, pembelajaran penguatan dapat mempelajari konsep ini dengan mudah. Sejauh hadiah lain hadir di papan tulis (misalnya, "meminimalkan entropi papan tulis dan juga mencoba untuk mendapatkan hadiah"), Anda perlu memikirkan apa yang Anda minta. Apakah Anda lebih suka agen meminimalkan jarak atau memaksimalkan hadiah? Karena, secara umum, tidak bisa melakukan keduanya. Jika Anda mencari keseimbangan di antara keduanya, maka Anda benar-benar hanya mendefinisikan ulang hadiah untuk juga mempertimbangkan jarak.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.