Dimensi-Hopping dalam Pembelajaran Mesin


10

Apa masalah dimensi hopping dalam pembelajaran mesin (terjadi dalam jaringan saraf convolutional dan pengenalan gambar)? Saya sudah googled tentang hal itu tetapi yang saya dapatkan hanyalah informasi tentang Fisika dari deformasi bentuk material. Akan lebih bermanfaat bagi saya jika seseorang menjelaskannya dengan contoh yang terkait dengan pembelajaran mesin. Adakah yang bisa membantu saya dengan ini atau mengarahkan saya ke sumber daya yang bisa?

Jawaban:


7

Selamat datang di DataScience.SE! Saya belum pernah mendengar masalah ini, jadi saya mencarinya. Dijelaskan pada slide ketiga presentasi ini oleh Geoff Hinton:

Lebih banyak hal yang membuatnya sulit untuk mengenali objek

• Perubahan sudut pandang menyebabkan perubahan pada gambar yang tidak bisa diatasi oleh metode pembelajaran standar.

- Informasi melompat antara dimensi input (yaitu piksel)

• Bayangkan sebuah database medis di mana usia pasien kadang-kadang melompat ke dimensi input yang biasanya mengkode bobot!

- Untuk menerapkan pembelajaran mesin, kami pertama-tama ingin menghilangkan dimensi-lompatan ini.

Dengan kata lain, ini tentang fitur konseptual yang bermigrasi atau melompat dari satu dimensi fitur input ke yang lain sambil tetap mewakili hal yang sama. Seseorang ingin dapat menangkap atau mengekstraksi esensi dari fitur sementara tidak berubah pada dimensi input mana yang dikodekan.


Saya mengerti bahwa dalam Computer Vision seseorang ingin menjadi invarian untuk tempat-tempat dalam gambar, tetapi saya tidak mendapatkan contoh umur.
Martin Thoma

Saya menganggap bahwa usia dan berat badan tergantung, tetapi saya tidak yakin; ini bukan presentasi saya! Atau mungkin itu berarti mereka benar-benar menggunakan kolom yang salah dan kami ingin mendeteksi itu.
Emre

@ mimpi saya hanya berkomentar; Emre memberikan jawabannya. (Tapi Anda mungkin masih harus menerimanya). Poin dengan CNN adalah bahwa tidak hanya satu fitur yang berubah ketika suatu objek berada di tempat lain, tetapi pola yang lengkap berada pada input yang berbeda.
Martin Thoma

@Emre, apa yang saya dapatkan dari jawaban Anda adalah bahwa, tidak peduli dari arah mana properti tertentu dimasukkan, fitur yang menyebabkan properti spesifik ini harus tidak berubah terhadap dimensi input dari properti ini. Terima kasih! :) Masih menunggu jawaban yang lebih spesifik, jika tidak akan menandai balasan Anda sebagai jawaban.
sdream

3
Contoh usia seharusnya menyoroti dataset yang tidak memiliki dimensi-hopping. Usia dan berat tidak "melompat" atau menukar nilai secara acak di antara contoh - mereka tidak dapat dipertukarkan dan contoh ini menunjukkan betapa anehnya hal itu (dan betapa sulitnya membuat tugas-tugas sederhana seperti regresi linier). Nilai piksel dalam gambar (dan data serupa di banyak tugas pemrosesan sinyal) melakukan pertukaran atau pemindahan dengan mudah karena sifat masalahnya.
Neil Slater

7

Sejauh yang saya pahami masalahnya adalah sebagai berikut: Dalam pengenalan gambar, input ke jaringan Anda bisa berupa piksel (skala abu-abu atau hanya 1 dan 0 untuk hitam dan putih). Jika Anda ingin, misalnya mengenali angka tulisan tangan, sangat sulit untuk hanya bekerja dengan nilai-nilai seperti itu karena Anda tidak pernah tahu di mana tepatnya angka (yaitu nilai hitam) akan berada.

Apakah piksel 140 hitam atau 142 hitam? Dalam kedua kasus itu bisa jadi tiga. Dalam contoh umur / berat, input ini didefinisikan dengan baik. Fitur 2 adalah berat. Fitur 3 adalah usia. "Dimensi" ini seharusnya tidak "melompat" dalam dataset Anda.

Jadi: Dalam pelatihan gambar Anda, "bertiga" atau "mobil" atau "rumah" harus diakui independen dari lokasi mereka dalam gambar, yaitu nilai piksel, yaitu vektor fitur / input, yaitu dimensi yang berlawanan dengan yang ditentukan dengan jelas input seperti data pasien.

Bagaimana Anda mengatasi ini dalam pengenalan gambar? Anda menggunakan trik tambahan, misalnya konvolusi.


2

Saya membaca jawaban sebelumnya, dan komentar Neil Slater untuk posting Emre, disalin lagi di bawah ini, menyentuh kuku. "Dimension hopping" adalah istilah yang dibuat oleh Dr. Hinton tentang ketenaran pelopor pembelajaran mesin dalam konteks sudut pandang. Mengutip Dr. Hinton "Jadi, biasanya bayangkan dimensi input sesuai dengan piksel, dan, jika suatu objek bergerak di dunia dan Anda tidak menggerakkan mata Anda untuk mengikutinya, informasi tentang objek tersebut akan muncul pada piksel yang berbeda." Usia dan berat adalah dimensi input yang tidak mudah bingung. Dr. Hinton menggunakan ini jelas TIDAK kemungkinan dimensi dari situasi usia dan berat pasien yang berarti kita pasti akan dapat menemukan dan memperbaiki kesalahan di antara tipe data ini (Sulit untuk tidak memperhatikan bahwa kebanyakan orang dewasa berusia di bawah 100 tahun dan lebih dari 100 pound). Masalah yang mungkin timbul dari dimensi hopping, yang ditangani oleh Dr. Hinton, adalah piksel dapat dipindahkan karena kita memiliki sudut pandang yang berbeda (mis. Objek dapat bergerak atau kita melihatnya dari sudut yang berbeda). Jaringan neural linier tidak akan dapat mendeteksi ini, sedangkan jaringan saraf convolutional dengan desain akan.

"Contoh usia seharusnya menyoroti dataset yang tidak memiliki dimensi-hopping. Usia dan berat tidak" melompat "atau menukar nilai secara acak di antara contoh - mereka tidak dapat dipertukarkan dan contoh ini menunjukkan betapa anehnya itu (dan bagaimana sulitnya akan membuat tugas-tugas sederhana seperti regresi linier) .Nilai pixel dalam gambar (dan data serupa dalam banyak tugas pemrosesan sinyal) melakukan pertukaran atau perpindahan dengan mudah karena sifat masalahnya. - Neil Slater 29 Mei 16 'pukul 18:01 "


1

Penjelasan langsung dari kursus Hinton tentang Jaringan Saraf untuk Pembelajaran Mesin ....

"Dimensi melompat terjadi ketika seseorang dapat mengambil informasi yang terkandung dalam dimensi beberapa input, dan memindahkan ini di antara dimensi tanpa mengubah target . Contoh kanonik mengambil gambar digit tulisan tangan dan menerjemahkannya di dalam gambar. Dimensi yang mengandung "tinta" sekarang berbeda (telah dipindahkan ke dimensi lain), namun label yang kami tetapkan untuk digit tersebut tidak berubah. Perhatikan bahwa ini bukan sesuatu yang terjadi secara konsisten di seluruh dataset, yaitu kita mungkin memiliki dataset yang berisi dua digit tulisan tangan di mana satu adalah versi terjemahan yang lain, namun ini masih tidak mengubah label yang sesuai dari digit tersebut. "


0

Berharap hanya tentang masalah dengan bagian gambar atau piksel bergerak dalam dimensi (sebagian besar) dan kadang-kadang menjadi redup lainnya (bidang reseptif berbeda) tetapi output tetap sama.

Masalah ini ditangani dengan invarian atau kesetaraan dan sepertinya contoh berat dan usia adalah cara mudah untuk menyatakan. Misalkan jika kita mengetahui berat badan dan usia ini, kita akan dengan mudah melakukan perubahan pada algo dan mendapatkan hasil yang benar. Tetapi seperti data / informasi hopping, gambar hopping juga terjadi, jika kita menganggap '4' dan '4' menggeser beberapa piksel ke kiri menjadi kelas yang berbeda yang memiliki target berbeda.

Dengan Penerjemahan Invarian atau penyetaraan yang lebih baik, filter atau pergerakan ini tidak banyak masalah meskipun meningkatkan kompleksitas dan dengan biaya membuang informasi, seperti lokasi.

Tolong beri tahu saya jika Anda perlu kejelasan lebih lanjut.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.