Sejauh yang saya pahami masalahnya adalah sebagai berikut: Dalam pengenalan gambar, input ke jaringan Anda bisa berupa piksel (skala abu-abu atau hanya 1 dan 0 untuk hitam dan putih). Jika Anda ingin, misalnya mengenali angka tulisan tangan, sangat sulit untuk hanya bekerja dengan nilai-nilai seperti itu karena Anda tidak pernah tahu di mana tepatnya angka (yaitu nilai hitam) akan berada.
Apakah piksel 140 hitam atau 142 hitam? Dalam kedua kasus itu bisa jadi tiga. Dalam contoh umur / berat, input ini didefinisikan dengan baik. Fitur 2 adalah berat. Fitur 3 adalah usia. "Dimensi" ini seharusnya tidak "melompat" dalam dataset Anda.
Jadi: Dalam pelatihan gambar Anda, "bertiga" atau "mobil" atau "rumah" harus diakui independen dari lokasi mereka dalam gambar, yaitu nilai piksel, yaitu vektor fitur / input, yaitu dimensi yang berlawanan dengan yang ditentukan dengan jelas input seperti data pasien.
Bagaimana Anda mengatasi ini dalam pengenalan gambar? Anda menggunakan trik tambahan, misalnya konvolusi.