Saya bekerja dengan Python, scikit-belajar dan keras. Saya memiliki 3.000 ribu gambar arloji berwajah depan seperti yang berikut: Watch_1 , Watch_2 , Watch_3 .
Saya ingin menulis sebuah program yang menerima input foto jam tangan nyata yang mungkin diambil dalam kondisi yang kurang ideal daripada foto-foto di atas (warna latar yang berbeda, petir yang lebih gelap, dll.) Dan menemukan jam tangan yang paling mirip di antara 3000 yang ada di dalamnya. Dengan kemiripan yang saya maksudkan adalah bahwa jika saya memberikan sebagai input foto jam tangan cokelat bulat dengan renda tipis maka saya berharap sebagai jam tangan keluaran berbentuk bulat, warna gelap dan dengan renda tipis.
Apa algoritma pembelajaran mesin paling efisien untuk melakukan ini?
Misalnya, dengan mengikuti tautan ini, saya memiliki dua solusi berbeda di pikiran saya:
1) Menggunakan CNN sebagai ekstraktor fitur dan membandingkan jarak antara fitur-fitur ini untuk setiap pasangan gambar dengan mengacu pada gambar input.
2) Menggunakan dua CNN dalam Jaringan Saraf Siam untuk membandingkan gambar.
Apakah kedua opsi ini yang terbaik untuk tugas ini atau akankah Anda menyarankan sesuatu yang lain?
Apakah Anda tahu jaringan saraf pra-terlatih (dengan hiperparameter yang ditentukan sebelumnya) untuk tugas ini?
Saya telah menemukan beberapa posting menarik tentang StackOverflow tentang ini tetapi mereka cukup tua: Post_1 , Post_2 , Post_3 .