Pertama, terima kasih telah memposting pertanyaan yang sangat menarik.
Untuk menjawabnya sesaat, sebuah vanilla convnet yang melatih ujung-2-ujung untuk memprediksi usia dari sebuah foto pada umumnya cenderung salah mengelompokkan gambar-gambar seperti yang Anda posting . Kedua, perhatikan bahwa memperkirakan secara akurat usia seseorang adalah tugas yang hampir mustahil 1 .
Perbedaan utama dari pendekatan yang Anda usulkan menggunakan beberapa detektor objek (baik itu RCNN, RCNN lebih cepat, YOLO atau SSD) adalah bahwa Anda menggunakan informasi yang berbeda untuk melatih model. CNN hanya dilatih pada gambar dan perlu mencari tahu semua fitur yang diperlukan itu sendiri. Kemungkinan besar akan menemukan berbagai fitur wajah, tetapi juga akan bergantung pada pakaian dan mungkin fitur adegan (anak-anak mungkin sering dalam gambar dengan beberapa mainan, orang dewasa akan lebih mungkin di lingkungan kantor, dll). Fitur-fitur ini tidak akan kuat pada sampel tandingan Anda.
Di sisi lain, jika Anda melatih jaringan untuk secara eksplisit mendeteksi objek sebagai "batang tubuh" dan "kepala", Anda memberikan informasi tambahan bahwa objek-objek ini penting untuk tugas tersebut, dan dengan demikian menyederhanakan masalah 2 .
Sementara pendekatan mendeteksi kepala dan batang dan kemudian mengevaluasi rasio ukuran kotak pembatas terdengar menarik, saya dapat melihat beberapa kendala:
- Memperoleh data: Saya tidak mengetahui ketersediaan dataset besar di mana usia dan kotak pembatas akan hadir.
- Imperfect FOV: Pada sebagian besar gambar (mis. Kedua contoh Anda), orang-orang tidak ditampilkan secara keseluruhan. Anda harus berurusan dengan fakta bahwa kotak pengikat batang tubuh tidak akan selalu sempurna hanya karena bagian dari orang tersebut tidak ada dalam gambar dan jaring harus menebak seberapa besar bagian yang hilang (dan kotak kotak pengikat kebenaran tanah akan paling kemungkinan tidak menangkap informasi ini). Juga, detektor objek yang disebutkan di atas tidak selalu menangani prediksi objek parsial dengan benar. Ini mungkin menimbulkan terlalu banyak noise pada model.
- Berbagai pose: Rasio torso-to-head akan sangat berbeda untuk orang-orang yang dilihat dari depan dan dari samping.
- Dewasa: Tampaknya rasio ini berfungsi baik untuk memprediksi usia antara 0-21, tetapi saya tidak melihat bagaimana hal itu akan membantu untuk memprediksi usia orang dewasa (saya kira rasionya tidak berubah pada usia yang lebih tinggi).
Semua masalah ini menunjukkan bahwa pendekatan rasio head-to-torso juga tidak akan bekerja dengan sempurna, meskipun mungkin lebih kuat untuk sampel tandingan khusus Anda.
Saya kira cara terbaik untuk melakukan tugas ini adalah 1) mendeteksi wajah, 2) memperkirakan usia hanya dari tanaman wajah (menghilangkan informasi yang berpotensi menyesatkan). Perhatikan bahwa beberapa arsitektur mirip R-CNN menggunakan penyatuan ROI dapat dilatih untuk melakukan ini ujung-2-akhir.
1 Bahkan menggunakan metode medis yang sangat canggih (yang bisa dibilang jauh lebih informatif daripada foto orang itu) ini tidak mungkin dilakukan secara akurat. Lihat utas Quora ini untuk informasi lebih lanjut .
2 Periksa artikel Pengetahuan Penting: Pentingnya Informasi Sebelumnya untuk Optimasi sebagai contoh bagaimana memberikan pengetahuan menengah tentang tugas dapat sangat menyederhanakan pembelajaran.