CNN bisa menjadi pilihan yang baik untuk tugas ini jika Anda mengharapkan variasi dalam skala gambar asli, pencahayaan rotasi dll, dan juga memiliki banyak data pelatihan.
Arsitektur CNN yang biasa adalah memiliki lapisan konvolusional dekat dengan input, dan lapisan yang sepenuhnya terhubung dalam output. Lapisan-lapisan yang terhubung sepenuhnya dapat mengatur output untuk tugas klasifikasi atau regresi yang berbeda sesuai keinginan Anda. Memprediksi nilai parameter yang menggambarkan gambar adalah tugas regresi.
Jika Anda menginginkan ukuran ukuran yang akurat, Anda mungkin perlu menghindari penggunaan lapisan pengumpulan maks. Sayangnya, tidak menggunakan pooling akan membuat jaringan Anda lebih besar dan lebih sulit untuk dilatih - Anda mungkin akan pergi dengan belokan melilit bukan jika itu masalah bagi Anda.
Jika gambar input Anda sangat sederhana dan jelas (karena selalu dihasilkan oleh komputer), maka pendekatan lain mungkin lebih dapat diandalkan. Anda mungkin dapat merekayasa balik produksi gambar dan memperoleh aturan sederhana seperti mengidentifikasi garis, sudut, lingkaran, dan komponen gambar yang mudah disaring lainnya, serta melakukan pengukuran langsung. Mungkin juga ada jalan tengah dalam kompleksitas di mana mengekstraksi data ini sebagai fitur dan menggunakannya untuk melatih NN sederhana (atau model ML lainnya) akan memiliki kinerja yang baik.