Kata-kata kunci di sini adalah prior dan skala . Sebagai contoh sederhana, bayangkan Anda mencoba memprediksi usia seseorang dari sebuah foto. Dengan set data gambar dan usia, Anda dapat melatih model pembelajaran mendalam untuk membuat prediksi. Ini secara objektif sangat tidak efisien karena 90% dari gambar tidak berguna, dan hanya wilayah dengan orang yang benar-benar berguna. Khususnya, wajah orang itu, tubuh mereka dan mungkin pakaian mereka.
Di sisi lain, Anda bisa menggunakan jaringan deteksi objek pra-terlatih untuk mengekstrak kotak pembatas pertama untuk orang tersebut, memotong gambar, dan kemudian meneruskannya melalui jaringan. Proses ini akan secara signifikan meningkatkan akurasi model Anda karena sejumlah alasan:
1) Semua sumber daya jaringan (yaitu bobot) dapat fokus pada tugas sebenarnya prediksi usia, sebagai lawan harus terlebih dahulu menemukan orang tersebut terlebih dahulu. Ini sangat penting karena wajah orang tersebut mengandung fitur yang bermanfaat. Jika tidak, fitur yang lebih baik yang Anda butuhkan mungkin hilang di beberapa lapisan pertama. Secara teori jaringan yang cukup besar mungkin bisa menyelesaikan ini, tetapi akan sangat tidak efisien. Gambar yang dipangkas juga jauh lebih teratur daripada gambar aslinya. Sedangkan gambar asli memiliki satu ton suara, itu diperdebatkan perbedaan dalam gambar yang dipotong jauh lebih berkorelasi dengan tujuan.
2) Gambar yang dipangkas dapat dinormalisasi untuk memiliki skala yang sama . Ini membantu jaringan kedua menangani masalah penskalaan, karena dalam gambar asli, orang dapat muncul di dekat atau jauh. Skala normalisasi sebelumnya membuatnya sehingga gambar yang dipangkas dijamin memiliki seseorang di dalamnya yang mengisi gambar yang dipangkas penuh (meskipun terlikuidasi jika mereka jauh). Untuk melihat bagaimana hal ini dapat membantu skala, potongan tubuh yang setengah lebar dan tinggi gambar asli memiliki piksel 4x lebih sedikit untuk diproses, dan karenanya jaringan yang sama yang diterapkan pada gambar ini akan memiliki 4x bidang reseptif jaringan asli di setiap lapisan.
Sebagai contoh, dalam kompetisi paru-paru kaggle, tema umum dalam solusi teratas adalah semacam preprocessing pada gambar paru-paru yang memotongnya sebanyak mungkin dan mengisolasi komponen dari setiap paru-paru. Ini sangat penting dalam gambar 3D karena efeknya kubik: dengan menghapus 20% dari setiap dimensi, Anda menyingkirkan hampir setengah piksel!