Berikut ini adalah dari makalah Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).
Salah satu pendekatan yang jelas akan menjadi sampel intensitas gambar lokal di sekitar titik kunci pada skala yang sesuai, dan untuk mencocokkan ini menggunakan ukuran korelasi normalisasi. Namun, korelasi sederhana tambalan gambar sangat sensitif terhadap perubahan yang menyebabkan misregistrasi sampel, seperti perubahan sudut pandang 3D atau sudut pandang yang halus atau deformasi yang tidak kaku. Pendekatan yang lebih baik telah ditunjukkan oleh Edelman, Intrator, dan Poggio (1997). Representasi yang diusulkan didasarkan pada model penglihatan biologis, khususnya neuron kompleks pada korteks visual primer.Neuron kompleks ini merespons gradien pada orientasi dan frekuensi spasial tertentu, tetapi lokasi gradien pada retina diizinkan untuk bergeser pada bidang reseptif kecil daripada dilokalisasi secara tepat. Edelman et al. berhipotesis bahwa fungsi neuron kompleks ini memungkinkan untuk pencocokan dan pengenalan objek 3D dari berbagai sudut pandang.
Saya mencoba memahami deskriptor SIFT. Saya mengerti tahap sebelumnya (keypoint detector).
Saya tidak tahu mengapa itu diterapkan seperti itu. Saya ingin tahu cerita di balik cerita itu.