Teori Skala Ruang Memahami


10

Dalam teori skala-ruang representasi skala-ruang dari sinyal , (dalam hal gambar ) diberikan sebagai: mana adalah kernel gaussian dengan parameter dan adalah konvolusi. Dengan mengubah parameter kami menerima gambar yang lebih halus. Sebagai representasi hasil kasar (parameter ) tidak akan berisi objek kecil atau noise.d = 2 L ( x , y ; t ) = g ( x , y ; t ) * f ( x , y ) g ( x , y ; t ) t t tf(x),x=(x1,...,xd)d=2L(x,y;t)=g(x,y;t)f(x,y)g(x,y;t)ttt

Poin utamanya adalah menemukan cara pendeteksian fitur invarian skala, kan? Sehingga untuk beberapa gambar pada ukuran salinannya dikurangi, fitur-fitur seperti keypoints akan dideteksi dengan benar, bahkan jika ukurannya berbeda, tanpa menemukan keypoint noise lainnya.

  1. Di koran mereka menggunakan -normalisasi turunan. . Apa arti dari menggunakan turunan -normalisasi, bagaimana hal ini membantu dalam skala-invarian?δ ξ , γ - n o r m = t γ / 2 δ x γγδξ,γnorm=tγ/2δxγ

  2. Dari gambar ini kita dapat melihat bahwa di dekat posisi yang sama ditemukan titik kunci berbeda (ukurannya berbeda). Bagaimana mungkin?

Fitur yang terdeteksi

Jika Anda dapat menjelaskan algoritme langkah-demi-langkah dari pendeteksian fitur invarian skala, ini akan bagus. Apa yang sebenarnya dilakukan? Derivatif dapat diambil dengan atau . Blob dapat dideteksi dengan mengambil turunan dari dengan variabel . Bagaimana turunan oleh membantu di sini?t L ( x , y ) tx,ytL(x,y)t

Makalah yang saya baca adalah: Deteksi fitur dengan pemilihan skala otomatis

Jawaban:


3
  1. Ini benar-benar telah lama sejak saya telah membaca surat-surat Lindeberg, sehingga notasi terlihat sedikit aneh. Akibatnya, jawaban awal saya salah. bukan level skala. Tampaknya menjadi semacam parameter yang dapat disetel. Memang benar bahwa Anda perlu melipatgandakan turunannya dengan kekuatan . itu sendiri sesuai dengan tingkat skala, dan daya tergantung pada urutan turunannya.t tγtt

  2. Anda dapat menemukan titik kunci pada berbagai skala di lokasi yang sama. Itu karena Anda mencari maxima lokal atas timbangan. Inilah intuisinya: pikirkan gambar wajah. Pada skala yang baik Anda mendapatkan gumpalan yang sesuai dengan hidung. Pada skala kursus Anda mendapatkan gumpalan yang sesuai dengan seluruh wajah. Kedua gumpalan dipusatkan pada titik yang sama, tetapi memiliki skala yang berbeda.

  3. Berikut adalah keseluruhan algoritma:

    • Tentukan fitur gambar yang Anda minati (mis. Gumpalan, sudut, tepi)
    • Tentukan "fungsi detektor" yang sesuai dalam hal turunan, misalnya Laplacian untuk blob.
    • Hitung turunan yang Anda butuhkan untuk fungsi detektor Anda di berbagai skala.
    • Lipat gandakan respons turunan dengan , dengan adalah urutan turunannya, untuk mengimbangi penurunan besarnya. mtmγ/2m
    • Hitung fungsi detektor pada seluruh ruang skala.
    • Temukan maksimum lokal dari fungsi detektor di atas .x,y,t
    • Ini adalah poin minat Anda, atau keypoints.

Edit:

  1. Lindeberg membuktikan dalam makalah bahwa adalah faktor yang tepat untuk normalisasi turunan. Saya rasa saya tidak bisa mereproduksi buktinya di sini.tγ/2
  2. Anda tidak mengambil turunan sehubungan dengan . Anda hanya menghitung turunan sehubungan dengan dan , tetapi Anda menghitungnya pada berbagai skala. Salah satu cara untuk berpikir tentang ini adalah Anda menghasilkan ruang skala Gaussian terlebih dahulu, dengan berulang kali mengaburkan gambar dengan filter Gaussian dari beberapa varian . Kemudian hitung turunan sehubungan dengan dan pada setiap tingkat skala.x y t x ytxytxy
  3. Anda ingin menemukan skala maxima lokal karena Anda mungkin memiliki fitur gambar dengan ukuran berbeda di lokasi yang sama. Pikirkan gambar lingkaran konsentris, seperti mata lembu. Ini akan memberi Anda respons tinggi seorang Laplacian di beberapa skala. Atau pikirkan gambar mata manusia nyata yang difilter oleh seorang Laplacian pada berbagai skala. Anda akan mendapatkan respons tinggi pada skala halus untuk murid, respons tinggi dan skala menengah untuk iris, dan respons tinggi pada skala kasar untuk seluruh mata.

Intinya adalah bahwa Anda tidak tahu pada skala apa fitur menarik mungkin dari waktu ke depan. Jadi Anda melihat semua skala.


1. Bagaimana kami menyatakan bahwa adalah pengganda yang cukup untuk membuat respons turunan benar-benar dinormalisasi? 2. Saya pikir turunan oleh diambil untuk menemukan parameter mana maksimum tercapai. Untuk menemukan skala terbaik. Jadi saat Anda menulis sepertinya saya harus menghitung turunan dengan pada seluruh rentang yang dipilih. Dan sebagai hasilnya saya akan menemukan (dengan mengambil turunan dengan ) fitur pada skala yang berbeda. Baik? t t t x , ytγ/2tttx,y
maximus

Dan seperti yang Anda tulis di 3: Temukan maxima lokal dari fungsi detektor di atas Mengapa kita perlu mencari maxima lokal dengan t? Bisakah Anda jelaskan langkah itu secara detail? Sebenarnya bagaimana turunan oleh digunakan di sini? tx,y,tt
maximus

@mimimus Silakan lihat edit untuk jawabannya.
Dima

@ Maximus, saya salah sebelumnya. gamma bukan level skala. Saya sudah memperbaiki jawabannya.
Dima
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.