Saya akan melihat pendekatan "kantong kata-kata" atau "kata-kata visual". Ini semakin banyak digunakan untuk kategorisasi dan identifikasi gambar. Algoritma ini biasanya dimulai dengan mendeteksi titik-titik kuat, seperti titik SIFT, dalam sebuah gambar. Wilayah di sekitar titik-titik yang ditemukan ini (deskriptor SIFT 128 bit dalam kasus Anda) digunakan.
Dalam bentuk yang paling sederhana, seseorang dapat mengumpulkan semua data dari semua deskriptor dari semua gambar dan mengelompokkannya, misalnya menggunakan k-means. Setiap gambar asli kemudian memiliki deskriptor yang berkontribusi pada sejumlah cluster. Sentroid kluster ini, yaitu kata-kata visual, dapat digunakan sebagai deskriptor baru untuk gambar. Pada dasarnya Anda berharap bahwa kluster gambar berkontribusi untuk deskriptornya, merupakan indikasi kategori gambar.
Sekali lagi, dalam kasus yang paling sederhana, Anda memiliki daftar cluster, dan per gambar, Anda menghitung cluster mana yang berisi deskriptor dari gambar itu dan berapa banyak. Ini mirip dengan Term Frequency / Inverse Document Frequency (TD / IFD) metode yang digunakan dalam pencarian teks. Lihat skrip Matlab cepat dan kotor ini .
Pendekatan ini diteliti secara aktif dan ada banyak algoritma yang lebih maju.
Situs web VLfeat berisi demo yang lebih canggih dari pendekatan ini, mengklasifikasikan dataset caltech 101. Yang juga patut diperhatikan, adalah hasil dan perangkat lunak dari Caltech sendiri.