Perbedaan antara klasifikasi berbasis pixel dan berbasis objek?


14

Saya berjuang untuk memahami dengan jelas perbedaan antara klasifikasi berbasis pixel dan berbasis objek dalam domain penginderaan jauh dan saya berharap seseorang dari komunitas ini dapat memberikan wawasan.

Berdasarkan informasi yang saya miliki sejauh ini, pemahaman saya saat ini sejalan:

Klasifikasi berbasis piksel: Klasifikasi dilakukan pada tingkat per piksel, hanya menggunakan informasi spektral yang tersedia untuk masing-masing piksel tersebut (yaitu nilai piksel dalam lokalitas diabaikan). Dalam pengertian ini setiap piksel akan mewakili contoh pelatihan untuk algoritma klasifikasi, dan contoh pelatihan ini akan dalam bentuk vektor n-dimensi, di mana n adalah jumlah pita spektral dalam data gambar. Dengan demikian, algoritma klasifikasi yang terlatih akan menghasilkan prediksi kelas untuk setiap piksel individu dalam suatu gambar.

Klasifikasi berbasis objek: Klasifikasi dilakukan pada kelompok piksel yang dilokalkan, dengan mempertimbangkan sifat spasial dari masing-masing piksel yang berkaitan satu sama lain. Dalam pengertian ini contoh pelatihan untuk algoritma klasifikasi akan terdiri dari sekelompok piksel, dan algoritma klasifikasi yang terlatih akan menghasilkan prediksi kelas untuk piksel berdasarkan kelompok. Sebagai contoh kasar, gambar mungkin dipartisi menjadi n segmen dengan ukuran yang sama, dan setiap segmen kemudian akan diberi kelas (yaitu berisi objek / tidak mengandung objek).

Apakah pemikiran ini akurat mengenai arti dari istilah-istilah ini, atau adakah sesuatu yang saya lewatkan?

Jawaban:


9

Pemahaman Anda secara umum benar, namun, ada bahaya dalam deskripsi Anda tentang klasifikasi berbasis objek - istilah 'objek' mengacu pada kelompok piksel, bukan apakah itu berisi objek tertentu atau tidak.
Lebih jauh, tujuan utama dalam klasifikasi berbasis objek bukan untuk memiliki segmen dengan ukuran yang sama, tetapi untuk "memotong" / mensegmentasi gambar ke dalam potongan homogen internal dengan ukuran yang bervariasi . Terakhir, contoh pelatihan untuk klasifikasi berbasis objek biasanya akan menjadi satu atau lebih dari potongan yang dibuat dalam segmentasi gambar.

Secara keseluruhan, di atas hanya variasi kecil pada deskripsi Anda.

Sekarang ke bagian tengah - kapan menerapkan masing-masing metode, dan bagaimana cara menggabungkan kekuatan mereka secara potensial.


Terima kasih, itu sangat membantu untuk memperjelas. Saya memiliki kecurigaan bahwa saya tidak begitu mengerti seluk-beluk klasifikasi berbasis objek! Sangat menarik bahwa Anda menyebutkan kemungkinan pendekatan hybrid, saya belum berpikir sejauh itu. Dapatkah saya bertanya, jika saya harus mengambil pendekatan jendela geser untuk mendeteksi dan mengklasifikasikan objek, apakah ada istilah teknis untuk pendekatan seperti itu yang diterapkan dalam domain penginderaan jauh?
RDG

1
ya, ini disebut konvolusi. Lihat jawaban saya.
John Powell

Menurut pendapat saya, tidak ada kekuatan dalam klasifikasi berbasis pixel. Ada alur kerja yang menarik yang melibatkan konvolusi plus regresi untuk memprediksi kotak dan lokasi yang terikat, tetapi klasifikasi berbasis pixel sendiri tidak memiliki nilai, imho.
John Powell

1
@ JohnPowellakaBarça - ada beberapa nilai dalam pendekatan berbasis pixel, ketika mempertimbangkan aplikasi multitemporal, di mana klasifikasi lebih difokuskan pada perubahan area, daripada timestep tunggal tradisional.
Mikkel Lydholm Rasmussen

1
Tentu, ya, cukup adil. Meskipun, bisa dibilang, pendekatan berbasis wilayah, vektor, dan kemudian dibandingkan melalui waktu, dapat menghasilkan wawasan yang berpotensi lebih besar, tetapi poin Anda diambil dengan baik.
John Powell

12

Sejauh klasifikasi berbasis pixel yang bersangkutan, Anda tepat. Setiap piksel adalah vektor n-dimensi dan akan ditetapkan ke beberapa kelas berdasarkan beberapa metrik, baik menggunakan Support Vector Machines, MLE, semacam knn classifier, dll.

Sejauh menyangkut pengklasifikasi berbasis wilayah, ada perkembangan besar dalam beberapa tahun terakhir, didorong oleh kombinasi GPU, data dalam jumlah besar, cloud dan ketersediaan algoritma yang luas berkat pertumbuhan sumber terbuka (difasilitasi oleh github). Salah satu perkembangan terbesar dalam visi / klasifikasi komputer adalah pada jaringan saraf convolutional (CNNs). Lapisan konvolusional "mempelajari" fitur yang mungkin didasarkan pada warna, seperti dengan pengklasifikasi berbasis piksel tradisional, tetapi juga membuat detektor tepi dan semua jenis ekstraktor fitur lain yang dapat ada di wilayah piksel (maka bagian konvolusional) yang Anda tidak dapat mengekstraksi dari klasifikasi berbasis piksel. Ini berarti mereka lebih kecil kemungkinannya untuk mengklasifikasikan salah satu piksel di tengah-tengah area piksel jenis lainnya - jika Anda pernah menjalankan klasifikasi dan mendapatkan es di tengah Amazon, Anda akan memahami masalah ini.

Anda kemudian menerapkan jaringan saraf yang terhubung penuh ke "fitur" yang dipelajari melalui konvolusi untuk benar-benar melakukan klasifikasi. Salah satu keuntungan besar CNN lainnya adalah bahwa mereka berskala dan invarian rotasi, karena biasanya ada lapisan menengah antara lapisan konvolusi dan lapisan klasifikasi yang menggeneralisasi fitur, menggunakan pooling dan dropout, untuk menghindari overfitting, dan membantu dengan masalah di sekitar skala dan orientasi.

Ada banyak sumber daya pada jaringan saraf convolutional, meskipun yang terbaik harus kelas Standord dari Andrei Karpathy , yang merupakan salah satu pelopor bidang ini, dan seluruh seri kuliah tersedia di youtube .

Tentu, ada cara lain untuk berurusan dengan klasifikasi berbasis pixel versus area, tetapi ini saat ini merupakan pendekatan mutakhir, dan memiliki banyak aplikasi di luar klasifikasi penginderaan jauh, seperti terjemahan mesin dan mobil self-driving.

Berikut adalah contoh lain dari klasifikasi berbasis wilayah , menggunakan Open Street Map untuk menandai data pelatihan, termasuk instruksi untuk mengatur TensorFlow dan berjalan di AWS.

Berikut ini adalah contoh menggunakan Google Earth Engine dari penggolong berdasarkan deteksi tepi, dalam hal ini untuk irigasi pivot - menggunakan tidak lebih dari kernel dan konvolusi Gaussian, tetapi sekali lagi, menunjukkan kekuatan pendekatan berbasis wilayah / tepi.

masukkan deskripsi gambar di sini

Sementara keunggulan objek lebih dari klasifikasi berbasis pixel cukup diterima secara luas, berikut adalah artikel yang menarik di Remote Sensing Letters yang menilai kinerja klasifikasi berbasis objek .

Akhirnya, contoh yang lucu, hanya untuk menunjukkan bahwa bahkan dengan pengklasifikasi berbasis regional / konvolusional, visi komputer masih sangat sulit - untungnya, orang-orang terpintar di Google, Facebook, dll, sedang bekerja pada algoritma untuk dapat menentukan perbedaan antara anjing, kucing, dan berbagai jenis anjing dan kucing. Jadi, mereka yang tertarik menggunakan penginderaan jauh bisa tidur nyenyak di malam hari: D

masukkan deskripsi gambar di sini


0

Jawaban yang sangat sederhana adalah sebagai berikut:

Jika Anda hanya menggunakan informasi spektral (intensitas Pixel) sebagai set latihan, Anda melakukan klasifikasi basis piksel.

Jika Anda menggunakan informasi spasial (piksel lingkungan) dan spektral sebagai pelatihan, Anda melakukan klasifikasi basis objek (menggunakan algoritma berbasis segmentasi misalnya DBScan). Dalam Computer Vision DBScan ini digunakan untuk ekstraksi Superpixel.

Catatan: Anda dapat menggunakan informasi spektral dalam arti apa pun (ukuran, bentuk, konteks / tekstur) untuk ekstraksi fitur.

Anda dapat menggunakan pendekatan yang berbeda untuk melakukan ekstraksi fitur menggunakan info spektral.

Pertanyaan utama adalah bahwa Bagaimana seseorang dapat menemukan pendekatan yang paling tepat untuk ekstraksi fitur dan menerapkan algoritma yang efisien (deteksi tepi, segmentasi berbasis Spectral, Clustering) untuk masalah yang diajukan untuk mengusir informasi dari informasi spektral.

Orang mungkin berpikir tentang matriks konvolusi untuk melakukan analisis yang bagus dalam informasi spektral dan spasial untuk membuat set pelatihan.

Referensi: Pengetahuan saya setelah memiliki pengalaman lebih dari 3 tahun bekerja di Remote Sensing dan GIS Domain.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.