Apa yang dimaksud dengan "segmentasi semantik" dibandingkan dengan "segmentasi" dan "pelabelan adegan"?

Question 1

Apakah segmentasi semantik hanya sebuah Pleonasm atau adakah perbedaan antara "segmentasi semantik" dan "segmentasi"? Apakah ada perbedaan dengan "pelabelan adegan" atau "penguraian adegan"?

Apa perbedaan antara tingkat piksel dan segmentasi piksel?

(Pertanyaan sampingan: Jika Anda memiliki anotasi berdasarkan piksel seperti ini, apakah Anda mendapatkan deteksi objek secara gratis atau masih ada yang harus dilakukan?)

Tolong berikan sumber untuk definisi Anda.

Sumber yang menggunakan "segmentasi semantik"

Jonathan Long, Evan Shelhamer, Trevor Darrell: Jaringan Konvolusional Penuh untuk Segmentasi Semantik . CVPR, 2015 dan PAMI, 2016
Hong, Seunghoon, Hyeonwoo Noh, dan Bohyung Han: "Decoupled Deep Neural Network for Semi-Supervised Semantic Segmentation." pracetak arXiv arXiv: 1506.04924 , 2015.
V. Lempitsky, A. Vedaldi, dan A. Zisserman: Model tiang untuk segmentasi semantik. Dalam Kemajuan dalam Sistem Pemrosesan Informasi Neural, 2011.

Sumber yang menggunakan "pelabelan adegan"

Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun: Mempelajari Fitur Hierarki untuk Pelabelan Adegan . Dalam Analisis Pola dan Kecerdasan Mesin, 2013.

Sumber yang menggunakan "tingkat piksel"

Pinheiro, Pedro O., dan Ronan Collobert: "Dari Pelabelan Tingkat Gambar ke Tingkat Piksel dengan Jaringan Konvolusional." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015. (lihat http://arxiv.org/abs/1411.6228 )

Sumber yang menggunakan "pixelwise"

Li, Hongsheng, Rui Zhao, dan Xiaogang Wang: "Propagasi maju dan mundur jaringan saraf konvolusional yang sangat efisien untuk klasifikasi piksel." arXiv pracetak arXiv: 1412.4526 , 2014.

Google Ngrams

"Segmentasi semantik" tampaknya lebih banyak digunakan baru-baru ini daripada "pelabelan adegan"

Question 2

"segmentasi" adalah partisi gambar menjadi beberapa bagian "koheren", tetapi tanpa upaya untuk memahami apa yang diwakili oleh bagian-bagian ini. Salah satu karya paling terkenal (tapi jelas bukan yang pertama) adalah "Potongan Normalisasi dan Segmentasi Gambar" Shi dan Malik PAMI 2000 . Karya-karya ini mencoba untuk mendefinisikan "koherensi" dalam istilah isyarat tingkat rendah seperti warna, tekstur dan kehalusan batas. Anda dapat menelusuri kembali karya-karya ini ke teori Gestalt .

Di sisi lain, "segmentasi semantik" mencoba untuk mempartisi gambar menjadi bagian yang bermakna secara semantik, dan untuk mengklasifikasikan setiap bagian ke dalam salah satu kelas yang telah ditentukan sebelumnya. Anda juga dapat mencapai tujuan yang sama dengan mengklasifikasikan setiap piksel (bukan seluruh gambar / segmen). Dalam hal ini Anda melakukan klasifikasi berdasarkan piksel, yang mengarah ke hasil akhir yang sama tetapi dengan jalur yang sedikit berbeda ...

Jadi, saya kira Anda dapat mengatakan bahwa "segmentasi semantik", "pelabelan adegan", dan "klasifikasi piksel" pada dasarnya mencoba untuk mencapai tujuan yang sama: memahami secara semantik peran setiap piksel dalam gambar. Anda dapat mengambil banyak jalan untuk mencapai tujuan itu, dan jalur ini menyebabkan sedikit nuansa dalam terminologi.

Question 3

Saya membaca banyak makalah tentang Deteksi Objek, Pengenalan Objek, Segmentasi Objek, Segmentasi Gambar, dan Segmentasi Gambar Semantik dan inilah kesimpulan saya yang mungkin tidak benar:

Pengenalan Objek: Dalam gambar yang diberikan, Anda harus mendeteksi semua objek (kelas objek yang dibatasi bergantung pada kumpulan data Anda), melokalkannya dengan kotak pembatas dan melabeli kotak pembatas itu dengan label. Pada gambar di bawah ini Anda akan melihat output sederhana dari pengenalan objek seni.

pengenalan objek

Deteksi Objek: ini seperti pengenalan Objek tetapi dalam tugas ini Anda hanya memiliki dua kelas klasifikasi objek yang berarti kotak pembatas objek dan kotak pembatas non-objek. Misalnya Deteksi mobil: Anda harus Mendeteksi semua mobil dalam gambar tertentu dengan kotak pembatasnya.

Deteksi Objek

Segmentasi Objek: Seperti pengenalan objek, Anda akan mengenali semua objek dalam gambar, tetapi output Anda harus menunjukkan objek yang mengklasifikasikan piksel gambar.

segmentasi objek

Segmentasi Gambar: Dalam segmentasi gambar, Anda akan menyegmentasikan wilayah gambar. keluaran Anda tidak akan memberi label segmen dan wilayah gambar yang konsisten satu sama lain harus dalam segmen yang sama. Mengekstrak piksel super dari sebuah gambar adalah contoh dari tugas ini atau segmentasi latar depan.

segmentasi gambar

Segmentasi Semantik: Dalam segmentasi semantik Anda harus memberi label pada setiap piksel dengan kelas objek (Mobil, Orang, Anjing, ...) dan non-objek (Air, Langit, Jalan, ...). Dengan kata lain dalam Segmentasi Semantik Anda akan memberi label pada setiap wilayah gambar.

segmenasi semantik

Menurut saya, pelabelan tingkat piksel dan piksel pada dasarnya sama, bisa berupa segmentasi gambar atau segmentasi semantik. Saya juga telah menjawab pertanyaan Anda di tautan ini dengan cara yang sama.

Question 4

Jawaban sebelumnya sangat bagus, saya ingin menunjukkan beberapa tambahan lagi:

Segmentasi Objek

salah satu alasan mengapa hal ini tidak disukai oleh komunitas penelitian adalah karena hal ini tidak jelas secara problematis. Segmentasi objek biasanya berarti menemukan satu atau sedikit objek dalam sebuah gambar dan menggambar batas di sekitarnya, dan untuk sebagian besar tujuan Anda masih dapat berasumsi demikian. Namun, ini juga mulai digunakan untuk segmentasi blob yang mungkin menjadi objek, segmentasi objek dari latar belakang (lebih umum sekarang disebut pengurangan latar belakang atau segmentasi latar belakang atau deteksi latar depan), dan bahkan dalam beberapa kasus digunakan secara bergantian dengan pengenalan objek menggunakan kotak pembatas (ini dengan cepat berhenti dengan munculnya pendekatan jaringan saraf dalam untuk pengenalan objek, tetapi pengenalan objek sebelumnya juga bisa berarti hanya memberi label pada seluruh gambar dengan objek di dalamnya).

Apa yang membuat "segmentasi" "semantik"?

Simpy, setiap segmen, atau dalam kasus metode mendalam setiap piksel, diberi label kelas berdasarkan kategori. Segmentasi secara umum hanyalah pembagian gambar dengan beberapa aturan. Segmentasi pergeseran , misalnya, dari tingkat yang sangat tinggi membagi data sesuai dengan perubahan energi gambar. Potongan grafiksegmentasi berbasis sama tidak dipelajari tetapi langsung diturunkan dari properti setiap gambar yang terpisah dari yang lain. Metode (berbasis jaringan neural) yang lebih baru menggunakan piksel yang diberi label untuk belajar mengidentifikasi fitur lokal yang terkait dengan kelas tertentu, lalu mengklasifikasikan setiap piksel berdasarkan kelas mana yang memiliki tingkat keyakinan tertinggi untuk piksel tersebut. Dengan cara ini, "pelabelan piksel" sebenarnya adalah nama yang lebih jujur untuk tugas tersebut, dan komponen "segmentasi" muncul.

Segmentasi Instance

Bisa dibilang arti yang paling sulit, relevan, dan asli dari Segmentasi Objek, "segmentasi contoh" berarti segmentasi objek individu dalam sebuah adegan, terlepas dari apakah mereka memiliki tipe yang sama. Namun, salah satu alasan mengapa hal ini begitu sulit adalah karena dari perspektif visi (dan dalam beberapa hal filosofis) apa yang membuat contoh "objek" tidak sepenuhnya jelas. Apakah bagian tubuh objek? Haruskah "objek bagian" seperti itu disegmentasi sama sekali oleh algoritme segmentasi instance? Haruskah mereka hanya tersegmentasi jika terlihat terpisah dari keseluruhan? Bagaimana dengan benda majemuk jika dua benda berdampingan dengan jelas tetapi dapat dipisahkan menjadi satu atau dua benda (apakah batu yang direkatkan ke puncak tongkat adalah kapak, palu, atau hanya tongkat dan batu kecuali dibuat dengan benar?). Juga, bukan t jelas bagaimana membedakan contoh. Apakah sebuah wasiat merupakan contoh terpisah dari dinding lain tempat itu dipasang? Dalam urutan apa contoh harus dihitung? Saat mereka muncul? Kedekatan dengan sudut pandang? Terlepas dari kesulitan ini, segmentasi objek masih menjadi masalah besar karena sebagai manusia kita berinteraksi dengan objek sepanjang waktu terlepas dari "label kelas" -nya (menggunakan objek acak di sekitar Anda sebagai pemberat kertas, duduk di atas benda yang bukan kursi), dan beberapa kumpulan data mencoba untuk mengatasi masalah ini, tetapi alasan utama belum banyak perhatian yang diberikan untuk masalah ini adalah karena belum didefinisikan dengan cukup baik.

Scene Parsing / Scene labeling

Scene Parsing adalah pendekatan segmentasi ketat untuk pelabelan adegan, yang juga memiliki beberapa masalah ketidakjelasan tersendiri. Secara historis, pelabelan adegan dimaksudkan untuk membagi seluruh "adegan" (gambar) menjadi beberapa segmen dan memberi mereka semua label kelas. Namun, itu juga digunakan untuk memberikan label kelas ke area gambar tanpa secara eksplisit menyegmentasikannya. Sehubungan dengan segmentasi, "segmentasi semantik" tidak berarti membagi seluruh pemandangan. Untuk segmentasi semantik, algoritme dimaksudkan untuk menyegmentasikan hanya objek yang diketahuinya, dan akan dikenakan sanksi oleh fungsi kerugiannya untuk memberi label piksel yang tidak memiliki label apa pun. Misalnya dataset MS-COCO adalah dataset untuk segmentasi semantik dimana hanya beberapa objek yang tersegmentasi.