Mendeteksi area perhatian visual dalam suatu gambar


9

Saya mencoba mendeteksi area perhatian visual pada gambar yang diberikan dan memotong gambar ke area itu. Misalnya, mengingat gambar dengan ukuran berapa pun dan persegi panjang dimensi LxW katakan sebagai input, saya ingin memotong gambar ke area perhatian visual yang paling penting. Saya mencari pendekatan canggih untuk itu.

Apakah kita memiliki alat atau SDK untuk mengimplementasikannya? Setiap potongan kode atau algoritma akan sangat membantu.


BTW, dalam objek "tunggal", saya ingin mendapatkan perhatian. Jadi deteksi objek mungkin bukan yang terbaik.
Tina J

Apakah Anda mencari pendekatan berbasis pembelajaran yang mendalam atau pendekatan berbasis pemrosesan gambar klasik?
varsh

Salah satu dari mereka yang akan bekerja lebih baik. Pembelajaran yang mendalam mungkin merupakan pilihan yang lebih baik.
Tina J

Jawaban:


2

Anda dapat mencari judul kertas berikut:

  1. Jaringan Multi-Level Yang Mendalam untuk Prediksi Saliency.
  2. Beyond Universal Saliency: Prediksi Saliency Personalisasi dengan CNN Multi-tugas.

Anda bisa kode dalam python menggunakan kerangka Pytorch.


0

"Perhatian" dalam jaringan saraf (visual) adalah area gambar di mana jaringan dapat menemukan sebagian besar fitur untuk mengklasifikasikannya dengan kepercayaan tinggi. Berdasarkan deskripsi Anda, Anda berbicara tentang "perhatian lembut".

Apakah kita memiliki alat atau SDK untuk mengimplementasikannya? saya tidak berpikir ada SDK readymade tersedia. Jauh lebih baik untuk melatih model pada dataset Anda dengan perhatian. Setelah model dasar Anda siap, mudah untuk menambahkan mekanisme perhatian untuknya. Saya sarankan Anda untuk memeriksa https://arxiv.org/pdf/1502.03044.pdf .


0

Agar komputer dapat mendeteksi dan menyediakan kotak atau lingkaran pembatas di sekitar area perhatian visual dalam gambar, dasar perhatian harus ditentukan. Kemudian metode mendapatkan sistem komputer untuk membuat pilihan berdasarkan pada dasar itu dapat dipilih. Hal pertama yang pertama.

Apakah itu karakter wajah atau tubuh atau permainan yang menjadi objek yang menarik? Apakah itu akan menjadi objek paling dinamis dalam bingkai dalam hal pergerakan? Jika itu seseorang, apakah selalu orang yang sama? Dalam kedua kasus, apakah wajah mereka akan terpapar ke sudut kamera? Apakah hanya ada pemotretan diam, atau apakah gambar akan menjadi bingkai dalam film?

Setelah Anda tahu bagaimana ANDA akan membedakan objek yang membutuhkan perhatian dari objek dan latar belakang lainnya, maka Anda dapat mulai melihat bagaimana komputer dapat mensimulasikan pengakuan itu. Ketika melatih jaringan yang dalam yang melibatkan kernel konvolusi (disebut CNN atau jaringan saraf convolutional) dan mungkin sel memori jangka pendek (LSTM), ada beberapa tahapan dalam pengenalan.

Biasanya ujung-ujungnya terdeteksi terlebih dahulu. Dalam film, pergerakan tepi dilacak sebagai fitur gambar. Elemen dalam gambar yang mengidentifikasi objek apa yang menjadi objek adalah yang kedua. Misalnya mainan dapat dideteksi dengan cara plastik memantulkan cahaya dan jenis warna dan bentuk yang umum untuk mainan. Wajah mungkin pertama kali dikenali dengan mengidentifikasi mata, hidung, mulut, dagu, dan telinga.

Setelah bagian-bagian diidentifikasi, maka seluruh objek dapat diidentifikasi melalui tahap ekstraksi fitur lainnya. Sistem visi mengikuti prinsip dasar pengakuan yang sama yang digunakan oleh sistem visual manusia kita.

Ada banyak kerangka kerja dan pustaka untuk membantu tugas-tugas ini, tetapi untuk menggunakannya, penting untuk mendapatkan gambaran umum dari proses dan untuk mengklarifikasi apa yang akan membuat objek penting keluar dari objek lain yang mungkin serupa atau sangat berbeda sehingga perhatian dapat difokuskan seperti yang Anda inginkan.

Setelah Anda memiliki , koordinat dari dua sudut operasi pemangkasan Anda, yang akan menjadi tujuan pelatihan jaringan Anda, maka perpustakaan manipulasi gambar apa pun dapat menangani pemangkasan tersebut.(hmin,vmin);(hmax,vmax)

Itulah keadaan seni. Tidak ada SDK tingkat tinggi yang memungkinkan seseorang untuk memerintahkan komputer untuk menemukan item paling penting dalam bingkai tanpa klarifikasi apa yang dimaksud dengan itu dan pelatihan operasi untuk mengajarkan perangkat lunak untuk menemukan apa yang Anda putuskan untuk menjadi penting berdasarkan beberapa kriteria. Belum.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.