Misalkan Anda perlu mengklasifikasikan sesuatu dalam kelas K, di mana K> 2. Dalam hal ini pengaturan yang paling sering saya gunakan adalah satu pengkodean panas. Anda akan memiliki kolom output K, dan dalam set pelatihan Anda akan menetapkan semua nilai ke 0, kecuali yang memiliki indeks kategori, yang bisa memiliki nilai 1. Dengan demikian, untuk setiap instance set data pelatihan Anda akan memiliki semua output dengan nilai 0 atau 1, semua output berjumlah 1 untuk setiap instance.
Ini terlihat seperti probabilitas, yang mengingatkan saya pada teknik yang sering digunakan untuk menghubungkan beberapa output yang dimodelkan sebagai probabilitas. Ini disebut fungsi softmax, lebih detail di Wikipedia . Ini akan memungkinkan Anda untuk menempatkan beberapa batasan pada nilai-nilai output (pada dasarnya ini adalah generalisasi fungsi logistik) sehingga nilai-nilai output akan dimodelkan sebagai probabilitas.
Akhirnya, dengan atau tanpa softmax Anda dapat menggunakan output sebagai fungsi diskriminan untuk memilih kategori yang tepat.
Pikiran terakhir lainnya adalah untuk menghindari mengkodekan variabel Anda dengan cara yang terhubung. Misalnya Anda dapat memiliki representasi biner dari indeks kategori. Ini akan menyebabkan pelajar koneksi buatan antara beberapa output yang sewenang-wenang. Satu pengkodean panas memiliki keuntungan yang netral terhadap bagaimana label diindeks.