Apa dampak dari memilih fungsi kerugian yang berbeda dalam klasifikasi untuk memperkirakan kerugian 0-1


27

Kita tahu bahwa beberapa fungsi obyektif lebih mudah dioptimalkan dan ada juga yang sulit. Dan ada banyak fungsi kerugian yang ingin kita gunakan tetapi sulit digunakan, misalnya kerugian 0-1. Jadi kami menemukan beberapa fungsi kehilangan proxy untuk melakukan pekerjaan. Misalnya, kami menggunakan kehilangan engsel atau kehilangan logistik untuk "memperkirakan" kehilangan 0-1.

Plot berikut datang dari buku PRML Chris Bishop . Kehilangan Engsel diplot dengan warna biru, Kehilangan Log dalam warna merah, Kehilangan Kuadrat dalam warna hijau dan kesalahan 0/1 warna hitam.

masukkan deskripsi gambar di sini

Saya mengerti alasan kami memiliki desain seperti itu (untuk engsel dan kehilangan logistik) adalah kami ingin fungsi objektif menjadi cembung.

Dengan melihat kehilangan engsel dan kehilangan logistik, ia menghukum lebih banyak pada instance yang sangat tidak terklasifikasi , dan yang menarik, itu juga menghukum instance yang diklasifikasikan dengan benar jika klasifikasi tersebut lemah . Ini adalah desain yang sangat aneh.

Pertanyaan saya adalah berapa harga yang harus kita bayar dengan menggunakan "fungsi kehilangan proxy" yang berbeda, seperti kehilangan engsel dan kehilangan logistik?


Dalam regresi, memilih kuadrat kerugian lebih mudah untuk melakukan optimasi dibandingkan dengan kehilangan nilai absolut. Tetapi kerugian kuadrat lebih sensitif terhadap outlier. Jadi, itu juga harus peka terhadap tipe data tertentu?
Haitao Du

4
Solusi yang lebih mudah adalah mengembangkan probabilitas prediksi optimal yang tidak memerlukan fungsi utilitas. Fungsi utilitas / kerugian dapat diterapkan kemudian oleh pembuat keputusan yang sebenarnya. Klasifikasi setara dengan membuat keputusan untuk pembuat keputusan, dan membutuhkan terlalu banyak pengetahuan di muka.
Frank Harrell

@ Frankharrell Terima kasih, dan saya menggunakan pendekatan yang Anda sebutkan di tempat kerja, di mana kami memisahkan prediksi dan operasi bisnis. Namun, ini masih belum dioptimalkan secara keseluruhan tetapi solusi lokal bijaksana tahap serakah, kan? Apakah ini "kebijakan burung unta"?
Haitao Du

2
Ini mungkin tidak mengarah pada keputusan yang optimal. Fungsi kerugian / utilitas / biaya tidak berasal dari prediktor model.
Frank Harrell

1
+1. Meminimalkan kerugian logistik sesuai dengan memaksimalkan kemungkinan binomial. Meminimalkan kerugian kuadrat sesuai dengan memaksimalkan kemungkinan Gaussian (itu hanya regresi OLS; untuk klasifikasi 2-kelas itu sebenarnya setara dengan LDA). Apakah Anda tahu jika meminimalkan kerugian engsel sesuai dengan memaksimalkan beberapa kemungkinan lainnya? Yaitu apakah ada model probabilistik yang sesuai dengan kehilangan engsel?
Amoeba berkata Reinstate Monica

Jawaban:


16

Beberapa pemikiran saya, mungkin tidak benar.

Saya mengerti alasan kami memiliki desain seperti itu (untuk engsel dan kehilangan logistik) adalah kami ingin fungsi objektif menjadi cembung.

Convexity jelas merupakan properti yang bagus, tetapi saya pikir alasan terpenting adalah kami ingin fungsi objektif memiliki turunan non-nol , sehingga kami dapat menggunakan derivatif untuk menyelesaikannya. Fungsi objektif dapat berupa non-cembung, dalam hal ini kita sering berhenti pada titik optima atau sadel lokal.

dan yang menarik, itu juga menghukum contoh yang diklasifikasikan dengan benar jika mereka diklasifikasikan dengan lemah. Ini adalah desain yang sangat aneh.

Saya pikir semacam desain menyarankan model untuk tidak hanya membuat prediksi yang tepat, tetapi juga percaya diri tentang prediksi. Jika kita tidak ingin instance yang diklasifikasikan dengan benar dihukum, kita dapat misalnya, memindahkan kehilangan engsel (biru) ke kiri sebesar 1, sehingga mereka tidak lagi mendapatkan kerugian. Tetapi saya percaya ini sering mengarah pada hasil yang lebih buruk dalam latihan.

berapa harga yang harus kita bayar dengan menggunakan "fungsi kehilangan proxy" yang berbeda, seperti kehilangan engsel dan kerugian logistik?

IMO dengan memilih fungsi kerugian yang berbeda, kami membawa asumsi yang berbeda untuk model. Sebagai contoh, kehilangan regresi logistik (merah) mengasumsikan distribusi Bernoulli, hilangnya MSE (hijau) mengasumsikan kebisingan Gaussian.


Mengikuti contoh kuadrat terkecil vs regresi logistik dalam PRML, saya menambahkan engsel kerugian untuk perbandingan. masukkan deskripsi gambar di sini

Seperti yang ditunjukkan pada gambar, kehilangan engsel dan regresi logistik / cross entropy / log-likelihood / softplus memiliki hasil yang sangat dekat, karena fungsi tujuan mereka dekat (gambar di bawah), sedangkan UMK umumnya lebih sensitif terhadap pencilan. Kehilangan engsel tidak selalu memiliki solusi unik karena tidak sepenuhnya cembung.

masukkan deskripsi gambar di sini

Namun satu properti penting dari kehilangan engsel adalah, titik data yang jauh dari batas keputusan tidak berkontribusi apa-apa terhadap kerugian, solusinya akan sama dengan titik-titik yang dihapus.

Poin yang tersisa disebut vektor dukungan dalam konteks SVM. Sedangkan SVM menggunakan istilah regularizer untuk memastikan properti margin maksimum dan solusi unik.


Terima kasih atas jawabannya. Apakah mungkin membuat beberapa demo untuk menunjukkan dampak kerugian yang berbeda secara intuitif? Sama seperti kita menunjukkan dampak oleh outlier regresi menggunakan kerugian kuadrat vs paling tidak kerugian absolut.
Haitao Du

@ hxd1011 sama-sama, saya akan mencoba menambahkan beberapa demo nanti.
dontloo

2
Kerugian engselnya cembung ...
Mustafa S Eisa

1
@ MustafaM.Eisa benar, terima kasih, maksud saya tidak sepenuhnya cembung ..
dontloo

@dontloo simulasi hebat! Terima kasih. Saya juga akan mencoba mengunggah beberapa simulasi saya nanti.
Haitao Du

6

Posting balasan terlambat, karena ada jawaban yang sangat sederhana yang belum disebutkan.

berapa harga yang harus kita bayar dengan menggunakan "fungsi kehilangan proxy" yang berbeda, seperti kehilangan engsel dan kerugian logistik?

Ketika Anda mengganti fungsi kerugian 0-1 non-cembung dengan pengganti cembung (mis. Engsel-hilang), Anda sekarang benar-benar menyelesaikan masalah yang berbeda dari yang ingin Anda selesaikan (yaitu untuk meminimalkan jumlah kesalahan klasifikasi). Jadi Anda mendapatkan kemudahan penelusuran komputasi (masalahnya menjadi cembung, artinya Anda dapat menyelesaikannya secara efisien menggunakan alat optimisasi cembung), tetapi dalam kasus umum sebenarnya tidak ada cara untuk menghubungkan kesalahan pengklasifikasi yang meminimalkan kerugian "proxy" dan kesalahan dari classifier yang meminimalkan kerugian 0-1 . Jika apa yang Anda benar-benar pedulikan adalah meminimalkan jumlah kesalahan klasifikasi, saya berpendapat bahwa ini adalah harga yang harus dibayar.

Saya harus menyebutkan bahwa pernyataan ini adalah kasus terburuk , dalam arti bahwa hal itu berlaku untuk setiap distribusi . Untuk beberapa distribusi "baik", ada pengecualian untuk aturan ini. Contoh kuncinya adalah distribusi data yang memiliki margin besar berdasarkan batas keputusan - lihat Teorema 15.4 dalam Shalev-Shwartz, Shai, dan Shai Ben-David. Memahami pembelajaran mesin: Dari teori ke algoritma. Pers universitas Cambridge, 2014.D


1

Idealnya fungsi kerugian Anda harus mencerminkan kerugian aktual yang ditimbulkan oleh bisnis. Misalnya, jika Anda mengklasifikasikan barang yang rusak, maka hilangnya kesalahan klasifikasi bisa seperti ini:

  • menandai barang yang rusak yang bukan: kehilangan laba karena penjualan potensial
  • tidak menandai barang yang rusak yang rusak: biaya pemrosesan kembali
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.