Salah satu alasan kuat untuk menggunakan cross-entropy over-koefisien-dadu atau metrik IoU serupa adalah bahwa gradien lebih baik.
Gradien cross-entropy wrt log adalah sesuatu seperti , di mana adalah output softmax dan adalah target. Sementara itu, jika kita mencoba menulis koefisien dadu dalam bentuk terdiferensiasi: atau , maka gradien yang dihasilkan wrt jauh lebih jelek : dan . Sangat mudah untuk membayangkan kasus di mana dan kecil, dan gradien meledak hingga beberapa nilai besar. Secara umum, nampaknya pelatihan akan menjadi lebih tidak stabil.p - thalt2 p thal2+ t22 p tp + thal2 t2( p + t )22 t ( t2- hal2)( hal2+ t2)2halt
Alasan utama mengapa orang mencoba menggunakan koefisien dadu atau IoU secara langsung adalah bahwa tujuan sebenarnya adalah memaksimalkan metrik-metrik tersebut, dan cross-entropy hanyalah proxy yang lebih mudah untuk memaksimalkan menggunakan backpropagation. Selain itu, koefisien Dice berkinerja lebih baik di masalah ketidakseimbangan kelas dengan desain:
Namun, ketidakseimbangan kelas biasanya diatasi hanya dengan menetapkan pengganda kerugian untuk setiap kelas, sehingga jaringan sangat tidak bersemangat untuk mengabaikan kelas yang jarang muncul, sehingga tidak jelas bahwa koefisien Dice benar-benar diperlukan dalam kasus-kasus ini.
Saya akan mulai dengan kerugian lintas-entropi, yang tampaknya menjadi kerugian standar untuk jaringan segmentasi pelatihan, kecuali ada alasan yang sangat kuat untuk menggunakan koefisien Dice.