Jawaban singkatnya adalah bahwa teori kemungkinan ada untuk membimbing kita menuju solusi optimal, dan memaksimalkan sesuatu selain dari kemungkinan, kemungkinan hukuman, atau kepadatan posterior Bayesian menghasilkan penduga suboptimal. Kedua, meminimalkan jumlah kesalahan kuadrat mengarah pada estimasi yang tidak bias dari probabilitas sebenarnya. Di sini Anda tidak menginginkan perkiraan yang tidak bias, karena memiliki perkiraan itu bisa negatif atau lebih besar dari satu. Untuk membatasi estimasi dengan tepat diperlukan satu untuk mendapatkan estimasi yang sedikit bias (ke tengah) secara umum, pada skala probabilitas (bukan logit).
Jangan percaya bahwa metode pembelajaran mesin tidak membuat asumsi. Masalah ini tidak ada hubungannya dengan pembelajaran mesin.
Perhatikan bahwa proporsi individu adalah estimasi yang tidak bias dari probabilitas yang sebenarnya, maka model logistik biner dengan hanya intersep memberikan estimasi yang tidak bias. Sebuah model logistik biner dengan prediktor tunggal yang memiliki saling kategori eksklusif akan memberikan perkiraan berisi probabilitas. Saya pikir bahwa model yang memanfaatkan asumsi aditivitas dan memungkinkan pengguna untuk meminta estimasi di luar rentang data (misalnya, satu prediktor yang kontinu) akan memiliki bias kecil pada skala probabilitas sehingga untuk menghormati paksaan.kk[0,1]