Saya pikir Anda pada dasarnya telah memukul paku di kepala dalam pertanyaan, tetapi saya akan melihat apakah saya bisa menambahkan sesuatu. Saya akan menjawab ini dengan sedikit jalan memutar ...
Bidang Statistik Kuat memeriksa pertanyaan tentang apa yang harus dilakukan ketika asumsi Gaussian gagal (dalam arti bahwa ada pencilan):
sering diasumsikan bahwa kesalahan data terdistribusi secara normal, setidaknya kira-kira, atau bahwa teorema batas pusat dapat diandalkan untuk menghasilkan estimasi yang terdistribusi normal. Sayangnya, ketika ada pencilan dalam data, metode klasik seringkali memiliki kinerja yang sangat buruk
Ini telah diterapkan dalam ML juga, misalnya di Mika el al. (2001) Suatu Pendekatan Pemrograman Matematika untuk Algoritma Kernel Fisher , mereka menggambarkan bagaimana Huber's Robust Loss dapat digunakan dengan KDFA (bersama dengan fungsi-fungsi kerugian lainnya). Tentu saja ini adalah kehilangan klasifikasi, tetapi KFDA terkait erat dengan Mesin Vektor Relevansi (lihat bagian 4 dari makalah Mika).
Seperti tersirat dalam pertanyaan, ada hubungan dekat antara fungsi kerugian dan model kesalahan Bayesian (lihat di sini untuk diskusi).
Namun cenderung menjadi kasus bahwa segera setelah Anda mulai menggabungkan fungsi kerugian "funky", optimisasi menjadi sulit (perhatikan bahwa ini juga terjadi di dunia Bayesian). Jadi dalam banyak kasus orang menggunakan fungsi kehilangan standar yang mudah dioptimalkan, dan bukannya melakukan pra-pemrosesan tambahan untuk memastikan bahwa data sesuai dengan model.
Poin lain yang Anda sebutkan adalah bahwa CLT hanya berlaku untuk sampel yang IID. Ini benar, tetapi kemudian asumsi (dan analisis yang menyertainya) dari sebagian besar algoritma adalah sama. Saat Anda mulai melihat data non-IID, banyak hal menjadi semakin rumit. Salah satu contoh adalah jika ada ketergantungan temporal, dalam hal ini biasanya pendekatannya adalah dengan mengasumsikan bahwa ketergantungan hanya menjangkau jendela tertentu, dan sampel karenanya dapat dianggap kira-kira IID di luar jendela ini (lihat misalnya kertas PAC Chromatic yang brilian namun tangguh ini) -Bayi Batas untuk Data Non-IID: Aplikasi untuk Pemeringkatan dan Stasioner Proses Pencampuran β ), setelah itu analisis normal dapat diterapkan.
Jadi, ya, sebagian turun ke kenyamanan, dan sebagian karena di dunia nyata, sebagian besar kesalahan memang terlihat (kira-kira) Gaussian. Seseorang tentu saja harus selalu berhati-hati ketika melihat masalah baru untuk memastikan bahwa anggapan tersebut tidak dilanggar.