Pertanyaan saya berasal dari fakta berikut. Saya telah membaca posting, blog, ceramah serta buku tentang pembelajaran mesin. Kesan saya adalah bahwa praktisi pembelajaran mesin tampaknya tidak peduli dengan banyak hal yang dipedulikan oleh para ahli statistik / ekonometrik. Secara khusus, praktisi pembelajaran mesin menekankan akurasi prediksi di atas inferensi.
Salah satu contohnya terjadi ketika saya mengambil Machine Learning Andrew Ng di Coursera. Ketika ia membahas Model Linear Sederhana, ia tidak menyebutkan apa pun tentang properti BIRU dari penaksir, atau bagaimana heteroskedastisitas akan "membatalkan" interval kepercayaan. Sebaliknya, ia berfokus pada implementasi gradient descent dan konsep cross validation / ROC curve. Topik-topik ini tidak tercakup dalam kelas ekonometrik / statistik saya.
Contoh lain terjadi ketika saya berpartisipasi dalam kompetisi Kaggle. Saya membaca kode dan pikiran orang lain. Sebagian besar peserta hanya membuang semuanya ke SVM / hutan acak / XGBoost.
Contoh lain adalah tentang pemilihan model bertahap. Teknik ini banyak digunakan, setidaknya online dan di Kaggle. Banyak buku teks pembelajaran mesin klasik juga membahasnya, seperti Pengantar Pembelajaran Statistik. Namun, menurut jawaban ini (yang cukup meyakinkan), pemilihan model bertahap menghadapi banyak masalah terutama ketika datang ke "menemukan model yang sebenarnya". Tampaknya hanya ada dua kemungkinan: praktisi pembelajaran mesin tidak mengetahui masalahnya secara bertahap, atau mereka tahu tetapi mereka tidak peduli.
Jadi inilah pertanyaanku:
- Benarkah bahwa (secara umum) praktisi pembelajaran mesin fokus pada prediksi dan karenanya tidak mempedulikan banyak hal yang dipedulikan oleh ahli statistik / ekonom?
- Jika itu benar, lalu apa alasan di baliknya? Apakah karena inferensi lebih sulit dalam arti tertentu?
- Ada banyak materi tentang pembelajaran mesin (atau prediksi) online. Namun, jika saya tertarik belajar tentang melakukan inferensi, apa sajakah sumber daya daring yang dapat saya konsultasikan?
Pembaruan : Saya baru menyadari bahwa kata "inferensi" berpotensi dapat berarti banyak hal. Apa yang saya maksud dengan "inferensi" mengacu pada pertanyaan seperti
Apakah menyebabkan atau menyebabkan ? Atau lebih umum, apa hubungan kausal antara ?Y Y X X 1 , X 2 , ⋯ , X n
Karena "semua model salah", bagaimana "salah" model kita dari model yang benar?
Mengingat informasi sampel, apa yang bisa kita katakan tentang populasi dan seberapa yakin kita bisa mengatakan itu?
Karena pengetahuan statistik saya yang sangat terbatas, saya bahkan tidak yakin apakah pertanyaan-pertanyaan itu termasuk dalam bidang statistik atau tidak. Tetapi itu adalah jenis pertanyaan yang tampaknya tidak dipedulikan oleh praktisi pembelajaran mesin. Mungkin ahli statistik juga tidak peduli? Saya tidak tahu
fortunes
paket CRAN. Ini hanya untuk mengatakan, Anda tidak sendirian dengan Kesan, bahwa ketelitian matematika tidak selalu menjadi perhatian utama dalam pembelajaran mesin.