Tidak ada perbedaan formal yang membedakan pembelajaran mesin dan statistik pada tingkat fundamental model pemasangan data. Mungkin ada perbedaan budaya dalam pemilihan model, tujuan menyesuaikan model dengan data, dan untuk beberapa memperluas interpretasi.
Dalam contoh-contoh tipikal yang dapat saya pikirkan tentang kita selalu miliki
- koleksi model untuk untuk beberapa set indeks ,Mii∈II
- dan untuk setiap suatu yang tidak diketahui komponen (parameter, mungkin tak terbatas dimensi) dari model .iθiMi
Menyesuaikan ke data hampir selalu merupakan masalah optimisasi matematis yang terdiri dari menemukan pilihan optimal dari komponen yang tidak diketahui untuk membuat sesuai dengan data yang diukur oleh beberapa fungsi favorit.MiθiMi
Pemilihan di antara model kurang standar, dan ada berbagai teknik yang tersedia. Jika tujuan pemasangan model adalah murni prediksi, pemilihan model dilakukan dengan upaya untuk mendapatkan kinerja prediksi yang baik, sedangkan jika tujuan utama adalah untuk menginterpretasikan model yang dihasilkan, model yang lebih mudah diinterpretasikan dapat dipilih daripada model lain bahkan jika mereka kekuatan prediksi diperkirakan akan lebih buruk.Mi
Apa yang bisa disebut pemilihan model statistik sekolah tua didasarkan pada tes statistik yang mungkin dikombinasikan dengan strategi pemilihan langkah-bijaksana, sedangkan pemilihan model pembelajaran mesin biasanya berfokus pada kesalahan generalisasi yang diharapkan, yang sering diperkirakan menggunakan cross-validation. Namun perkembangan saat ini dan pemahaman tentang pemilihan model tampaknya menyatu ke arah landasan yang lebih umum, lihat, misalnya, Pemilihan Model dan Model Averaging .
Menyimpulkan kausalitas dari model
Inti masalahnya adalah bagaimana kita bisa menafsirkan model? Jika data yang diperoleh berasal dari eksperimen yang dirancang dengan hati-hati dan modelnya memadai, maka masuk akal bahwa kita dapat menginterpretasikan pengaruh perubahan variabel dalam model sebagai efek kausal, dan jika kita mengulangi eksperimen dan mengintervensi variabel tertentu ini. kita bisa berharap untuk mengamati efek yang diperkirakan. Namun, jika data bersifat observasional, kita tidak bisa berharap bahwa efek yang diperkirakan dalam model sesuai dengan efek intervensi yang dapat diamati. Ini akan memerlukan asumsi tambahan terlepas dari apakah model tersebut adalah "model pembelajaran mesin" atau "model statistik klasik".
Mungkin orang yang terlatih dalam menggunakan model statistik klasik dengan fokus pada estimasi parameter univariat dan interpretasi ukuran efek adalah kesan bahwa interpretasi kausal lebih valid dalam kerangka ini daripada dalam kerangka pembelajaran mesin. Saya akan mengatakan tidak.
Area inferensi kausal dalam statistik tidak benar-benar menghilangkan masalah, tetapi ia membuat asumsi yang menjadi kesimpulan kesimpulan kausal secara eksplisit. Mereka disebut sebagai asumsi yang tidak dapat diuji . Makalah inferensi kausal dalam statistik: Tinjauan oleh Judea Pearl adalah makalah yang baik untuk dibaca. Kontribusi utama dari inferensi kausal adalah pengumpulan metode untuk estimasi efek kausal berdasarkan asumsi di mana sebenarnya ada perancu yang tidak teramati, yang sebaliknya menjadi perhatian utama. Lihat Bagian 3.3 dalam kertas Pearl di atas. Contoh yang lebih maju dapat ditemukan dalam makalah Model Struktural Marginal dan Inferensial Kausal dalam Epidemiologi .
Ini adalah pertanyaan pokok apakah asumsi yang tidak dapat diuji itu berlaku. Mereka justru tidak dapat diuji karena kita tidak dapat mengujinya menggunakan data. Untuk membenarkan asumsi, diperlukan argumen lain.
Sebagai contoh di mana pembelajaran mesin dan inferensial kausal bertemu, ide-ide estimasi kemungkinan maksimum yang ditargetkan seperti yang disajikan dalam Targeted Maximum Likelihood Learning oleh Mark van der Laan dan Daniel Rubin biasanya mengeksploitasi teknik pembelajaran mesin untuk estimasi non-parametrik diikuti oleh "penargetan "menuju parameter yang menarik. Yang terakhir bisa menjadi parameter dengan interpretasi kausal. Idenya di Super Learneradalah sangat bergantung pada teknik pembelajaran mesin untuk estimasi parameter yang menarik. Ini adalah poin penting oleh Mark van der Laan (komunikasi pribadi) bahwa model statistik klasik, sederhana dan "dapat ditafsirkan" sering salah, yang mengarah pada penaksir yang bias dan penilaian yang terlalu optimis terhadap ketidakpastian estimasi.