Secara umum, apakah melakukan inferensi lebih sulit daripada membuat prediksi?


13

Pertanyaan saya berasal dari fakta berikut. Saya telah membaca posting, blog, ceramah serta buku tentang pembelajaran mesin. Kesan saya adalah bahwa praktisi pembelajaran mesin tampaknya tidak peduli dengan banyak hal yang dipedulikan oleh para ahli statistik / ekonometrik. Secara khusus, praktisi pembelajaran mesin menekankan akurasi prediksi di atas inferensi.

Salah satu contohnya terjadi ketika saya mengambil Machine Learning Andrew Ng di Coursera. Ketika ia membahas Model Linear Sederhana, ia tidak menyebutkan apa pun tentang properti BIRU dari penaksir, atau bagaimana heteroskedastisitas akan "membatalkan" interval kepercayaan. Sebaliknya, ia berfokus pada implementasi gradient descent dan konsep cross validation / ROC curve. Topik-topik ini tidak tercakup dalam kelas ekonometrik / statistik saya.

Contoh lain terjadi ketika saya berpartisipasi dalam kompetisi Kaggle. Saya membaca kode dan pikiran orang lain. Sebagian besar peserta hanya membuang semuanya ke SVM / hutan acak / XGBoost.

Contoh lain adalah tentang pemilihan model bertahap. Teknik ini banyak digunakan, setidaknya online dan di Kaggle. Banyak buku teks pembelajaran mesin klasik juga membahasnya, seperti Pengantar Pembelajaran Statistik. Namun, menurut jawaban ini (yang cukup meyakinkan), pemilihan model bertahap menghadapi banyak masalah terutama ketika datang ke "menemukan model yang sebenarnya". Tampaknya hanya ada dua kemungkinan: praktisi pembelajaran mesin tidak mengetahui masalahnya secara bertahap, atau mereka tahu tetapi mereka tidak peduli.

Jadi inilah pertanyaanku:

  1. Benarkah bahwa (secara umum) praktisi pembelajaran mesin fokus pada prediksi dan karenanya tidak mempedulikan banyak hal yang dipedulikan oleh ahli statistik / ekonom?
  2. Jika itu benar, lalu apa alasan di baliknya? Apakah karena inferensi lebih sulit dalam arti tertentu?
  3. Ada banyak materi tentang pembelajaran mesin (atau prediksi) online. Namun, jika saya tertarik belajar tentang melakukan inferensi, apa sajakah sumber daya daring yang dapat saya konsultasikan?

Pembaruan : Saya baru menyadari bahwa kata "inferensi" berpotensi dapat berarti banyak hal. Apa yang saya maksud dengan "inferensi" mengacu pada pertanyaan seperti

  1. Apakah menyebabkan atau menyebabkan ? Atau lebih umum, apa hubungan kausal antara ?Y Y X X 1 , X 2 , , X nXYYXX1,X2,,Xn

  2. Karena "semua model salah", bagaimana "salah" model kita dari model yang benar?

  3. Mengingat informasi sampel, apa yang bisa kita katakan tentang populasi dan seberapa yakin kita bisa mengatakan itu?

Karena pengetahuan statistik saya yang sangat terbatas, saya bahkan tidak yakin apakah pertanyaan-pertanyaan itu termasuk dalam bidang statistik atau tidak. Tetapi itu adalah jenis pertanyaan yang tampaknya tidak dipedulikan oleh praktisi pembelajaran mesin. Mungkin ahli statistik juga tidak peduli? Saya tidak tahu


2
Brian D Ripley dikutip dari useR! 2004 dengan "Mengutip secara provokatif, pembelajaran mesin adalah statistik dikurangi pengecekan model dan asumsi." Ungkapan tersebut telah menjadi bagian dari fortunespaket CRAN. Ini hanya untuk mengatakan, Anda tidak sendirian dengan Kesan, bahwa ketelitian matematika tidak selalu menjadi perhatian utama dalam pembelajaran mesin.
Bernhard

Leo Breiman menangani persis pertanyaan ini dalam makalahnya tahun 2001 "Modeling Statistik: dua budaya" , yang merupakan bacaan yang bagus.
skd

Jawaban:


6

Pertama, saya akan memiliki perspektif berbeda untuk pembelajaran mesin. Apa yang Anda sebutkan, kuliah Andrew Ng's Coursera dan kompetisi Kaggle bukan 100% pembelajaran mesin, tetapi beberapa cabang yang ditargetkan untuk aplikasi praktis. Penelitian pembelajaran mesin nyata harus merupakan pekerjaan yang menciptakan model peningkatan hutan / SVM / gradien acak, yang cukup dekat dengan statistik / matematika.

Saya setuju praktisi pembelajaran mesin lebih fokus pada akurasi dibandingkan dengan ahli statistik / ekonomi. Ada alasan mengapa orang tertarik untuk mendapatkan akurasi yang lebih baik, daripada "menarik kesimpulan tentang distribusi yang sebenarnya." Alasan utama adalah cara kami mengumpulkan data dan menggunakan data telah berubah selama beberapa dekade terakhir.

Statistik didirikan selama ratusan tahun, tetapi di masa lalu, tidak ada yang akan berpikir tentang Anda memiliki miliaran data untuk pelatihan dan miliaran data lainnya untuk pengujian. (Misalnya, jumlah gambar di Internet). Oleh karena itu, dengan jumlah data yang relatif kecil, asumsi dari pengetahuan domain diperlukan untuk melakukan pekerjaan itu. Atau Anda dapat berpikir untuk "mengatur" model. Setelah asumsi dibuat, maka ada kesimpulan masalah tentang distribusi "benar".

Namun, jika kita memikirkannya dengan cermat, dapatkah kita memastikan asumsi ini benar, dan kesimpulannya valid? Saya ingin mengutip George Box:

Semua model salah tetapi beberapa berguna

Sekarang, mari kita kembali memikirkan pendekatan praktis untuk lebih menekankan pada akurasi daripada asumsi / kesimpulan. Ini adalah pendekatan yang baik, ketika kita memiliki sejumlah besar data.

Misalkan kita sedang membangun model untuk semua gambar berisi wajah manusia pada tingkat piksel. Pertama, sangat sulit untuk mengusulkan asumsi pada tingkat piksel untuk miliar gambar: tidak ada yang memiliki pengetahuan domain itu. Kedua, kita dapat memikirkan semua cara yang mungkin untuk mencocokkan data, dan karena datanya sangat besar, semua model yang kita miliki mungkin tidak cukup (hampir tidak mungkin terlalu pas).

Ini juga mengapa, "deep learning / neural network" menjadi populer kembali. Di bawah kondisi big data, kita dapat memilih satu model yang benar-benar kompleks, dan menyesuaikannya sebaik mungkin, dan kita mungkin masih OK, karena sumber daya komputasi kita terbatas, dibandingkan dengan semua data nyata dalam kata.

Akhirnya, jika model yang kami buat bagus dalam set data pengujian besar, maka mereka bagus dan berharga, meskipun kita mungkin tidak tahu asumsi garis bawah atau distribusi sebenarnya.


Saya ingin menunjukkan kata "inferensi" memiliki arti yang berbeda di komunitas yang berbeda.

  • Dalam komunitas statistik, biasanya berarti mendapatkan informasi tentang distribusi yang benar secara parametrik atau non-parametrik.
  • Dalam komunitas pembelajaran mesin, biasanya berarti menghitung probabilitas tertentu dari distribusi yang diberikan. Lihat Tutorial Model Grafis Murphy untuk contohnya.
  • Dalam pembelajaran mesin, orang menggunakan kata "belajar" untuk mewakili "mendapatkan parameter distribusi yang benar", yang mirip dengan "inferensi" dalam komunitas statistik.

Jadi, Anda dapat melihat, pada dasarnya, ada banyak orang dalam pembelajaran mesin juga melakukan "inferensi".

Selain itu, Anda mungkin juga berpikir tentang orang-orang di dunia akademis yang suka "merek ulang pekerjaan mereka dan menjual kembali": membuat istilah baru mungkin membantu untuk menunjukkan kebaruan penelitian. Bahkan, ada banyak tumpang tindih antara kecerdasan buatan, penambangan data, dan pembelajaran mesin. Dan mereka terkait erat dengan desain statistik dan algoritma. Sekali lagi tidak ada batasan yang jelas untuk melakukan "inferensi" atau tidak.


3
Saya bisa melihat dari mana Anda berasal. Pengambilan alternatif mungkin: prediksi = fokus pada variabel yang diamati, inferensi = fokus pada variabel tersembunyi. Jadi, dalam arti, inferensi mencoba menghasilkan jenis - jenis pengukuran baru, sementara prediksi lebih pada realisasi baru dari pengukuran yang pada prinsipnya dapat diamati? (Ini kompatibel dengan jawaban Anda, tentu saja)
GeoMatt22
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.