Apa pro dan kontra dari mempekerjakan LASSO untuk analisis kausal?

Pembelajaran Statistik dan hasilnya saat ini meresap dalam Ilmu Sosial. Beberapa bulan yang lalu, Guido Imbens berkata: "LASSO adalah OLS baru".

Saya belajar Machine Learning sedikit, dan saya tahu bahwa tujuan utamanya adalah prediksi. Saya juga setuju dengan perbedaan Leo Breiman antara dua budaya statistik. Jadi, dari sudut pandang saya, kausalitas menentang prediksi sampai batas tertentu.

Mempertimbangkan bahwa sains biasanya mencoba mengidentifikasi dan memahami hubungan sebab akibat, apakah pembelajaran mesin bermanfaat untuk tujuan ini? Secara khusus, apa kelebihan LASSO untuk analisis kausal?

Apakah ada peneliti (dan makalah) yang menjawab pertanyaan-pertanyaan itu?

machine-learning lasso causality

— Guilherme Duarte
sumber

Ya, OLS tidak akan menghasilkan perkiraan efek kausal dengan sangat sering, jadi jika LASSO ingin menggantikan OLS, OLS tidak memiliki "beban" untuk menemukan hubungan sebab akibat. Yang mengatakan, lihat halaman ini untuk beberapa penelitian terbaru di ekonometrik tentang efek kausal dan metode jarang: mit.edu/~vchern

— Christoph Hanck

Bagi saya perbedaan yang lebih alami di sini adalah dengan Shmueli ( "Menjelaskan atau Memprediksi" , 2010) daripada Breiman, tetapi mungkin perbedaan Breiman juga baik-baik saja.

— Richard Hardy

@ChristophHanck. Ya kamu benar. Tetapi intinya adalah: OLS telah banyak digunakan untuk memperkirakan efek kausal. Sebagai contoh, 'Mostly Harmless Econometrics' membahas beberapa mata pelajaran yang berkaitan dengan ini. Karena itu, jika dimungkinkan dengan OLS, mengapa tidak dengan LASSO? Bagaimanapun, Terima kasih untuk referensi.

— Guilherme Duarte

@ RichardHardy Anda sepenuhnya benar. Saya tahu makalah ini. Saya baru saja menyebutkan Breiman, karena saya pikir akan lebih mudah untuk dijelaskan.

— Guilherme Duarte

Saya tidak setuju di sana: dalam kasus di mana OLS dapat digunakan untuk memperkirakan efek biasa, saya tidak melihat mengapa laso juga tidak berlaku

— Christoph Hanck

Saya yakin mereka tidak tahu semuanya, jadi saya harap tidak ada yang keberatan jika kita melakukan gaya wiki ini.

Satu yang penting adalah bahwa LASSO bias (sumber, Wasserman dalam kuliah, maaf), yang walaupun dapat diterima dalam prediksi, merupakan masalah dalam inferensial kausal. Jika Anda menginginkan kausalitas, Anda mungkin menginginkannya untuk Sains, jadi Anda tidak hanya mencoba memperkirakan parameter yang paling berguna (yang anehnya bisa diprediksi dengan baik), Anda mencoba memperkirakan parameter TRUE (!).

— one_observation
sumber

Jawaban yang bagus! Sebenarnya jika Anda memiliki bias, itu adalah masalah besar untuk perkiraan sebab akibat. Tetapi mungkin LASSO dapat digunakan lebih awal dalam prosedur yang lebih lengkap untuk menilai hubungan sebab akibat.

— Guilherme Duarte

Mungkin! Itu sebabnya saya ingin orang lain berpadu.

— one_observation

@ GuilhermeDuarte, Ini adalah kesalahan keseluruhan yang penting, bukan bias. Di bawah kerugian kuadrat kami peduli tentang MSE, dan itu sama dengan Bias

^{2}

$^2$ + Varians. Lasso dapat memberikan tradeoff yang baik dengan MSE yang relatif kecil meskipun ada beberapa bias dan karenanya harus lebih berguna untuk analisis kausal daripada estimasi yang tidak bias dengan MSE yang tinggi. Masalah sebenarnya dengan laso adalah bahwa sulit untuk mendapatkan interval kepercayaan untuk itu; Saat ini yang merupakan area penelitian aktif.

— Richard Hardy

@ RichardHardy maaf, maksudmu saat kita peduli tentang hubungan sebab akibat, kita tidak perlu khawatir tentang bias, tetapi dengan MSE? Ini tidak sepenuhnya jelas bagi saya

— Guilherme Duarte

@GuilhermeDuarte, seperti dalam prediksi, dalam hubungan sebab akibat kita membutuhkan estimasi yang tepat dari koefisien model. Presisi dapat diukur dalam hal kesalahan absolut, kesalahan kuadrat, dll., Tetapi tidak bias. Misalnya, Anda dapat memiliki kesalahan bias rendah dan estimasi tinggi pada saat yang sama. Jadi melihat bias Anda akan berpikir Anda baik-baik saja, tetapi itu akan menyesatkan karena kesalahan estimasi (absolut, kuadrat atau mana pun) tinggi. Ini adalah kesalahan estimasi, bukan bias yang penting ketika Anda mempertimbangkan ukuran efek, signifikansi statistik, dll. Dalam inferensial kausal.

— Richard Hardy