Mengapa multikolinieritas tidak diperiksa dalam statistik modern / pembelajaran mesin

44

Dalam statistik tradisional, saat membangun model, kami memeriksa multikolinieritas menggunakan metode seperti perkiraan variance inflation factor (VIF), tetapi dalam pembelajaran mesin, kami menggunakan regularisasi untuk pemilihan fitur dan sepertinya tidak memeriksa apakah fitur berkorelasi sama sekali. Mengapa kita melakukan itu?

— pengguna
sumber

51

Mempertimbangkan multikolinier adalah penting dalam analisis regresi karena, dalam ekstrem , secara langsung dikenakan pada apakah koefisien Anda secara unik diidentifikasi dalam data. Dalam kasus yang tidak terlalu parah, masih bisa mengacaukan estimasi koefisien Anda; perubahan kecil dalam data yang digunakan untuk estimasi dapat menyebabkan ayunan liar dalam koefisien yang diestimasi. Ini bisa menjadi masalah dari sudut pandang inferensial: Jika dua variabel sangat berkorelasi, peningkatan satu dapat diimbangi dengan penurunan yang lain sehingga efek gabungan adalah untuk meniadakan satu sama lain. Dengan lebih dari dua variabel, efeknya bisa lebih halus, tetapi jika prediksi stabil, itu sering cukup untuk aplikasi pembelajaran mesin.

Pertimbangkan mengapa kita mengatur dalam konteks regresi: Kita perlu membatasi model agar tidak terlalu fleksibel. Menerapkan jumlah regularisasi yang benar akan sedikit meningkatkan bias untuk pengurangan variasi yang lebih besar. Contoh klasik dari ini adalah menambahkan istilah polinom dan efek interaksi ke regresi: Dalam kasus degenerasi, persamaan prediksi akan menginterpolasi titik data, tetapi mungkin mengerikan ketika mencoba memprediksi nilai dari titik data yang tidak terlihat. Mengecilkan koefisien tersebut kemungkinan akan meminimalkan atau sepenuhnya menghilangkan sebagian dari koefisien tersebut dan meningkatkan generalisasi.

Namun, hutan acak dapat dilihat memiliki parameter regularisasi melalui jumlah variabel sampel di setiap pemisahan: Anda mendapatkan pemisahan yang lebih baik semakin besar mtry(lebih banyak fitur untuk dipilih; beberapa dari mereka lebih baik daripada yang lain), tetapi itu juga membuat masing-masing pohon lebih tinggi berkorelasi satu sama lain, agak mengurangi efek diversifikasi memperkirakan banyak pohon di tempat pertama. Dilema ini memaksa seseorang untuk menemukan keseimbangan yang tepat, biasanya dicapai dengan menggunakan validasi silang. Yang penting, dan berbeda dengan analisis regresi, tidak ada bagian dari model hutan acak dirugikan oleh variabel yang sangat collinear: bahkan jika dua variabel memberikan kemurnian simpul anak yang sama, Anda dapat memilih satu tanpa mengurangi kualitas hasilnya.

Demikian juga, untuk sesuatu seperti SVM, Anda dapat memasukkan lebih banyak prediktor daripada fitur karena trik kernel memungkinkan Anda beroperasi hanya pada produk bagian dalam vektor fitur tersebut. Memiliki lebih banyak fitur daripada pengamatan akan menjadi masalah dalam regresi, tetapi trik kernel berarti kita hanya memperkirakan koefisien untuk setiap contoh, sedangkan parameter regularisasi mengurangi fleksibilitas solusi - yang jelas merupakan hal yang baik, karena memperkirakan parameter untuk $C$ $N$ $N$ pengamatan dengan cara yang tidak terbatas akan selalu menghasilkan model yang sempurna pada data uji - dan kami datang dalam lingkaran penuh, kembali ke skenario regresi jaring elastis / ridge / LASSO di mana kami memiliki fleksibilitas model yang dibatasi sebagai pemeriksaan terhadap model yang terlalu optimis. Tinjauan kondisi KKT dari masalah SVM mengungkapkan bahwa solusi SVM adalah unik, jadi kami tidak perlu khawatir tentang masalah identifikasi yang muncul dalam kasus regresi.

Akhirnya, pertimbangkan dampak multikolinearitas yang sebenarnya . Itu tidak mengubah kekuatan prediksi model (setidaknya, pada data pelatihan) tetapi itu mengacaukan perkiraan koefisien kami. Dalam sebagian besar aplikasi ML, kami tidak peduli dengan koefisien itu sendiri, hanya hilangnya prediksi model kami, jadi dalam hal itu, memeriksa VIF sebenarnya tidak menjawab pertanyaan konsekuensial. (Tetapi jika sedikit perubahan dalam data menyebabkan fluktuasi besar dalam koefisien [gejala klasik multikolinieritas], itu juga dapat mengubah prediksi, dalam hal ini kita peduli - tetapi semua ini [kami harap!] Ditandai ketika kita melakukan cross-validasi, yang merupakan bagian dari proses pemodelan.) Regresi lebih mudah diinterpretasikan, tetapi interpretasi mungkin bukan tujuan yang paling penting untuk beberapa tugas.

— Pasang kembali Monica
sumber

1

Untuk pemodelan regresi kausal, menggunakan teknik seperti penilaian kecenderungan atau penyesuaian regresi, collinearity dapat menjadi masalah bahkan untuk prediksi, karena biasanya tujuannya adalah untuk mencocokkan model baik secara eksklusif pada kelompok kontrol / tidak terpapar dan kemudian memperkirakan hasil menggunakan model itu pada eksperimen. kelompok, atau menggabungkan dua kelompok tetapi menggunakan variabel indikator untuk mengukur efek, mengendalikan faktor-faktor lain, berada di kelompok eksperimen.

— ely

1

Jika collinearity menciptakan kesalahan pada koefisien, maka regresi yang diperluas ke grup eksperimen tidak akan berfungsi. Demikian juga, estimasi koefisien untuk variabel indikator setelah menerima pengobatan dapat dibuang, jika melakukan regresi tunggal di kedua sub-sampel. Teknik pembelajaran mesin modern biasanya tidak digunakan untuk menganalisis jenis-jenis masalah kausalitas ini, sehingga tidak seorang pun harus berhadapan dengan kebutuhan alat untuk menjelaskannya.

— ely

@ely, dalam contoh pertama Anda, kolinearitas (di antara kovariat, bukan pengobatan) tidak menyebabkan masalah, karena sekali lagi tujuannya adalah prediksi hasil kontrafaktual, dan kolinearitas bukan masalah dengan prediksi. Juga, metode ML modern sering digunakan dalam inferensi kausal; pemodelan terdorong umum dan hutan acak banyak digunakan untuk memperkirakan skor kecenderungan, dan TMLE menggunakan metode ML untuk menyalahkan hasil kontrafaktual. Saya berpendapat kekuatan metode kausal adalah bahwa kolinearitas biasanya tidak menjadi masalah bagi mereka.

— Nuh

@Noah Biasanya interpretasi koefisien eksposurlah yang penting (dan interpretasi perkiraan efek lain juga), dan tidak hanya akurasi prediksi mentah. Saya menyadari komentar saya tidak memperjelas hal ini, tetapi itu adalah masalah. Jika prediksi keseluruhan baik, tetapi tidak didorong oleh yang benar-benar terkait dengan koefisien yang diperkirakan untuk paparan, itu biasanya model yang tidak diinginkan untuk inferensial kausal.

— Ely

21

Alasannya adalah karena tujuan "statistik tradisional" berbeda dari banyak teknik Pembelajaran Mesin.

Dengan "statistik tradisional", saya anggap Anda maksud regresi dan variannya. Dalam regresi, kami mencoba memahami dampak variabel independen terhadap variabel dependen. Jika ada multikolinearitas yang kuat, ini sama sekali tidak mungkin. Tidak ada algoritma yang akan memperbaikinya. Jika belajar dengan berkorelasi dengan kehadiran di kelas dan nilai, kita tidak bisa tahu apa yang benar-benar menyebabkan nilai naik - kehadiran atau belajar.

Namun, dalam teknik Pembelajaran Mesin yang fokus pada akurasi prediktif, yang kami pedulikan hanyalah bagaimana kami bisa menggunakan satu set variabel untuk memprediksi set lainnya. Kami tidak peduli tentang dampak variabel-variabel ini terhadap satu sama lain.

Pada dasarnya, fakta bahwa kami tidak memeriksa multikolinieritas dalam teknik Pembelajaran Mesin bukanlah konsekuensi dari algoritma, ini adalah konsekuensi dari tujuan. Anda dapat melihat ini dengan memperhatikan bahwa kolinearitas yang kuat antara variabel tidak merusak akurasi prediksi metode regresi.

— TrynnaDoStat
sumber

11

Tampaknya ada asumsi mendasar di sini bahwa tidak memeriksa kolinearitas adalah praktik yang masuk akal atau bahkan terbaik. Ini sepertinya cacat. Misalnya, memeriksa kolinearitas sempurna dalam dataset dengan banyak prediktor akan mengungkapkan apakah dua variabel sebenarnya adalah hal yang sama, misalnya tanggal dan usia lahir (contoh diambil dari Dormann et al. (2013), Ecography , 36 , 1, pp 27-46 ). Saya kadang-kadang juga melihat masalah prediktor yang berkorelasi sempurna muncul dalam kompetisi Kaggle di mana pesaing di forum berupaya menghilangkan prediktor potensial yang telah dianonimkan (yaitu label prediktor disembunyikan, masalah umum dalam kompetisi seperti Kaggle dan seperti Kaggle).

Masih ada juga suatu kegiatan dalam pembelajaran mesin memilih prediktor - mengidentifikasi prediktor yang sangat berkorelasi dapat memungkinkan pekerja untuk menemukan prediktor yang merupakan proksi untuk variabel lain yang tersembunyi (tersembunyi) dan akhirnya menemukan satu variabel yang melakukan pekerjaan terbaik untuk mewakili variabel laten atau sebagai alternatif menyarankan variabel yang dapat digabungkan (misalnya melalui PCA).

Oleh karena itu, saya akan menyarankan bahwa meskipun metode pembelajaran mesin biasanya (atau setidaknya sering) dirancang untuk menjadi kuat dalam menghadapi prediktor berkorelasi, memahami sejauh mana prediktor berkorelasi sering merupakan langkah yang berguna dalam menghasilkan model yang kuat dan akurat , dan merupakan bantuan yang berguna untuk mendapatkan model yang dioptimalkan.

— Robert de Graaf
sumber

9

Masalah utama dengan multikolinearitas adalah bahwa itu mengacaukan koefisien (beta) dari variabel independen. Itu sebabnya ini adalah masalah serius ketika Anda mempelajari hubungan antar variabel, membangun hubungan sebab akibat dll.

Namun, jika Anda tidak terlalu tertarik untuk memahami fenomena tersebut, tetapi hanya berfokus pada prediksi dan peramalan, maka multikolinearitas kurang menjadi masalah. Atau setidaknya itulah yang dipikirkan orang tentang hal itu.

Saya tidak berbicara tentang multikolinearitas sempurna di sini, yang merupakan masalah teknis atau masalah identifikasi. Secara teknis, ini berarti bahwa matriks desain mengarah ke singularitas, dan solusinya tidak didefinisikan.

— Aksakal
sumber

4

Bahkan dengan collinearity yang sempurna, prediksi tersebut didefinisikan dengan baik.

— whuber

@whuber, jika Anda menggunakan OLS, paket stat cenderung untuk melemparkan kesalahan, karena ia tidak akan dapat membalikkan matriks. Yang pintar mungkin menjatuhkan salah satu vars independen, dan melanjutkan.

— Aksakal

2

Jika Anda menggunakan invers umum maka singularitas ini tidak menjadi masalah.

— Analis

1

Saya tidak mengikuti logika Anda, Aksakal: apakah Anda mencoba untuk menyarankan bahwa teknik pembelajaran mesin berbeda dari teknik statistik dalam bahwa mantan entah bagaimana tidak memiliki masalah dengan matriks peringkat yang lebih rendah? Itu ide yang menarik untuk dijelajahi.

— whuber

1

@ Pengguna, variabel independen hampir selalu berkorelasi, dan itu OK, biasanya. Hanya multikolinieritas sempurna yang menyebabkan defisiensi peringkat. Multikolinieritas mengacu pada korelasi yang sangat kuat, dan umumnya tidak diinginkan, tetapi seperti yang saya tulis sebelumnya, ini adalah masalah yang tidak berbahaya.

— Aksakal

7

Regulatorisasi dalam pembelajaran mesin tersebut menstabilkan koefisien regresi, sehingga setidaknya efek multikolinieritas dijinakkan. Tetapi yang lebih penting, jika Anda mencari prediksi (yang sering dipelajari oleh pelajar mesin), maka "masalah" multikolinieritas bukanlah masalah sebesar itu. Ini masalah ketika Anda perlu memperkirakan koefisien tertentu dan Anda tidak memiliki informasi.

Juga, jawaban saya untuk " Kapan LASSO memilih prediktor yang berkorelasi " mungkin membantu Anda.

— Ben Ogorek
sumber

1

Saya pikir multikolinieritas harus diperiksa dalam pembelajaran mesin. Inilah alasannya: Misalkan Anda memiliki dua fitur X dan Y yang sangat berkorelasi dalam dataset kami. Ini berarti bahwa bidang respons tidak dapat diandalkan (perubahan kecil dalam data dapat memiliki efek drastis pada orientasi bidang respons). Yang menyiratkan bahwa prediksi model untuk titik data jauhdari garis, di mana X dan Y cenderung jatuh, tidak dapat diandalkan. Jika Anda menggunakan model Anda untuk prediksi untuk poin seperti itu, prediksi itu mungkin akan sangat buruk. Dengan kata lain, ketika Anda memiliki dua fitur yang sangat berkorelasi, sebagai model, Anda mempelajari bidang di mana sebenarnya sebagian besar data berada dalam satu baris. Jadi, penting untuk menghapus fitur yang sangat berkorelasi dari data Anda untuk mencegah model yang tidak dapat diandalkan dan prediksi yang salah.

— Sanyo Mn
sumber