Seleksi variabel untuk pemodelan prediktif benar-benar diperlukan pada tahun 2016?


67

Pertanyaan ini telah ditanyakan pada CV beberapa tahun yang lalu, sepertinya layak untuk dikirim kembali mengingat 1) urutan teknologi komputasi yang lebih baik (mis. Komputasi paralel, HPC dll) dan 2) teknik yang lebih baru, misalnya [3].

Pertama, beberapa konteks. Mari kita asumsikan tujuannya bukan pengujian hipotesis, bukan estimasi efek, tetapi prediksi pada set tes yang tidak terlihat. Jadi, tidak ada bobot yang diberikan untuk manfaat apa pun yang dapat ditafsirkan. Kedua, katakanlah Anda tidak dapat mengesampingkan relevansi setiap prediktor pada pertimbangan materi pelajaran, yaitu. semuanya tampak masuk akal secara individu atau dalam kombinasi dengan prediktor lain. Ketiga, Anda berhadapan dengan (ratusan) jutaan prediktor. Keempat, katakanlah Anda memiliki akses ke AWS dengan anggaran tidak terbatas, sehingga daya komputasi tidak menjadi kendala.

Alasan biasa untuk pemilihan variabel adalah 1) efisiensi; lebih cepat cocok dengan model yang lebih kecil dan lebih murah untuk mengumpulkan lebih sedikit prediktor, 2) interpretasi; mengetahui variabel "penting" memberikan wawasan tentang proses yang mendasarinya [1].

Sekarang diketahui secara luas bahwa banyak metode pemilihan variabel tidak efektif dan seringkali berbahaya (misalnya, regresi bertahap ke depan) [2].

Kedua, jika model yang dipilih ada gunanya, orang tidak perlu mengurangi daftar prediktor sama sekali. Model harus melakukannya untuk Anda. Contoh yang baik adalah laso, yang memberikan koefisien nol untuk semua variabel yang tidak relevan.

Saya menyadari bahwa beberapa orang menganjurkan menggunakan model "gajah", yaitu. melemparkan setiap prediktor yang masuk akal ke dalam fit dan menjalankannya [2].

Adakah alasan mendasar untuk melakukan pemilihan variabel jika tujuannya adalah akurasi prediksi?

[1] Reunanen, J. (2003). Overfitting dalam membuat perbandingan antara metode pemilihan variabel. Jurnal Penelitian Pembelajaran Mesin, 3, 1371-1382.

[2] Harrell, F. (2015). Strategi pemodelan regresi: dengan aplikasi untuk model linier, regresi logistik dan ordinal, dan analisis survival. Peloncat.

[3] Taylor, J., & Tibshirani, RJ (2015). Pembelajaran statistik dan inferensi selektif. Prosiding National Academy of Sciences, 112 (25), 7629-7634.

[4] Zhou, J., Foster, D., Stine, R., & Ungar, L. (2005, Agustus). Pemilihan fitur streaming menggunakan investasi alpha. Dalam Prosiding konferensi internasional ACM SIGKDD kesebelas tentang penemuan pengetahuan dalam penambangan data (hal. 384-393). ACM.


6
Pertanyaan pertama yang bagus - mungkin bisa ditutup sebagai duplikat, tetapi saya menghargai bahwa Anda telah mengeluarkan upaya untuk menentukan apa yang Anda rasakan membedakannya. Saya sarankan mengedit judul, jadi lebih jelas fokus Anda hanya pada prediksi.
Silverfish

5
Jika pertanyaan ini sudah diajukan tetapi Anda merasa perlu memposting ulang setelah beberapa waktu berlalu, mungkin Anda dapat memberikan tautan ke pertanyaan sebelumnya? Sangat menarik untuk membandingkan jawaban sebelumnya.
Tim

1
@ qbert65536 Satu pandangan adalah Anda tidak. Pemilihan fitur secara inheren tidak dapat diandalkan.
horaceT

8
Metode yang secara otomatis memilih subset fitur yang jarang (misalnya model yang dihukum 1) juga melakukan pemilihan fitur. Jadi pertanyaan kritisnya bukan "apakah pemilihan fitur baik / buruk", tetapi "apa properti yang membedakan metode pemilihan fitur baik dari yang buruk?". Dilakukan bersama-sama dengan estimasi parameter (seperti dalam laso) adalah satu properti, dan kita bisa bertanya apakah itu penting (bersama dengan banyak properti lainnya).
user20160

2
@ ToussaintLouverture Sejak saya memposting pertanyaan ini tahun lalu, saya memiliki pemikiran kedua (dan ketiga). Sekarang saya percaya pertanyaan yang tepat adalah, seberapa pentingkah usaha mengarahkan ke pemilihan variabel, daripada pemilihan model untuk memilih model yang lebih mampu yang menggeneralisasi dari semua fitur percobaan.
horaceT

Jawaban:


37

Ada rumor selama bertahun-tahun bahwa Google menggunakan semua fitur yang tersedia dalam membangun algoritme prediktifnya. Namun hingga saat ini, tidak ada penafian, penjelasan atau kertas putih telah muncul yang mengklarifikasi dan / atau membantah rumor ini. Bahkan paten mereka yang dipublikasikan pun tidak membantu dalam pemahaman. Akibatnya, tidak ada orang luar Google yang tahu apa yang mereka lakukan, sejauh yang saya ketahui.

/ * Pembaruan pada September 2019, seorang penginjil Google Tensorflow mencatat dalam sebuah presentasi yang menyatakan bahwa para insinyur Google secara teratur mengevaluasi lebih dari 5 miliar parameter untuk versi saat ini. PageRank saat ini . * /

Sebagai catatan OP, salah satu masalah terbesar dalam pemodelan prediktif adalah perpaduan antara pengujian hipotesis klasik dan spesifikasi model yang cermat vs penambangan data murni. Yang terlatih secara klasik bisa menjadi sangat dogmatis tentang perlunya "kekakuan" dalam desain dan pengembangan model. Faktanya adalah bahwa ketika dihadapkan dengan sejumlah besar kandidat prediktor dan beberapa target yang mungkin atau variabel dependen, kerangka kerja klasik tidak bekerja, tidak memegang atau memberikan panduan yang bermanfaat. Sejumlah makalah baru-baru ini menggambarkan dilema ini dari kertas Chattopadhyay dan Lipson yang brilian, Data Smashing: Mengungkap Urutan Mengintai di Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

Hambatan utama adalah bahwa sebagian besar algoritma perbandingan data saat ini bergantung pada seorang ahli manusia untuk menentukan 'fitur' data yang relevan untuk perbandingan. Di sini, kami mengusulkan prinsip baru untuk memperkirakan kesamaan antara sumber aliran data arbitrer, tidak menggunakan pengetahuan domain atau pembelajaran.

Untuk makalah AER tahun lalu tentang Masalah Kebijakan Prediksi oleh Kleinberg, et al.https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 yang menjadikan kasus untuk penambangan dan prediksi data sebagai alat yang berguna dalam pembuatan kebijakan ekonomi, dengan mengutip contoh-contoh di mana "kesimpulan sebab akibat bukanlah pusat, atau bahkan perlu. "

Faktanya adalah, pertanyaan yang lebih besar, $ 64.000 adalah perubahan besar dalam pemikiran dan tantangan terhadap kerangka kerja pengujian hipotesis klasik yang tersirat dalam, misalnya, simposium Edge.org tentang pemikiran ilmiah "usang" ini https://www.edge.org/ tanggapan / apa-ide-ilmiah-siap-untuk-pensiun serta artikel baru-baru ini oleh Eric Beinhocker tentang "ekonomi baru" yang menyajikan beberapa proposal radikal untuk mengintegrasikan berbagai disiplin ilmu yang berbeda seperti ekonomi perilaku, teori kompleksitas, model prediksi teori pengembangan, jaringan dan portofolio sebagai platform untuk implementasi dan adopsi kebijakan https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Tak perlu dikatakan, masalah-masalah ini jauh melampaui kekhawatiran ekonomi dan menunjukkan bahwa kita sedang mengalami perubahan mendasar dalam paradigma ilmiah. Pandangan bergeser sama mendasarnya dengan perbedaan antara reduksionisme, Pisau Cukur Occam seperti model-bangunan vs Prinsip Kelimpahan yang Luas dari Epicurus atau berbagai penjelasan yang secara kasar menyatakan bahwa jika beberapa temuan menjelaskan sesuatu, pertahankan semuanya ... https: // en. wikipedia.org/wiki/Principle_of_plenitude

Tentu saja, orang-orang seperti Beinhocker benar-benar tidak terbebani dengan masalah praktis, dalam hal parit terkait dengan solusi statistik terapan untuk paradigma yang berkembang ini. Untuk pertanyaan-pertanyaan penting dari pemilihan variabel dimensi ultra-tinggi, OP relatif tidak spesifik mengenai pendekatan yang layak untuk membangun model yang mungkin memanfaatkan, misalnya, Lasso, LAR, algoritma bertahap atau "model gajah" yang menggunakan semua informasi yang tersedia. Kenyataannya adalah bahwa, bahkan dengan AWS atau superkomputer, Anda tidak dapat menggunakan semua informasi yang tersedia pada saat yang sama - tidak ada cukup RAM untuk memuat semuanya. Apa artinya ini? Solusi telah diajukan, misalnya, Penemuan NSF dalam Kumpulan Data Kompleks atau Masif: Tema Statistik Umum untuk "membagi dan menaklukkan" algoritma untuk penambangan data besar-besaran, misalnya, Wang, kertas et al, Survei Metode Statistik dan Komputasi untuk Data Besar http://arxiv.org/pdf/1502.07989.pdf serta Leskovec, dkk. book Mining of Massive Datasets http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

Sekarang ada ratusan, jika tidak ribuan makalah yang berhubungan dengan berbagai aspek tantangan ini, semuanya mengusulkan mesin analitik yang sangat berbeda sebagai inti mereka dari algoritma “divide and conquer”; model "pembelajaran dalam" tanpa pengawasan; teori matriks acak diterapkan pada konstruksi kovarians masif; Model tensor Bayesian untuk klasik, regresi logistik yang diawasi, dan banyak lagi. Lima belas tahun yang lalu, perdebatan tersebut sebagian besar terfokus pada pertanyaan-pertanyaan tentang manfaat relatif dari solusi Bayesian hierarkis vs model campuran terbatas yang sering. Dalam sebuah makalah yang membahas masalah-masalah ini, Ainslie, et al.http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfsampai pada kesimpulan bahwa pendekatan teoretis yang berbeda, dalam praktiknya, menghasilkan hasil yang sebagian besar setara dengan pengecualian masalah yang melibatkan data jarang dan / atau dimensi tinggi di mana model HB memiliki keunggulan. Hari ini dengan munculnya solusi D & C, setiap model arbitrage HB yang mungkin dinikmati secara historis telah dieliminasi.

Logika dasar dari solusi D&C ini, pada umumnya, adalah perluasan dari teknik hutan acak terkenal Breiman yang mengandalkan resampling pengamatan dan fitur-fitur bootstrap. Breiman melakukan pekerjaannya di akhir tahun 90-an dengan satu CPU ketika data besar berarti beberapa lusin pertunjukan dan beberapa ribu fitur. Pada platform multi-core paralel paralel masif saat ini, dimungkinkan untuk menjalankan algoritma yang menganalisis terabyte data yang berisi puluhan juta fitur yang membangun jutaan model mini "RF" dalam beberapa jam.

Ada sejumlah pertanyaan penting yang muncul dari semua ini. Orang harus melakukan dengan keprihatinan atas hilangnya presisi karena sifat pendekatan dari solusi ini. Masalah ini telah diatasi oleh Chen dan Xie dalam makalah mereka, A Split-and-Conquer Approach untuk Analisis Data Luar Biasa Besar http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/201212.pdf di mana mereka menyimpulkan bahwa pendekatannya tidak dapat dibedakan dari model "informasi lengkap".

Kekhawatiran kedua yang, sejauh pengetahuan saya belum ditangani secara memadai oleh literatur, berkaitan dengan apa yang dilakukan dengan hasil (yaitu, "parameter") dari jutaan model mini yang dapat diprediksi setelah penyelesaiannya. telah digulung dan diringkas. Dengan kata lain, bagaimana seseorang menjalankan sesuatu yang sederhana seperti "mencetak" data baru dengan hasil ini? Apakah koefisien model-mini akan disimpan dan disimpan atau apakah seseorang hanya menjalankan kembali algoritma d & c pada data baru?

Dalam bukunya, Numbers Rule Your World , Kaiser Fung menggambarkan dilema yang dihadapi Netflix ketika dihadapkan dengan ansambel hanya 104 model yang diserahkan oleh para pemenang kompetisi mereka. Para pemenang, memang, telah meminimalkan MSE vs semua pesaing lain, tetapi ini diterjemahkan hanya dalam beberapa peningkatan desimal akurasi pada 5-point, skala tipe rating Likert yang digunakan oleh sistem penentu film mereka. Selain itu, pemeliharaan TI yang diperlukan untuk ansambel model ini harganya jauh lebih mahal daripada penghematan yang terlihat dari "peningkatan" dalam akurasi model.

Lalu ada seluruh pertanyaan apakah "optimasi" bahkan mungkin dengan informasi sebesar ini. Sebagai contoh, Emmanuel Derman, fisikawan dan insinyur keuangan, dalam bukunya My Life as a Quant menunjukkan bahwa optimisasi adalah mitos yang tidak berkelanjutan, setidaknya dalam rekayasa keuangan.

Akhirnya, pertanyaan penting tentang kepentingan fitur relatif dengan sejumlah besar fitur belum ditangani.

Tidak ada jawaban mudah untuk pertanyaan tentang perlunya pemilihan variabel dan tantangan baru yang dibuka oleh saat ini, solusi Epicurean masih harus diselesaikan. Intinya adalah bahwa kita semua adalah ilmuwan data sekarang.

**** EDIT *** Referensi

  1. Chattopadhyay I, Lipson H. 2014 Penghancuran data: mengungkap urutan data yang mengintai. JR Soc. Antarmuka 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826

  2. Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan dan Ziad Obermeyer. 2015. "Masalah Kebijakan Prediksi." American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023

  3. Edge.org, Pertanyaan Tahunan 2014: IDEA ILMIAH APA YANG SIAP UNTUK PENSIUN? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement

  4. Eric Beinhocker, Bagaimana Perubahan Mendalam dalam Ekonomi Membuat Debat Kiri vs Kanan Tidak relevan, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. Prinsip Epicurus dari berbagai penjelasan: simpan semua model. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/

  6. NSF, Penemuan dalam Kumpulan Data Kompleks atau Masif: Tema Statistik Umum, Lokakarya yang didanai oleh National Science Foundation, 16-17 Oktober 2007 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. Metode Statistik dan Komputasi untuk Big Data, Kertas Kerja oleh Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu, dan Jun Yan, 29 Oktober 2015 http://arxiv.org/pdf/1502.07989.pdf

  8. Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Penambangan Kumpulan Data Besar, Cambridge University Press; 2 edisi (29 Desember 2014) ISBN: 978-1107077232

  9. Matriks Kovarian Sampel Besar dan Analisis Data Dimensi Tinggi (Seri Cambridge dalam Matematika Statistik dan Probabilitas), oleh Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 edisi (30 Maret 2015) ISBN: 978-1107065178

  10. RICK L. ANDREWS, ANDREW AINSLIE, dan IMRAN S. CURRIM, Suatu Perbandingan Empiris dari Model Pilihan Logit dengan Representasi Heterogenitas yang Terpisah dan Kontinyu, Jurnal Riset Pemasaran, 479 Vol. XXXIX (November 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. Pendekatan Split-and-Conquer untuk Analisis Data Besar yang Luar Biasa, Xueying Chen dan Minge Xie, Laporan Teknis DIMACS 2012-01, Januari 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf

  12. Kaiser Fung, Angka Mengatur Dunia Anda: Pengaruh Tersembunyi dari Probabilitas dan Statistik pada Semua yang Anda Lakukan, Pendidikan McGraw-Hill; 1 edisi (15 Februari 2010) ISBN: 978-0071626538

  13. Emmanuel Derman, Hidupku sebagai Kuantitas: Refleksi Fisika dan Keuangan, Wiley; 1 edisi (11 Januari 2016) ISBN: 978-0470192733

* Pembaruan pada November 2017 *

Buku Nathan Kutz 2013, Pemodelan Berbasis Data & Komputasi Ilmiah: Metode untuk Sistem Kompleks & Big Data adalah perjalanan matematika dan PDE yang terfokus ke dalam pemilihan variabel serta metode dan alat pengurangan dimensi. Pengantar pemikirannya selama 1 jam yang luar biasa dapat ditemukan di video Youtube Juni 2017 Data Driven Discovery of Dynamical Systems and PDE . Di dalamnya, ia membuat referensi ke perkembangan terbaru di bidang ini. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop


1
Di Machine Learning Summer School beberapa tahun yang lalu, seorang rekan dari Google memberikan ceramah (lupa nama). Dia menyebutkan beberapa model (klasifikasi biner) dalam produksi melibatkan sekitar 200 juta fitur yang dilatih secara batch pada ~ 30 Tb dataset; kebanyakan dari mereka mungkin fitur biner. Saya tidak ingat dia pernah menyebutkan pemilihan variabel.
horaceT

1
Komentar luar biasa (meskipun sebagian dari itu bersinggungan). Saya terutama menyukai perspektif bahwa banyak ide kuno perlu ditinjau ulang di era Big Data.
horaceT

1
@horaceT Sangat menarik. Setidaknya itu menegaskan rumor itu. Terima kasih. Program ML mana itu?
Mike Hunter

1
MLSS 2012 di UC Santa Cruz. Pembicaranya adalah Tushar Chandra, di sini adalah slide, users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf
horaceT

2
@Glen_b Terima kasih atas komentarnya. Saya pikir saya memberikan nama dan judul untuk referensi justru karena masalah tautan rusak. Apapun, saya akan menambahkan bagian referensi di bagian akhir. Beri tahu saya jika ada yang hilang.
Mike Hunter

14

Dalam hal prediksi, Anda mungkin perlu memikirkan pertanyaan tentang seberapa cepat model mempelajari fitur-fitur penting. Bahkan memikirkan OLS, ini akan memberi Anda sesuatu seperti pemilihan model dengan data yang cukup. Tetapi kita tahu bahwa itu tidak cukup cepat untuk solusi ini - jadi kami mencari sesuatu yang lebih baik.

Sebagian besar metode membuat asumsi tentang jenis beta / koefisien yang akan ditemui (seperti distribusi sebelumnya dalam model bayesian). Mereka bekerja paling baik ketika asumsi-asumsi ini berlaku. Sebagai contoh, regresi ridge / laso mengasumsikan sebagian besar beta pada skala yang sama dengan yang paling dekat nol. Mereka tidak akan bekerja dengan baik untuk regresi "jarum di tumpukan jerami" di mana sebagian besar beta adalah nol, dan beberapa beta sangat besar (yaitu skala sangat berbeda). Pemilihan fitur dapat bekerja lebih baik di sini - laso bisa terjebak di antara menyusutnya suara dan meninggalkan sinyal tidak tersentuh. Pemilihan fitur lebih berubah-ubah - efeknya adalah "sinyal" atau "noise".

Dalam hal memutuskan - Anda perlu memiliki gagasan tentang variabel prediktor macam apa yang Anda miliki. Apakah Anda memiliki beberapa yang benar-benar bagus? Atau semua variabel lemah? Ini akan mendorong profil beta yang akan Anda miliki. Dan metode penalti / pemilihan mana yang Anda gunakan (kuda untuk kursus dan semua itu).

Pemilihan fitur juga tidak buruk tetapi beberapa perkiraan yang lebih lama karena batasan komputasi tidak lagi baik (bertahap, maju). Rata-rata model menggunakan pemilihan fitur (semua 1 model var, 2 model var, dll yang dibebani oleh kinerjanya) akan melakukan pekerjaan yang cukup baik di prediksi. Tapi ini pada dasarnya menghukum beta melalui bobot yang diberikan untuk model dengan variabel yang dikecualikan - hanya tidak secara langsung - dan tidak dalam masalah optimasi cembung semacam cara.


12

Saya memberi Anda perspektif industri.

Industri tidak suka menghabiskan uang untuk sensor dan sistem pemantauan yang mereka tidak tahu seberapa besar manfaatnya.

Misalnya, saya tidak ingin menyebutkan nama, jadi bayangkan sebuah komponen dengan 10 sensor mengumpulkan data setiap menit. Pemilik aset menoleh ke saya dan bertanya seberapa baik Anda dapat memprediksi perilaku komponen saya dengan data ini dari 10 sensor? Kemudian mereka melakukan analisis biaya-manfaat.

Kemudian, mereka memiliki komponen yang sama dengan 20 sensor, mereka bertanya kepada saya, lagi, seberapa baik Anda dapat memprediksi perilaku komponen saya dengan data ini dari 20 sensor? Mereka melakukan analisis biaya-manfaat lain.

Pada setiap kasus ini, mereka membandingkan manfaatnya dengan biaya investasi karena pemasangan sensor. (Ini bukan hanya menambahkan sensor $ 10 ke komponen. Banyak faktor yang berperan). Di sinilah analisis pemilihan variabel dapat berguna.


1
Poin bagus. Tetapi Anda tidak akan tahu 10 sensor cukup baik atau perlu 10 sensor sampai Anda memiliki beberapa data dari 20.
horaceT

Benar, dan Anda selalu dapat berspekulasi berdasarkan beberapa studi. Anda memasang setiap sensor dengan tujuan, untuk menghindari kegagalan. Jika tingkat kegagalan rendah atau Anda telah membahas bagian penting dari sebuah komponen, Anda tahu penambahan 1 sensor tidak akan menghasilkan pengembalian yang besar. Jadi, Anda tidak perlu memasang sensor itu, mengumpulkan data, dan melakukan studi untuk mengetahui apakah sensor tambahan itu sebenarnya cukup baik.
PeyM87

'Sensor' mungkin bukan berarti sensor - di perusahaan saya, kami berlangganan semua data kami, jadi memang ada peluang untuk menemukan fitur yang tidak berkontribusi terhadap apa pun, dan memangkas biaya dengan menghapusnya dari layanan berlangganan (agar lebih jelas, tarif langganan dikerjakan pada tingkat yang lebih tinggi daripada kolom individual, tetapi tentu saja masuk akal untuk membayangkan elemen langganan yang menyumbangkan satu fitur ke model akhir, dan dapat dihentikan jika tidak meningkatkan kinerja)
Robert de Graaf

9

Sebagai bagian dari algoritma untuk mempelajari model yang murni prediktif, pemilihan variabel tidak selalu buruk dari sudut pandang kinerja dan juga tidak otomatis berbahaya. Namun, ada beberapa masalah yang harus diperhatikan.

E(YiXi)=XiTβ
i=1,,NXiβp
xE(YX=x)=XTβ,
YX=xβ

k=1,,min(N,p)kkk

The bahaya dengan seperti prosedur seleksi variabel adalah bahwa banyak standar hasil distribusi tidak valid bersyarat pada pilihan variabel. Ini berlaku untuk tes standar dan interval kepercayaan, dan merupakan salah satu masalah yang Harrell [2] beri peringatan. Breiman juga memperingatkan tentang pemilihan model berdasarkan misalnya Mallows' di The Little Bootstrap ... . Mallows , atau AIC dalam hal ini, tidak memperhitungkan pemilihan model, dan mereka akan memberikan kesalahan prediksi terlalu optimis.C pCpCp

Namun, validasi silang dapat digunakan untuk memperkirakan kesalahan prediksi dan untuk memilih , dan pemilihan variabel dapat mencapai keseimbangan yang baik antara bias dan varians. Ini terutama benar jika memiliki beberapa koordinat besar dengan sisanya mendekati nol seperti @probabilityislogic menyebutkan.β -kβ

Metode penyusutan seperti regresi ridge dan laso dapat mencapai tradeoff yang baik antara bias dan varians tanpa pemilihan variabel eksplisit. Namun, seperti OP menyebutkan, laso melakukan pemilihan variabel implisit. Ini sebenarnya bukan model melainkan metode untuk menyesuaikan model yang melakukan pemilihan variabel. Dari perspektif itu, pemilihan variabel (implisit atau eksplisit) hanyalah bagian dari metode untuk menyesuaikan model dengan data, dan itu harus dianggap seperti itu.

Algoritma untuk menghitung estimator laso dapat mengambil manfaat dari pemilihan variabel (atau penyaringan). Dalam Pembelajaran Statistik dengan Sparsity: The Lasso and Generalisasi , Bagian 5.10, itu menggambarkan bagaimana penyaringan, seperti yang diterapkan glmnet, berguna. Ini dapat menyebabkan perhitungan yang lebih cepat dari estimator laso.

Satu pengalaman pribadi adalah dari contoh di mana pemilihan variabel memungkinkan untuk menyesuaikan model yang lebih rumit (model aditif umum) menggunakan variabel yang dipilih. Hasil validasi silang menunjukkan bahwa model ini lebih unggul daripada sejumlah alternatif meskipun tidak untuk hutan acak. Jika gamsel telah ada yang mengintegrasikan model aditif umum dengan pemilihan variabel saya mungkin akan mempertimbangkan untuk mencobanya juga.- -

Sunting: Karena saya menulis jawaban ini, ada makalah tentang aplikasi tertentu yang saya pikirkan. Kode-R untuk mereproduksi hasil di kertas tersedia.

Singkatnya saya akan mengatakan bahwa pemilihan variabel (dalam satu bentuk atau yang lain) adalah dan akan tetap berguna bahkan untuk tujuan prediksi murni sebagai cara untuk mengontrol tradeoff bias-varians. Jika bukan karena alasan lain, maka setidaknya karena model yang lebih rumit mungkin tidak dapat menangani variabel dalam jumlah sangat besar di luar kotak. Namun, seiring berjalannya waktu kita secara alami akan melihat perkembangan seperti gamsel yang mengintegrasikan pemilihan variabel ke dalam metodologi estimasi. -

Tentu saja, selalu penting bahwa kita menganggap pemilihan variabel sebagai bagian dari metode estimasi. Bahayanya adalah percaya bahwa pemilihan variabel berkinerja seperti oracle dan mengidentifikasi set variabel yang benar. Jika kami percaya itu dan melanjutkan seolah-olah variabel tidak dipilih berdasarkan data, maka kami berisiko membuat kesalahan.


1
Saya tidak jelas tentang bagaimana pemilihan variabel memungkinkan untuk cocok dengan model yang lebih rumit. Dengan pemilihan variabel, Anda masih memperkirakan sejumlah besar parameter yang sama; Anda hanya memperkirakan beberapa di antaranya sebagai nol. Stabilitas model bersyarat yang dipasang setelah pemilihan variabel bisa menjadi fatamorgana.
Frank Harrell

1
@ Harrell, dalam contoh khusus pemilihan variabel dilakukan menggunakan laso dalam kombinasi dengan pemilihan stabilitas dalam model di mana semua variabel dimasukkan secara linear. Gam kemudian dipasang menggunakan variabel yang dipilih. Saya sepenuhnya setuju bahwa pemilihan variabel hanya memperkirakan beberapa parameter ke nol, dan aplikasi melakukan hal itu dalam model gam dengan prosedur dua langkah. Saya yakin gamsel menyediakan pendekatan yang lebih sistematis. Maksud saya adalah bahwa tanpa pendekatan seperti itu, pemilihan variabel dapat menjadi jalan pintas yang bermanfaat.
NRH

1
Menggunakan metode yang tidak dipatenkan untuk menyesuaikan kembali variabel yang dipilih dalam fase hukuman sebelumnya tidak tepat. Itu akan sangat bias. Dan pemilihan variabel yang tidak diloloskan bukanlah jalan pintas yang baik.
Frank Harrell

1
Pemilihan stabilitas lebih konservatif daripada memilih variabel menggunakan laso dan pemasangan kembali tanpa hukuman. Yang terakhir itu, diharapkan, tidak bekerja dengan baik dari sudut pandang prediktif (sebagai ukuran dengan validasi silang). Ketika saya melalui validasi silang dalam kasus konkret menemukan bahwa pemilihan variabel + gam memberikan kinerja prediksi yang lebih baik daripada ridge atau estimator laso, maka itu adalah ukuran saya apakah prosedurnya baik.
NRH

1
Silakan tentukan 'pemilihan stabilitas'. Dan pemasangan kembali tanpa hukuman adalah anti-konservatif.
Frank Harrell

4

Izinkan saya untuk mengomentari pernyataan: "... menyesuaikan parameter k ke n <k pengamatan tidak akan terjadi."

Dalam chemometrics kita sering tertarik pada model prediksi, dan situasi k >> n sering dijumpai (misalnya dalam data spektroskopi). Masalah ini biasanya diselesaikan hanya dengan memproyeksikan pengamatan ke subruang dimensi yang lebih rendah a, di mana a <n, sebelum regresi (mis. Regresi Komponen Utama). Menggunakan Partial Least Squares Regression, proyeksi dan regresi dilakukan secara simultan mendukung kualitas prediksi. Metode yang disebutkan menemukan inversi semu yang optimal untuk kovarians (singular) atau matriks korelasi, misalnya dengan dekomposisi nilai singular.

Pengalaman menunjukkan bahwa kinerja prediktif model multivarian meningkat ketika variabel berisik dihapus. Jadi, bahkan jika kita - dengan cara yang berarti - dapat memperkirakan parameter k hanya memiliki n persamaan (n <k), kami berusaha keras untuk model pelit. Untuk tujuan itu, pemilihan variabel menjadi relevan, dan banyak literatur chemometric dikhususkan untuk subjek ini.

Sementara prediksi adalah tujuan penting, metode proyeksi pada saat yang sama menawarkan wawasan berharga misalnya pola dalam data dan relevansi variabel. Ini difasilitasi terutama oleh beragam model-plot, misalnya skor, pemuatan, residu, dll ...

Teknologi chemometrik digunakan secara luas misalnya dalam industri di mana prediksi yang andal dan akurat benar-benar diperhitungkan.


3

Dalam beberapa kasus terkenal, ya, pemilihan variabel tidak diperlukan. Pembelajaran yang dalam menjadi sedikit overhyped karena alasan ini.

Misalnya, ketika jaringan saraf berbelit-belit ( http://cs231n.github.io/convolutional-networks/ ) mencoba memprediksi jika gambar terpusat berisi wajah manusia, sudut-sudut gambar cenderung memiliki nilai prediksi minimal. Pemodelan tradisional dan pemilihan variabel akan membuat pemodel menghapus piksel sudut sebagai prediktor; Namun, jaringan saraf yang berbelit-belit cukup pintar untuk secara esensial membuang prediktor ini secara otomatis. Hal ini berlaku untuk sebagian besar model pembelajaran mendalam yang mencoba memprediksi keberadaan beberapa objek dalam suatu gambar (misalnya, mobil drivings "memprediksi" tanda jalur, hambatan atau mobil lain dalam bingkai video streaming onboard).

Pembelajaran yang mendalam mungkin berlebihan untuk banyak masalah tradisional seperti di mana dataset kecil atau di mana pengetahuan domain berlimpah, sehingga pemilihan variabel tradisional mungkin akan tetap relevan untuk waktu yang lama, setidaknya di beberapa daerah. Meskipun demikian, pembelajaran yang mendalam sangat bagus ketika Anda ingin menyatukan solusi yang "cukup bagus" dengan intervensi manusia yang minimal. Mungkin butuh waktu berjam-jam untuk membuat kerajinan tangan dan memilih prediktor untuk mengenali angka tulisan tangan dalam gambar, tetapi dengan jaringan saraf yang berbelit-belit dan pemilihan nol variabel, saya dapat memiliki model canggih hanya dalam waktu 20 menit menggunakan Google TensorFlow ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).


3
Saya sangat suka perspektif DL ini. Dalam Computer Vision, matriks data yang Anda temui adalah gambar 2D yang rata, di mana makna kolom tertentu tergantung pada pengamatan. Contoh, pixel 147 mungkin adalah wajah kucing pada gambar No. 27, tetapi itu adalah dinding latar belakang pada gambar No. 42. Jadi, pemilihan fitur seperti yang kita tahu akan gagal total. Itu sebabnya ConvNet sangat kuat karena memiliki invarian translasi / rotasi bawaan.
horaceT
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.