Apa keuntungan dari regresi bertahap?

11

Saya bereksperimen dengan regresi bertahap demi keberagaman dalam pendekatan saya terhadap masalah. Jadi, saya punya 2 pertanyaan:

Apa keuntungan dari regresi bertahap? Apa kekuatan spesifiknya?
Apa pendapat Anda tentang pendekatan hybrid, di mana Anda menggunakan regresi bertahap untuk memilih fitur, dan kemudian menerapkan regresi reguler dengan menggabungkan semua fitur yang dipilih?

regression feature-selection stepwise-regression

— Baron Yugovich
sumber

15

Keuntungan utama dari regresi bertahap adalah bahwa ini efisien secara komputasi. Namun, kinerjanya umumnya lebih buruk daripada metode alternatif. Masalahnya adalah terlalu serakah. Dengan membuat pilihan sulit pada regresi berikutnya dan 'membekukan' berat, itu membuat pilihan yang optimal secara lokal di setiap langkah, tetapi secara umum kurang optimal. Dan, tidak bisa kembali untuk merevisi pilihan masa lalunya.

Sejauh yang saya tahu, regresi bertahap umumnya jatuh dari nikmat dibandingkan dengan $l_1$ regresi regularized (Lasso), yang cenderung untuk menghasilkan solusi yang lebih baik.

Tibshirani (1996) . Penyusutan dan Pemilihan Regresi melalui Lasso

LASSO menghukum norma dari bobot, yang menginduksi sparsity dalam larutan (banyak bobot dipaksa ke nol). Ini melakukan pemilihan variabel (variabel 'relevan' diizinkan memiliki bobot bukan nol). Tingkat sparsity dikendalikan oleh istilah hukuman, dan beberapa prosedur harus digunakan untuk memilihnya (validasi silang adalah pilihan umum). LASSO lebih intensif secara komputasi daripada regresi bertahap, tetapi ada sejumlah algoritma yang efisien. Beberapa contoh adalah regresi sudut terkecil ( LARS ), dan pendekatan berdasarkan keturunan koordinat . $l_1$

Pendekatan serupa dengan apa yang Anda sarankan dalam (2) disebut pengejaran pencocokan orthogonal. Ini adalah generalisasi dari pencocokan yang cocok, yang merupakan nama untuk regresi bertahap dalam literatur pemrosesan sinyal.

Pati et al. (1993) . Pengejaran pencocokan orthogonal: aproksimasi fungsi rekursif dengan aplikasi dekomposisi wavelet

Pada setiap iterasi, regressor terbaik berikutnya ditambahkan ke set aktif. Kemudian, bobot untuk semua regressor di set aktif dihitung ulang. Karena langkah reweighting, pendekatan ini kurang serakah (dan memiliki kinerja yang lebih baik) daripada pengejaran pencocokan biasa / regresi bertahap. Tapi, masih menggunakan heuristik pencarian serakah.

Semua pendekatan ini (regresi bertahap, LASSO, dan pengejaran orthogonal) dapat dianggap sebagai perkiraan dari masalah berikut:

min_{w} ‖ y - X w ‖_{2}^{2} st ‖ w ‖_{0} \leq c

$\underset{w}{\min} \| y - X w \|_2^2 \quad \text{s.t. } \|w\|_0 \le c$

Dalam konteks regresi, kolom sesuai dengan variabel independen dan dengan variabel dependen. Dalam pemrosesan sinyal, kolom berhubungan dengan fungsi basis dan adalah sinyal untuk perkiraan. Tujuannya adalah untuk menemukan satu set jarang bobot yang memberikan yang terbaik (kuadrat terkecil) perkiraan . The norma hanya menghitung jumlah non-nol entri dalam . Sayangnya, masalah ini NP-hard, jadi algoritma aproksimasi harus digunakan dalam praktik. Regresi bertahap dan upaya pencocokan orthogonal untuk memecahkan masalah menggunakan strategi pencarian serakah. LASSO merumuskan kembali masalah menggunakan relaksasi $X$ $y$ $X$ $y$ $w$ $y$ $l_0$ $w$ $l_0$ norma norma . Di sini, masalah pengoptimalan menjadi cembung (dan karenanya dapat ditelusuri). Dan, meskipun masalahnya tidak lagi identik, solusinya mirip. Jika saya ingat dengan benar, baik LASSO dan pengejaran orthogonal telah terbukti memulihkan solusi yang tepat dalam kondisi tertentu. $l_1$

— pengguna20160
sumber

8

Pemilihan bertahap bukanlah ide yang bagus. Untuk memahami alasannya, ada baiknya Anda membaca jawaban saya di sini: Algoritma untuk pemilihan model otomatis .

Sejauh keunggulannya, pada hari-hari ketika mencari melalui semua kombinasi fitur yang mungkin terlalu intensif secara komputasi untuk ditangani oleh komputer, pemilihan bertahap menghemat waktu dan dapat ditelusuri. Namun, perhatikan bahwa masalah yang dibahas dalam jawaban saya yang ditautkan di atas berlaku sama dengan regresi 'subset terbaik', jadi secara bertahap tidak menghasilkan solusi yang baik, hanya solusi yang buruk lebih cepat.

Gagasan Anda tentang pendekatan hybrid akan baik-baik saja, asalkan model kedua (dengan fitur yang dipilih) dipasang pada dataset baru .

— gung - Pasang kembali Monica
sumber

Mengenai apa yang disebut OP sebagai "pendekatan hibrid" (tidak yakin mengapa itu hibrid), maksud Anda baik-baik saja dalam arti bahwa perkiraan koefisien model pada set data baru kedua harus baik-baik saja (walaupun bias dan bermasalah pada data asli), selama dataset baru cukup besar? Tentu saja berpotensi menjadi model yang buruk, karena dipilih dengan cara yang buruk pada dataset pertama, hanya saja koefisiennya akan diperkirakan dalam dataset yang kurang bermasalah.

— Bjorn

Ditambah lagi, masih sering kali tidak mungkin untuk melihat semua kombinasi yang mungkin, karena jumlah variabel berbeda yang kita miliki data tumbuh lebih cepat daripada daya komputasi, dan orang-orang memiliki lebih banyak dan lebih banyak gagasan tentang apa yang harus dimasukkan dalam model mereka.

— Stephan Kolassa

Membaca utas itu terus tidak membantu.

— Mox

2

Saya baru saja melakukan pencarian google untuk apa itu Stepwise regression. Saya tidak yakin apakah saya benar-benar memahaminya, tetapi inilah pikiran pertama saya

Ini serakah sehingga tidak dapat menghasilkan solusi yang bagus seperti Lasso. Saya lebih suka Lasso
Sederhana, mudah digunakan, mudah dikodekan
Setelah Anda menggunakan regresi bertahap, Anda sudah berakhir dengan model terlatih yang menggunakan fitur yang dipilih, sehingga Anda tidak perlu menggunakan langkah regresi lain seperti yang Anda sebutkan sebagai pendekatan hybrid

— Imbecile Marah
sumber