Masalah apa yang diselesaikan metode penyusutan?


61

Musim liburan telah memberi saya kesempatan untuk meringkuk di samping api dengan The Elements of Statistics Learning . Berasal dari perspektif ekonometrik (sering), saya mengalami kesulitan memahami penggunaan metode penyusutan seperti regresi ridge, laso, dan regresi sudut terkecil (LAR). Biasanya, saya tertarik pada estimasi parameter sendiri dan dalam mencapai ketidakberpihakan atau setidaknya konsistensi. Metode penyusutan tidak melakukan itu.

Tampaknya bagi saya bahwa metode ini digunakan ketika ahli statistik khawatir bahwa fungsi regresi menjadi terlalu responsif terhadap prediktor, sehingga menganggap prediktor lebih penting (diukur dengan besarnya koefisien) daripada yang sebenarnya. Dengan kata lain, overfitting.

Tapi, OLS biasanya memberikan perkiraan yang tidak bias dan konsisten. (Catatan kaki) Saya selalu melihat masalah overfitting bukan dari memberikan estimasi yang terlalu besar, melainkan interval kepercayaan yang terlalu kecil karena proses seleksi tidak diperhitungkan ( ESL menyebutkan poin terakhir ini).

Estimasi koefisien yang tidak sesuai / konsisten menyebabkan prediksi yang tidak bias / konsisten dari hasil. Metode penyusutan mendorong prediksi lebih dekat ke hasil rata-rata daripada OLS, tampaknya meninggalkan informasi di atas meja.

Untuk mengulangi, saya tidak melihat masalah apa metode penyusutan mencoba untuk menyelesaikannya. Apakah saya melewatkan sesuatu?

Catatan Kaki: Kami membutuhkan kondisi peringkat kolom lengkap untuk identifikasi koefisien. Asumsi eksogenitas / nol syarat bersyarat untuk kesalahan dan asumsi harapan bersyarat linier menentukan interpretasi yang dapat kita berikan kepada koefisien, tetapi kita mendapatkan estimasi yang tidak bias atau konsisten dari sesuatu bahkan jika asumsi ini tidak benar.


1
Ada beberapa pertanyaan terkait di sini. Ini adalah satu: stats.stackexchange.com/questions/10478/…
kardinal

2
Perhatikan bahwa ada kondisi sederhana dan cukup lemah pada pemilihan parameter susut untuk mencapai konsistensi parameter. Ini dirinci dalam makalah Knight & Fu (2000) yang terkenal dan sampul kasus jauh melampaui regresi ridge dan laso. Konsistensi pemilihan model juga telah menjadi topik populer selama beberapa tahun terakhir.
kardinal

@ cardinal, terima kasih atas petunjuk untuk memodelkan hasil konsistensi untuk laso; Saya akan lihat. Tentu saja, hasil ini juga dapat ditemukan untuk OLS. Hasilnya menyiratkan bahwa kedua prosedur sampai ke tempat yang sama. Jadi saya masih tidak mengerti mengapa kami menggunakan laso di atas OLS.
Charlie

1
Konsistensi model adalah konsep yang berbeda dari konsistensi asimtotik dari estimasi parameter. Apakah Anda mengetahui (terbiasa dengan) perbedaan ini?
kardinal

@ cardinal, Dengan konsistensi model, saya kira Anda maksudkan bahwa prediktor yang benar disertakan. Kita bisa mendapatkannya dengan menggunakan kriteria AIC dalam proses seleksi menggunakan OLS. Saya kira Anda menyiratkan bahwa, dalam batasnya, laso memilih model yang tepat dengan koefisien "salah"?
Charlie

Jawaban:


47

Saya curiga Anda menginginkan jawaban yang lebih dalam, dan saya harus membiarkan orang lain memberikan itu, tetapi saya dapat memberi Anda beberapa pemikiran tentang regresi ridge dari perspektif konseptual yang longgar.

Regresi OLS menghasilkan estimasi parameter yang tidak bias (yaitu, jika sampel tersebut dikumpulkan dan parameter diperkirakan tanpa batas, distribusi sampling dari estimasi parameter akan dipusatkan pada nilai sebenarnya). Selain itu, distribusi pengambilan sampel akan memiliki varians terendah dari semua estimasi yang mungkin tidak bias (ini berarti bahwa, rata-rata, estimasi parameter OLS akan lebih dekat dengan nilai sebenarnya daripada perkiraan dari beberapa prosedur estimasi bias lainnya akan). Ini adalah berita lama (dan saya minta maaf, saya tahu Anda tahu betul ini), namun fakta bahwa variansnya lebih rendah tidak berarti bahwa itu sangat rendah. Dalam beberapa keadaan, varians dari distribusi sampling dapat sangat besar sehingga membuat estimator OLS pada dasarnya tidak berharga. (Satu situasi di mana ini bisa terjadi adalah ketika ada tingkat multikolinieritas tinggi.)

Apa yang harus dilakukan dalam situasi seperti itu? Nah, penduga yang berbeda dapat ditemukan yang memiliki varian yang lebih rendah (walaupun, jelas, itu harus bias, mengingat apa yang ditetapkan di atas). Artinya, kami menjual ketidakberpihakan untuk varian yang lebih rendah. Sebagai contoh, kami mendapatkan estimasi parameter yang kemungkinan jauh lebih dekat dengan nilai sebenarnya, meskipun mungkin sedikit di bawah nilai sebenarnya. Apakah tradeoff ini bermanfaat atau tidak merupakan penilaian yang harus diambil analis ketika berhadapan dengan situasi ini. Bagaimanapun, regresi ridge hanyalah teknik semacam itu. Gambar berikut (sepenuhnya dibuat-buat) dimaksudkan untuk menggambarkan ide-ide ini.

masukkan deskripsi gambar di sini

Ini memberikan pengantar singkat, sederhana, konseptual untuk regresi ridge. Saya kurang tahu tentang laso dan LAR, tapi saya percaya ide yang sama bisa diterapkan. Informasi lebih lanjut tentang laso dan regresi sudut terkecil dapat ditemukan di sini , tautan "penjelasan sederhana ..." sangat membantu. Ini memberikan lebih banyak informasi tentang metode penyusutan.

Saya harap ini ada nilainya.


12
Ini memberikan beberapa petunjuk konseptual yang bagus. Dalam paragraf kedua ada banyak fokus pada ketidakberpihakan, tetapi peringatan penting tidak ada. Kecuali (a) model linier adalah "benar" (dan, kapan itu?) Dan (b) semua prediktor yang relevan dimasukkan dalam model, estimasi koefisien akan tetap bias, secara umum.
kardinal

5
Pemahaman saya yang terbatas tentang bias / varians tradeoff adalah bahwa seseorang yang mencari penjelasan (mungkin poster asli) akan lebih memilih ketidakberpihakan, bahkan jika variansnya lebih besar, tetapi seseorang yang membuat perkiraan mungkin lebih suka sesuatu dengan varians kecil, bahkan jika bias diperkenalkan.
Wayne

2
@Wayne: Memang, ini (salah satu) inti masalahnya. Sebagian besar sudut pandang dalam ESL berasal dari perspektif prediksi dan ini mewarnai sebagian besar analisis mereka. Melakukan inferensi pada koefisien tunggal, khususnya dalam lingkungan pengamatan, adalah masalah yang sangat licin. Perlu meyakinkan serius untuk mengklaim bahwa estimasi koefisien benar-benar "tidak bias".
kardinal

1
Setelah beberapa waktu, saya dapat mencoba untuk memperluas komentar saya yang sudah terlalu banyak sedikit kemudian.
kardinal

@ung, di sini ada utas Meta terkait yang mungkin menarik bagi Anda.
Richard Hardy

16

Kesalahan penduga adalah kombinasi komponen (kuadrat) dan varians . Namun dalam praktiknya kami ingin mencocokkan model dengan sampel data terbatas tertentu dan kami ingin meminimalkan kesalahan total penaksir yang dievaluasi pada sampel data tertentu yang sebenarnya kami miliki , daripada kesalahan nol rata-rata pada beberapa populasi sampel (yang tidak kita miliki). Karena itu kami ingin mengurangi bias dan varians, untuk meminimalkan kesalahan, yang seringkali berarti mengorbankan ketidakberpihakan untuk membuat pengurangan yang lebih besar dalam komponen varians. Ini terutama benar ketika berhadapan dengan dataset kecil, di mana varians cenderung tinggi.

Saya pikir perbedaan fokus tergantung pada apakah seseorang tertarik pada sifat-sifat prosedur, atau mendapatkan hasil terbaik pada sampel tertentu. Biasanya para frekuensi sering menemukan yang pertama lebih mudah ditangani dalam kerangka itu; Bayesian sering lebih fokus pada yang terakhir.


9

Saya kira ada beberapa jawaban yang mungkin berlaku:

  • Regresi Ridge dapat memberikan identifikasi ketika matriks prediktor tidak peringkat kolom penuh.
  • Lasso dan LAR dapat digunakan ketika jumlah prediktor lebih besar dari jumlah pengamatan (varian lain dari masalah non-singular).
  • Lasso dan LAR adalah algoritma pemilihan variabel otomatis.

Saya tidak yakin bahwa poin pertama mengenai regresi ridge benar-benar fitur; Saya pikir saya lebih suka mengubah model saya untuk berurusan dengan non-identifikasi. Bahkan tanpa perubahan pemodelan, OLS memberikan prediksi yang unik (dan tidak bias / konsisten) dari hasil dalam kasus ini.

Saya bisa melihat bagaimana poin kedua bisa membantu, tetapi seleksi ke depan juga dapat bekerja dalam kasus jumlah parameter yang melebihi jumlah pengamatan sambil menghasilkan perkiraan yang tidak bias / konsisten.

Pada poin terakhir, seleksi maju / mundur, sebagai contoh, mudah diotomatisasi.

Jadi saya masih belum melihat keuntungan sebenarnya.


6
Beberapa komentar: ( 1 ) Perkiraan OLS tidak unik ketika matriks prediktor tidak peringkat penuh. ( 2 ) Konsistensi adalah konsep asimptotik dan karenanya memerlukan urutan estimator. Ini berarti Anda perlu menentukan jenis urutan yang Anda pertimbangkan, dan jenis pertumbuhan yang Anda minati itu penting. ( 3 ) Ada beberapa jenis konsistensi dan pemahaman bahwa perbedaan di antara mereka dapat menjadi ilustrasi. The Zhao & Yu (2006) kertas memiliki diskusi yang bagus. ( 4 ) Ketidaksesuaian dinilai terlalu tinggi.
kardinal

1
( 5 ) Motivasi asli regresi ridge dalam Hoerl & Kennard (1970) adalah untuk menangani matriks desain yang tidak dikondisikan, yang merupakan bentuk "lemah" dari kekurangan peringkat.
kardinal

1
@ kardinal, ulang. (1): Maaf, yang saya maksud adalah prediksi hasil, bukan perkiraan koefisien.
Charlie

1
Ah, baiklah. Itu cocok dengan catatan kaki Anda dalam pertanyaan.
kardinal

Berikut ini tautan ke versi Zhao & Yu (2006) yang tersedia untuk umum seperti dalam komentar di atas.
Richard Hardy

4

Berikut ini adalah contoh terapan dasar dari Biostatistics

Mari kita asumsikan bahwa saya sedang mempelajari hubungan yang mungkin antara keberadaan kanker ovarium dan satu set gen.

Variabel dependen saya adalah biner (dikodekan sebagai nol atau 1) Variabel independen saya mengkode data dari database proteomik.

Seperti yang umum dalam banyak studi genetika, data saya jauh lebih luas daripada yang tinggi. Saya memiliki 216 pengamatan berbeda tetapi 4000 kemungkinan prediksi.

Regresi linier langsung keluar (sistemnya mengerikan karena ditentukan).

teknik pemilihan fitur benar-benar tidak layak. Dengan 4.000+ variabel independen yang berbeda, semua teknik subset yang mungkin benar-benar keluar dari pertanyaan dan bahkan pemilihan fitur berurutan pun meragukan.

Pilihan terbaik mungkin menggunakan regresi logistik dengan jaring elastis.

Saya ingin melakukan pemilihan fitur (mengidentifikasi variabel independen mana yang penting) sehingga regresi ridge benar-benar tidak sesuai.

Sangat mungkin bahwa ada lebih dari 216 variabel independen yang memiliki pengaruh signifikan, jadi saya mungkin tidak boleh menggunakan laso (Lasso tidak dapat mengidentifikasi lebih banyak prediktor daripada yang Anda amati) ...

Masukkan jaring elastis ...


1
dapatkah Anda memberikan buku teks yang berhubungan dengan situasi seperti yang disebutkan oleh Anda?
Qbik

0

Masalah lain yang dapat diatasi oleh metode penyusutan regresi linier adalah mendapatkan estimasi varians yang rendah (mungkin tidak bias) dari efek perawatan rata-rata (ATE) dalam studi kasus kontrol dimensi tinggi pada data pengamatan.

Secara khusus, dalam kasus di mana 1) ada sejumlah besar variabel (membuatnya sulit untuk memilih variabel untuk pencocokan tepat), 2) pencocokan skor kecenderungan gagal menghilangkan ketidakseimbangan dalam sampel pengobatan dan kontrol, dan 3) multikolinieritas hadir, ada ada beberapa teknik, seperti laso adaptif (Zou, 2006) yang memperoleh estimasi asimtotik yang tidak bias. Ada beberapa makalah yang membahas menggunakan regresi laso untuk inferensial kausal dan menghasilkan interval kepercayaan pada estimasi koefisien (lihat posting berikut: Inferensi setelah menggunakan Lasso untuk pemilihan variabel ).

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.