Bagaimana saya bisa memperkirakan kesalahan standar koefisien saat menggunakan regresi ridge?

18

Saya menggunakan regresi ridge pada data yang sangat multikolinier. Menggunakan OLS saya mendapatkan kesalahan standar besar pada koefisien karena multikolinieritas. Saya tahu regresi ridge adalah cara untuk menangani masalah ini, tetapi dalam semua implementasi regresi ridge yang saya lihat, tidak ada kesalahan standar yang dilaporkan untuk koefisien. Saya ingin beberapa cara memperkirakan berapa banyak regresi ridge membantu dengan melihat seberapa banyak penurunan kesalahan standar koefisien spesifik. Apakah ada cara untuk memperkirakannya dalam regresi ridge?

standard-error ridge-regression

— James Davison
sumber

19

Saya pikir boostrap akan menjadi pilihan terbaik untuk mendapatkan SES yang kuat. Ini dilakukan dalam beberapa pekerjaan terapan menggunakan metode penyusutan, misalnya Analisis data North American Rheumatoid Arthritis Consortium menggunakan pendekatan regresi logistik yang dikenakan sanksi (BMC Proceedings 2009). Ada juga makalah yang bagus dari Casella pada perhitungan SE dengan model yang dihukum, Penalized Regression, Standard Errors, dan Bayesian Lassos (Bayesian Analysis 2010 5 (2)). Tetapi mereka lebih peduli dengan hukuman laso dan elasticnet .

Saya selalu berpikir regresi ridge sebagai cara untuk mendapatkan prediksi yang lebih baik daripada OLS standar, di mana model ini umumnya tidak parcimonious. Untuk pemilihan variabel, kriteria laso atau elasticnet lebih tepat, tetapi kemudian sulit untuk menerapkan prosedur bootstrap (karena variabel yang dipilih akan berubah dari satu sampel ke yang lain, dan bahkan dalam loop lipatan dalam yang digunakan untuk mengoptimalkan / parameter); ini bukan kasus dengan regresi ridge, karena Anda selalu mempertimbangkan semua variabel. $k$ $\ell_1$ $\ell_2$

Saya tidak tahu tentang paket R yang akan memberikan informasi ini. Tampaknya tidak tersedia dalam paket glmnet (lihat makalah Friedman di JSS, Jalur Regulasi untuk Model Linear Umum melalui Keturunan Koordinat ). Namun, Jelle Goeman yang menulis paket hukuman membahas hal ini juga. Tidak dapat menemukan PDF asli di web, jadi saya hanya mengutip kata-katanya:

Merupakan pertanyaan yang sangat wajar untuk meminta kesalahan standar koefisien regresi atau jumlah perkiraan lainnya. Pada prinsipnya kesalahan standar seperti itu dapat dengan mudah dihitung, misalnya menggunakan bootstrap.

Meski begitu, paket ini sengaja tidak menyediakannya. Alasan untuk ini adalah bahwa kesalahan standar tidak terlalu berarti untuk perkiraan yang sangat bias seperti yang timbul dari metode estimasi hukuman. Estimasi hukuman adalah prosedur yang mengurangi varians estimator dengan memperkenalkan bias substansial. Bias dari masing-masing estimator karena itu merupakan komponen utama dari kesalahan kuadrat rata-rata, sedangkan variansnya hanya berkontribusi sebagian kecil.

Sayangnya, dalam sebagian besar aplikasi regresi yang dihukum tidak mungkin untuk mendapatkan estimasi bias yang cukup tepat. Setiap perhitungan berbasis bootstrap hanya dapat memberikan penilaian terhadap varian estimasi. Perkiraan bias yang dapat dipercaya hanya tersedia jika estimasi bias yang dapat diandalkan tersedia, yang biasanya tidak terjadi dalam situasi di mana estimasi hukuman digunakan.

Oleh karena itu, melaporkan kesalahan standar dari perkiraan hukuman hanya menceritakan sebagian dari cerita. Ini dapat memberikan kesan yang keliru tentang ketepatan tinggi, benar-benar mengabaikan ketidakakuratan yang disebabkan oleh bias. Tentu saja merupakan kesalahan untuk membuat pernyataan kepercayaan yang hanya didasarkan pada penilaian varian estimasi, seperti yang dilakukan interval kepercayaan berbasis bootstrap.

— chl
sumber

2

Terima kasih telah memberikan penawaran ini. Kutipan asli dapat ditemukan di sini di halaman 18.

— Francisco Arceo

8

Dengan asumsi bahwa proses menghasilkan data mengikuti asumsi standar di belakang OLS kesalahan standar untuk regresi ridge diberikan oleh:

$\sigma^2 (A^T A + \Gamma^T \Gamma)^{-1} A^T A (A^T A + \Gamma^T \Gamma)^{-1}$

Notasi di atas mengikuti notasi wiki untuk regresi ridge . Secara khusus,

$A$

$\sigma^2$

$\Gamma$

1

A^{T} A

$A^T A$

A

$A$

1

$\Gamma ^T\Gamma$ $\text{$\lambda $I}$ $\text{I}$ $\lambda$ integral dan masalah terbalik lainnya. "Masalah terbalik dalam sains adalah proses penghitungan dari serangkaian pengamatan faktor-faktor penyebab yang menghasilkannya: misalnya, menghitung gambar dalam tomografi komputer, sumber yang direkonstruksi dalam akustik, atau menghitung kerapatan Bumi dari pengukuran gravitasinya. bidang. di sini "SPSS berisi kode pelengkap yang memberikan standar deviasi dari semua parameter dan parameter tambahan dapat diturunkan dengan menggunakan perambatan kesalahan seperti pada lampiran makalah ini .

Apa yang umumnya disalahpahami tentang regularisasi Tikhonov adalah bahwa jumlah smoothing sangat sedikit hubungannya dengan pemasangan kurva, faktor smoothing harus digunakan untuk meminimalkan kesalahan parameter yang diinginkan. Anda harus menjelaskan lebih banyak tentang masalah spesifik yang Anda coba selesaikan untuk menggunakan regresi ridge dengan benar dalam beberapa konteks masalah invers yang valid, dan banyak makalah tentang pemilihan faktor pemulusan, dan banyak penggunaan regularisasi Tikhonov yang dipublikasikan adalah sedikit heuristik.

Selain itu regularisasi Tikhonov hanya merupakan salah satu perlakuan masalah terbalik di antara banyak. Ikuti tautan ke jurnal Inverse Problems .

— Carl
sumber