Statistik PRESS untuk regresi ridge

Dalam kuadrat terkecil biasa, regresi vektor target terhadap seperangkat prediktor , matriks topi dihitung sebagai $y$ $X$

H = X (X^{t} X)^{- 1} X^{t}

$H = X (X^tX)^{-1} X^t$

dan PRESS (prediksi jumlah residu kuadrat) dihitung oleh

S S_{P} = \sum_{i} {(\frac{e_{i}}{1 - h_{i i}})}^{2}

$SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2$

di mana adalah residu ke- dan adalah elemen diagonal dari matriks topi. $e_i$ $i$ $h_{ii}$

Dalam regresi ridge dengan koefisien penalti , matriks topi dimodifikasi menjadi $\lambda$

H = X (X^{t} X + λ I)^{- 1} X^{t}

$H = X (X^t X + \lambda I)^{-1} X^t$

Dapatkah statistik PRESS dihitung dengan cara yang sama, menggunakan matriks topi yang dimodifikasi?

regression cross-validation ridge-regression

— Chris Taylor
sumber

Jawaban:

ya, saya banyak menggunakan metode ini untuk regresi ridge kernel, dan ini adalah cara yang baik untuk memilih parameter ridge (lihat misalnya makalah ini [doi , pracetak] ).

Pencarian untuk parameter ridge optimal dapat dibuat sangat efisien jika perhitungan a dilakukan dalam bentuk kanonik (lihat misalnya makalah ini ), di mana model ini di-parameter ulang sehingga kebalikan dari matriks diagonal diperlukan.

— Dikran Marsupial
sumber

Terima kasih. Dalam pengalaman Anda, jika Anda menggunakan PRESS untuk memilih parameter ridge, bagaimana kesalahan prediksi Anda yang sebenarnya pada set tes dibandingkan dengan PRESS yang diukur pada set pelatihan? Agaknya (PRESS / n) adalah perkiraan kesalahan kesalahan yang terlalu kecil, tetapi apakah ini bisa diandalkan dalam praktiknya?

— Chris Taylor

PRESS kira-kira tidak bias, masalah sebenarnya adalah varians, yang berarti ada banyak variabilitas tergantung pada sampel data tertentu yang dievaluasi. Ini berarti bahwa jika Anda mengoptimalkan PRESS dalam pemilihan model, Anda dapat menyesuaikan kriteria pemilihan model dan berakhir dengan model yang buruk. Namun untuk tipe model yang saya minati (metode pembelajaran kernel) itu cukup efektif dan masalah varians tampaknya tidak jauh lebih buruk daripada kriteria lain yang mungkin diharapkan bekerja lebih baik.

— Dikran Marsupial

Jika ragu, Anda selalu dapat menggunakan mengantongi selain regresi ridge sebagai semacam pendekatan "sabuk-dan-kawat gigi" untuk menghindari pemasangan berlebihan.

— Dikran Marsupial

Terima kasih atas bantuan Anda! Saya mendapat kesan bahwa mengantongi tidak memberikan perbaikan dalam model linier, misalnya seperti yang diklaim dalam artikel Wikipedia ? Bisakah Anda mengklarifikasi?

— Chris Taylor

tidak masalah. Saya menduga artikel Wikipedia tidak benar, pilihan subset dalam regresi linier adalah salah satu contoh yang digunakan Brieman dalam makalah asli tentang Bagging. Ada kemungkinan bahwa regresi linear kuadrat-terkecil tanpa seleksi subset secara asimptotik tidak terpengaruh oleh bagging, tetapi bahkan kemudian saya ragu itu berlaku untuk model linear yang lebih umum (seperti regresi logistik).

— Dikran Marsupial

Pendekatan berikut dapat diambil untuk menerapkan regularisasi L2 dan mendapatkan statistik PRESS. Metode ini menggunakan pendekatan augmentasi data.

Asumsikan Anda memiliki sampel N Y, dan variabel penjelas K X1, X2 ... Xk .... XK

Tambahkan variabel tambahan X0 yang memiliki 1 di atas sampel N
Bertambah dengan K sampel tambahan di mana:
- Nilai Y adalah 0 untuk masing-masing sampel K
- Nilai X0 adalah 0 untuk masing-masing sampel K
- Nilai Xk adalah SQRT (Lambda * N) * [STDEV (Xk) di atas sampel N] jika pada diagonal, dan 0 sebaliknya
Sekarang ada sampel N + K dan variabel K + 1. Regresi linier normal dapat diselesaikan dengan input ini.
Karena ini dilakukan dalam satu langkah, statistik PRESS dapat dihitung sebagai normal.
Masukan regularisasi Lambda harus diputuskan. Meninjau statistik PRESS untuk berbagai input Lambada dapat membantu menentukan nilai yang sesuai.

— James65
sumber