Apa asumsi regresi ridge dan bagaimana cara mengujinya?

Pertimbangkan model standar untuk regresi berganda mana , jadi normalitas, homoscedasticity, dan tidak berkorelasi kesalahan tetap ada.

Y = X β + ε

$Y=X\beta+\varepsilon$

ε \sim N (0, σ^{2} I_{n})

$\varepsilon \sim \mathcal N(0, \sigma^2I_n)$

Misalkan kita melakukan regresi ridge, dengan menambahkan jumlah kecil yang sama untuk semua elemen diagonal : $X$

β_{r saya d g e} = [X^{'} X + k saya]^{- 1} X^{'} Y

$\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y$

Ada beberapa nilai yang koefisien ridge memiliki kurang berarti kesalahan squared dari yang diperoleh oleh OLS, meskipun adalah estimator bias . Dalam praktiknya, diperoleh dengan validasi silang. $k$ $\beta_\mathrm{ridge}$ $\beta$ $k$

Inilah pertanyaan saya: apa asumsi yang mendasari model punggungan? Agar lebih konkret,

Apakah semua asumsi ordinary least square (OLS) valid dengan regresi ridge?
Jika ya untuk pertanyaan 1, bagaimana kita menguji homoseksualitas dan kurangnya autokorelasi dengan penaksir bias dari ? $\beta$
Apakah ada pekerjaan untuk menguji asumsi OLS lainnya (homoscedasticity dan kurangnya autocorrelation) di bawah regresi ridge?

regression assumptions ridge-regression

— akyves
sumber

Harap dicatat bahwa OLS tidak menganggap prediktor independen. Hanya metode solusi atau formula tertentu yang membuat asumsi seperti itu. Apa yang penting adalah bagaimana Anda memilih pengganda regresi ridge, bukan estimasi

bias. Jika pengganda itu dipilih dengan mengamati jejak bubungan, maka Anda tidak benar-benar memiliki cara untuk mengukur ketidakpastian, yang menimbulkan pertanyaan sebagian besar tes diagnostik formal dalam teori regresi linier. Ini membuat saya bertanya apa yang sebenarnya Anda maksud dengan "regresi ridge": bagaimana tepatnya Anda memperkirakan parameternya?

β

$\beta$

— whuber

Mungkin saya salah, tapi mengingat model standar regresi berganda

. Dan jika

bukan peringkat penuh, ini mengarah ke matriks

tidak dapat dibalik , terutama dalam kasus dimensi X yang tinggi. Saya telah mengedit pertanyaan saya. Terima kasih.

β_{O L S} = (X^{'} X)^{- 1} X^{'} Y

$\beta_{OLS}=(X'X)^{-1}X'Y$

X

$X$

X^{'} X

$X'X$

— akyves

Regresi linier dapat dengan sempurna menangani kolinearitas, asalkan tidak "terlalu besar".

— jona

Itu bukan model untuk regresi berganda: itu hanya satu cara untuk mengekspresikan estimasi kuadrat terkecil. Ketika

tidak dapat dibalik, persamaan normal masih memiliki solusi dan (biasanya) model masih memiliki kesesuaian yang unik , yang berarti ia membuat prediksi yang unik.

X^{'} X

$X^\prime X$

— whuber

Terkait: Model asumsi regresi kuadrat terkecil parsial (PLS) .

— Amuba mengatakan Reinstate Monica

Jawaban:

Apa yang dimaksud dengan asumsi prosedur statistik?

Saya bukan ahli statistik dan jadi ini mungkin salah, tapi saya pikir kata "asumsi" sering digunakan secara tidak resmi dan dapat merujuk ke berbagai hal. Bagi saya, "asumsi" pada dasarnya adalah sesuatu yang hanya dapat dihasilkan oleh hasil teoretis (teorema).

Ketika orang berbicara tentang asumsi regresi linier ( lihat di sini untuk diskusi mendalam), mereka biasanya merujuk pada teorema Gauss-Markov yang mengatakan bahwa berdasarkan asumsi kesalahan tidak berkorelasi, sama-varians, nol-rata-rata, rata-rata nol, estimasi OLS adalah BIRU , yaitu tidak bias dan memiliki varian minimum. Di luar konteks teorema Gauss-Markov, tidak jelas bagi saya apa arti "asumsi regresi".

Demikian pula, asumsi uji-t, katakanlah, satu sampel mengacu pada asumsi di mana statistik- didistribusikan- dan karenanya kesimpulannya valid. Hal ini tidak disebut "teorema", tetapi merupakan hasil matematika yang jelas: jika sampel terdistribusi normal, maka -statistic akan mengikuti Student -Distribusi dengan derajat kebebasan. $t$ $t$ $n$ $t$ $t$ $n-1$

Asumsi teknik regresi yang dihukum

Pertimbangkan sekarang setiap teknik regresi yang diatur: regresi ridge, laso, jaring elastis, regresi komponen utama, regresi kuadrat terkecil parsial, dll. Inti dari metode ini adalah untuk membuat estimasi parameter regresi yang bias , dan berharap dapat mengurangi yang diharapkan kerugian dengan mengeksploitasi trade-off bias-varians.

$\hat \beta$

Tetapi bagaimana dengan hasil matematika bahwa regresi ridge selalu mengalahkan OLS?

$\lambda$ $\beta$ $\lambda$

Hasil ini sebenarnya tidak memerlukan asumsi dan selalu benar, tetapi akan aneh untuk mengklaim bahwa regresi ridge tidak memiliki asumsi.

Oke, tapi bagaimana saya tahu apakah saya bisa menerapkan regresi ridge atau tidak?

Saya akan mengatakan bahwa bahkan jika kita tidak dapat berbicara tentang asumsi, kita dapat berbicara tentang aturan praktis . Telah diketahui bahwa regresi ridge cenderung paling berguna dalam kasus regresi berganda dengan prediktor berkorelasi. Sudah diketahui bahwa ia cenderung mengungguli OLS, seringkali dengan margin yang besar. Itu akan cenderung mengungguli bahkan dalam kasus heteroskedastisitas, kesalahan berkorelasi, atau apa pun. Jadi aturan praktis yang sederhana mengatakan bahwa jika Anda memiliki data multikolinier, regresi ridge dan validasi silang adalah ide yang bagus.

Mungkin ada aturan praktis lainnya yang berguna dan trik perdagangan (seperti misalnya apa yang harus dilakukan dengan pencilan kotor). Tapi itu bukan asumsi.

$p$ $p$

— amuba kata Reinstate Monica
sumber

Dalam situasi di mana seseorang memperoleh sifat-sifat inferensi dalam kaitannya dengan beberapa prosedur, apakah itu sifat dari uji hipotesis kemiringan regresi atau sifat-sifat dari interval kepercayaan atau interval prediksi, misalnya, tes itu sendiri akan diturunkan di bawah beberapa set asumsi. Karena di banyak bidang subjek, tujuan paling umum menggunakan regresi adalah untuk melakukan semacam inferensi (memang, di beberapa bidang aplikasi jarang dilakukan karena alasan lain), asumsi yang akan dibuat untuk prosedur inferensial secara alami terkait dengan ...

— ctd

ctd ... benda yang mereka gunakan. Jadi, jika Anda memerlukan beberapa asumsi untuk memperoleh uji-t untuk menguji koefisien regresi atau untuk uji F parsial atau untuk CI untuk interval rata-rata atau prediksi ... dan bentuk-bentuk kesimpulan yang biasa semua sama atau hampir sama dengan kumpulan asumsi yang sama, maka mereka akan dianggap sebagai asumsi yang terkait dengan melakukan inferensi menggunakan hal itu. Jika seseorang melakukan inferensi dengan regresi ridge (katakanlah interval prediksi) dan membuat asumsi untuk melakukannya, itu mungkin sama-sama dikatakan sebagai asumsi ...

— ctd

diperlukan untuk dapat memperoleh (dan mungkin, kemudian, menggunakan) jenis inferensi khusus pada regresi ridge.

— Glen_b -Reinstate Monica

R^{2}

$R^2$

Belum terlambat saya berharap untuk mengucapkan terima kasih @amoeba. Jawaban bagus!

— akyves

Saya ingin memberikan masukan dari perspektif statistik. Jika Y ~ N (Xb, sigma2 * In), maka mean square error dari b ^ adalah

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Jika XT X kira-kira nol, maka inv (XT X) akan sangat besar. Jadi estimasi parameter b tidak stabil dan dapat memiliki masalah berikut.

beberapa nilai absolut dari estimasi parameter sangat besar
b memiliki tanda positif atau negatif yang berlawanan dari yang diharapkan.
menambah atau menghapus variabel atau pengamatan akan membuat estimasi parameter berubah secara dramatis.

Untuk membuat estimasi ordinal least square dari b stabil, kami memperkenalkan regresi ridge dengan memperkirakan b^(k)=inv(X.T*X+kI)*X.T*Y.Dan, kita dapat membuktikan bahwa selalu ada ak yang membuat kesalahan kuadrat rata-rata dari

MSE(b^(k)) < MSE(b^).

Dalam pembelajaran mesin, regresi ridge disebut regularisasi L2 dan untuk mengatasi masalah over-fitting yang disebabkan oleh banyak fitur.

— Emma
sumber