Ridge perkiraan regresi parameter dalam model linear oleh β λ = ( X ⊤ X + λ I ) - 1 X ⊤ y , di mana λ adalah parameter regularisasi. Sudah diketahui bahwa sering berkinerja lebih baik daripada regresi OLS (dengan λ = 0 ) ketika ada banyak prediktor yang berkorelasi.
Teorema eksistensi untuk regresi ridge mengatakan bahwa ada selalu ada parameter sehingga rata-kuadrat-kesalahan β λ secara ketat lebih kecil dari rata-kuadrat-kesalahan dari OLS estimasi β O L S = β 0 . Dengan kata lain, nilai optimal λ selalu tidak nol. Ini tampaknya pertama kali terbukti di Hoerl dan Kennard, 1970 dan diulangi dalam banyak catatan kuliah yang saya temukan online (misalnya di sini dan di sini ). Pertanyaan saya adalah tentang asumsi teorema ini:
Apakah ada asumsi tentang matriks kovarians ?
Adakah asumsi tentang dimensi ?
Secara khusus, apakah teorema itu masih benar jika prediktornya ortogonal (yaitu diagonal), atau bahkan jika ? Dan apakah masih benar jika hanya ada satu atau dua prediktor (katakanlah, satu prediktor dan intersep)?
Jika teorema tidak membuat asumsi seperti itu dan tetap benar bahkan dalam kasus-kasus ini, maka mengapa regresi ridge biasanya direkomendasikan hanya dalam kasus prediktor berkorelasi, dan tidak pernah (?) Direkomendasikan untuk regresi sederhana (yaitu tidak berganda)?
Ini terkait dengan pertanyaan saya tentang pandangan Unified pada susut: apa hubungan (jika ada) antara paradoks Stein, regresi ridge, dan efek acak dalam model campuran? , tetapi tidak ada jawaban yang menjelaskan poin ini sampai sekarang.