1. Apa yang dimaksud dengan regresi penurunan-peringkat (RRR)?
Pertimbangkan regresi linier berganda multivariat, yaitu regresi dengan variabel independen dan variabel dependen q . Biarkan X dan Y menjadi pusat prediktor ( n × p ) dan respons ( n × q ) dataset. Kemudian regresi ordinary least square (OLS) biasa dapat dirumuskan sebagai meminimalkan fungsi biaya berikut:pqXYn×pn×q
L=∥Y−XB∥2,
di mana adalah matriks bobot regresi. Solusinya diberikan oleh dan mudah untuk melihat bahwa itu sama dengan melakukan regresi OLS terpisah, satu untuk setiap variabel dependen. p × q B O L S = ( X ⊤ X ) - 1 X ⊤ Y , qBp×q
B^OLS=(X⊤X)−1X⊤Y,
q
Regresi Reduced-rank memperkenalkan kendala peringkat pada , yaitu harus diminimalkan dengan , di mana adalah maksimal rank diperbolehkan . L rank ( B ) ≤ r r BBLrank(B)≤rrB
2. Bagaimana cara mendapatkan solusi RRR?
Ternyata RRR dapat digunakan sebagai masalah vektor eigen. Memang, dengan menggunakan fakta bahwa OLS pada dasarnya adalah proyeksi ortogonal pada ruang kolom , kita dapat menulis ulang sebagaiIstilah pertama tidak tergantung pada dan istilah kedua dapat diminimalkan oleh SVD / PCA dari nilai yang dipasang . L L = ‖ Y - X B O L S ‖ 2 + ‖ X B O L S - X B ‖ 2 . B Y = X B O L SXL
L=∥Y−XB^OLS∥2+∥XB^OLS−XB∥2.
BY^=XB^OLS
Khususnya, jika adalah sumbu utama pertama dari , maka r Y B R R R = B O L S U r U ⊤ r .UrrY^
B^RRR=B^OLSUrU⊤r.
3. Untuk apa RRR?
Mungkin ada dua alasan untuk menggunakan RRR.
Pertama, seseorang dapat menggunakannya untuk tujuan regularisasi. Demikian pula untuk regresi ridge (RR), lasso, dll, RRR memperkenalkan beberapa "penyusutan" penalti pada . Peringkat optimal dapat ditemukan melalui validasi silang. Dalam pengalaman saya, RRR dengan mudah mengungguli OLS tetapi cenderung kalah dari RR. Namun, RRR + RR dapat melakukan (sedikit) lebih baik daripada RR saja. rBr
Kedua, seseorang dapat menggunakannya sebagai metode reduksi dimensi / eksplorasi data. Jika kita memiliki banyak variabel prediktor dan banyak variabel dependen, maka RRR akan membangun "faktor laten" di ruang prediktor yang melakukan pekerjaan terbaik dalam menjelaskan varians DV. Seseorang kemudian dapat mencoba untuk menafsirkan faktor-faktor laten ini, memplotnya, dll. Sejauh yang saya tahu, ini secara rutin dilakukan dalam ekologi di mana RRR dikenal sebagai analisis redundansi dan merupakan contoh dari apa yang mereka sebut metode penahbisan ( lihat jawaban @ GavinSimpson di sini ).
4. Hubungan dengan metode pengurangan dimensi lain
RRR terhubung erat dengan metode pengurangan dimensi lain, seperti CCA dan PLS. Saya membahasnya sedikit dalam jawaban saya untuk Apa hubungan antara kuadrat terkecil parsial, regresi peringkat berkurang, dan regresi komponen utama?
jika dan adalah data prediktor terpusat ( ) dan respons ( ) dan jika kita mencari pasangan sumbu pertama, untuk dan untuk , maka metode ini memaksimalkan jumlah berikut:XYn×pn×qw∈RpXv∈RqY
PCA:RRR:PLS:CCA:Var(Xw)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)Var(Xw)⋅Corr2(Xw,Yv)
Lihat di sana untuk detail lebih lanjut.
Lihat Torre, 2009, Kerangka Kerja Setidaknya-Kuadrat untuk Analisis Komponen untuk perawatan terperinci tentang bagaimana sebagian besar metode multivariat linear umum (misalnya PCA, CCA, LDA, - tetapi bukan PLS!) Dapat dilihat sebagai RRR.
5. Mengapa bagian ini dalam Hastie et al. sangat membingungkan?
Hastie et al. gunakan istilah RRR untuk merujuk pada hal yang sedikit berbeda! Alih-alih menggunakan fungsi loss mereka menggunakan seperti dapat dilihat pada rumus mereka 3.68. Ini memperkenalkan faktor whitening ke fungsi loss, pada dasarnya memutihkan variabel dependen. Jika Anda melihat perbandingan antara CCA dan RRR di atas, Anda akan melihat bahwa jika diputihkan maka perbedaannya menghilang. Jadi apa yang Hastie et al. panggil RRR sebenarnya CCA yang menyamar (dan memang, lihat 3.69 mereka).
L=∥Y−XB∥2,
L=∥(Y−XB)(Y⊤Y)−1/2∥2,
YY
Tidak ada yang dijelaskan dengan baik di bagian ini, karena itu membingungkan.
Lihat jawaban saya pada tutorial Ramah atau pengantar regresi tingkat rendah untuk bacaan lebih lanjut.