Mungkin hanya karena saya lelah, tetapi saya mengalami kesulitan mencoba memahami algoritma Forward Stagewise Regression. Dari "Elemen Pembelajaran Statistik" halaman 60:
Regresi forward-stagewise (FS) bahkan lebih terbatas daripada regresi step-maju. Itu dimulai seperti regresi maju-langkah, dengan intersep sama dengan [rata-rata] y, dan prediktor terpusat dengan koefisien awalnya semua 0.
Pada setiap langkah algoritma mengidentifikasi variabel yang paling berkorelasi dengan sisa saat ini. Ini kemudian menghitung koefisien regresi linier sederhana dari sisa pada variabel yang dipilih ini, dan kemudian menambahkannya ke koefisien saat ini untuk variabel itu. Ini dilanjutkan sampai tidak ada variabel yang memiliki korelasi dengan residu — yaitu kuadrat-terkecil cocok ketika N> p.
Jadi, apakah ini algoritma ?:
b[1]=mean(y)
b[2..n]=0
r=(y-X*b)
index, maxCorr = max(transpose(r)*X)
while(abs(maxCorr) > someThreshold)
b[index]=b[index]+regress(r,X[1..n][index])
r=(y-X*b)
index, maxCorr = max(transpose(r)*X)
Di mana b adalah vektor-kolom dari koefisien, X adalah matriks input, dan y adalah vektor-kolom dari output. Yaitu y = X * b + kesalahan.
Bertanya karena algoritma ini memberi saya hanya beberapa koefisien non-nol pada dataset yang saya uji (dengan threshold = .0001), dan akurasi prediksi sama sekali tidak bagus.