Regresi Aljabar Kuadrat Terkecil Langkah-demi-Langkah Komputasi Aljabar Linier

Sebagai pendahuluan untuk pertanyaan tentang model linear-campuran dalam R, dan untuk berbagi sebagai referensi bagi para pecinta statistik pemula / menengah, saya memutuskan untuk memposting sebagai "gaya Tanya Jawab" yang independen, langkah-langkah yang terlibat dalam perhitungan "manual" dari koefisien dan nilai prediksi regresi linier sederhana.

Contohnya adalah dengan dataset R-built-in mtcars,, dan akan ditetapkan sebagai mil per galon yang dikonsumsi oleh kendaraan yang bertindak sebagai variabel independen, mundur dari bobot mobil (variabel kontinu), dan jumlah silinder sebagai faktor dengan tiga level (4, 6 atau 8) tanpa interaksi.

EDIT: Jika Anda tertarik dengan pertanyaan ini, Anda pasti akan menemukan jawaban yang terperinci dan memuaskan dalam posting ini oleh Matthew Drury di luar CV .

— Antoni Parellada
sumber

Ketika Anda mengatakan "perhitungan manual", apa yang Anda cari? Ini relatif mudah untuk menunjukkan serangkaian langkah-langkah yang relatif sederhana untuk mendapatkan estimasi parameter dan sebagainya (melalui ortogonisasi Gram-Schmidt, misalnya, atau oleh operator SWEEP), tetapi bukan bagaimana R melakukan perhitungan secara internal; itu (dan sebagian besar paket statistik lainnya) menggunakan dekomposisi QR (dibahas dalam sejumlah posting di situs - pencarian pada dekomposisi QR menghasilkan sejumlah posting, beberapa di antaranya Anda mungkin mendapatkan nilai langsung dari)

— Glen_b -Reinstate Monica

Iya nih. Saya percaya bahwa ini adalah alamat yang sangat baik dalam jawaban oleh MD. Saya mungkin harus mengedit posting saya, mungkin menekankan pendekatan geometris di belakang jawaban saya - ruang kolom, matriks proyeksi ...

— Antoni Parellada

Ya! @Matthew Drury Apakah Anda ingin saya menghapus baris itu di OP, atau memperbarui tautan?

— Antoni Parellada

Tidak yakin apakah Anda memiliki tautan ini, tetapi ini terkait erat, dan saya sangat suka jawaban JM. stats.stackexchange.com/questions/1829/…

— Haitao Du

Jawaban:

Catatan : Saya telah memposting versi yang diperluas dari jawaban ini di situs web saya .

Apakah Anda akan mempertimbangkan untuk mengirim jawaban yang mirip dengan mesin R yang sebenarnya?

Yakin! Kita pergi ke lubang kelinci.

Lapisan pertama adalah lm, antarmuka terkena programmer R. Anda dapat melihat sumbernya hanya dengan mengetik lmdi konsol R. Mayoritas (seperti sebagian besar kode tingkat produksi) sibuk memeriksa input, mengatur atribut objek, dan melempar kesalahan; tapi garis ini menonjol

lm.fit(x, y, offset = offset, singular.ok = singular.ok, 
                ...)

lm.fitadalah fungsi R lain, Anda bisa menyebutnya sendiri. Sementara dengan lmmudah bekerja dengan formula dan bingkai data, membutuhkan lm.fitmatriks, jadi itu satu tingkat abstraksi dihapus. Memeriksa sumber untuk lm.fit, lebih banyak pekerjaan, dan baris yang sangat menarik berikut

z <- .Call(C_Cdqrls, x, y, tol, FALSE)

Sekarang kita menuju suatu tempat. .Calladalah cara R memanggil ke kode C. Ada fungsi C, C_Cdqrls di sumber R di suatu tempat, dan kita perlu menemukannya. Ini dia .

Melihat fungsi C, sekali lagi, kami menemukan sebagian besar batas memeriksa, pembersihan kesalahan, dan pekerjaan yang sibuk. Tetapi garis ini berbeda

F77_CALL(dqrls)(REAL(qr), &n, &p, REAL(y), &ny, &rtol,
        REAL(coefficients), REAL(residuals), REAL(effects),
        &rank, INTEGER(pivot), REAL(qraux), work);

Jadi sekarang kita menggunakan bahasa ketiga kita, R telah memanggil C yang memanggil fortran. Ini kode fortran .

Komentar pertama menceritakan semuanya

c     dqrfit is a subroutine to compute least squares solutions
c     to the system
c
c     (1)               x * b = y

(Menariknya, sepertinya nama rutin ini diubah di beberapa titik, tetapi seseorang lupa memperbarui komentar). Jadi kita akhirnya pada titik di mana kita dapat melakukan beberapa aljabar linier, dan benar-benar menyelesaikan sistem persamaan. Ini adalah hal yang benar-benar bagus untuk fortran, yang menjelaskan mengapa kami melewati begitu banyak lapisan untuk sampai ke sini.

Komentar tersebut juga menjelaskan apa yang akan dilakukan kode

c     on return
c
c        x      contains the output array from dqrdc2.
c               namely the qr decomposition of x stored in
c               compact form.

Jadi fortran akan memecahkan sistem dengan mencari dekomposisi. $QR$

Hal pertama yang terjadi, dan yang paling penting, adalah

call dqrdc2(x,n,n,p,tol,k,qraux,jpvt,work)

Ini memanggil fungsi fortran dqrdc2pada matriks input kami x. Apa ini?

 c     dqrfit uses the linpack routines dqrdc and dqrsl.

Jadi kami akhirnya berhasil linpack . Linpack adalah perpustakaan aljabar linear fortran yang telah ada sejak tahun 70-an. Aljabar linear yang paling serius akhirnya menemukan cara untuk linpack. Dalam kasus kami, kami menggunakan fungsi dqrdc2

c     dqrdc2 uses householder transformations to compute the qr
c     factorization of an n by p matrix x.

Di sinilah pekerjaan yang sebenarnya dilakukan. Butuh satu hari penuh yang baik bagi saya untuk mencari tahu apa yang dilakukan kode ini, levelnya serendah itu. Tetapi secara umum, kami memiliki matriks $X$ dan kami ingin memfaktorkannya ke dalam produk mana adalah matriks ortogonal dan adalah matriks segitiga atas. Ini adalah hal yang cerdas untuk dilakukan, karena begitu Anda memiliki dan Anda dapat menyelesaikan persamaan linear untuk regresi $X = QR$ $Q$ $R$ $Q$ $R$

X^{t} X β = X^{t} Y

$X^t X \beta = X^t Y$

sangat mudah. Memang

X^{t} X = R^{t} Q^{t} Q R = R^{t} R

$X^t X = R^t Q^t Q R = R^t R$

jadi seluruh sistem menjadi

R^{t} R β = R^{t} Q^{t} y

$R^t R \beta = R^t Q^t y$

tapi adalah segitiga atas dan memiliki peringkat yang sama seperti , sehingga selama masalah kita baik yang ditimbulkan, itu adalah peringkat penuh, dan kami mungkin juga hanya memecahkan sistem berkurang $R$ $X^t X$

R β = Q^{t} y

$R \beta = Q^t y$

Tapi ini hal yang luar biasa. adalah segitiga atas, jadi persamaan linear terakhir di sini adalah adil , jadi penyelesaian untuk adalah sepele. Anda kemudian bisa naik baris, satu per satu, dan gantikan di $R$ constant * beta_n = constant $\beta_n$ $\beta$ s yang sudah Anda ketahui, setiap kali mendapatkan persamaan linear satu variabel sederhana untuk dipecahkan. Jadi, setelah Anda memiliki dan , semuanya runtuh menjadi apa yang disebut substitusi mundur , yang mudah. Anda dapat membaca tentang ini secara lebih rinci di sini , di mana contoh kecil eksplisit sepenuhnya dikerjakan. $Q$ $R$

— Matthew Drury
sumber

Ini adalah esai pendek matematika / coding paling menyenangkan yang bisa dibayangkan. Saya tidak tahu apa-apa tentang pengkodean, tetapi "tur" Anda melalui nyali fungsi R yang tampaknya tidak berbahaya benar-benar membuka mata. Tulisan yang sangat baik! Sejak "baik hati" melakukan trik ... Bisakah Anda berbaik hati mempertimbangkan satu ini sebagai tantangan terkait? :-)

— Antoni Parellada

+1 Saya belum pernah melihat ini sebelumnya, ringkasan yang bagus. Hanya untuk menambahkan sedikit informasi jika @Antoni tidak terbiasa dengan transformasi Householder; itu pada dasarnya adalah transformasi linier yang memungkinkan Anda untuk menghilangkan satu bagian dari matriks R yang Anda coba capai tanpa memperbaiki bagian yang sudah Anda tangani (selama Anda melakukannya dengan urutan yang benar), menjadikannya ideal untuk mentransformasikan matriks ke bentuk segitiga atas (Rotasi Givens melakukan pekerjaan serupa dan mungkin lebih mudah divisualisasikan, tetapi sedikit lebih lambat). Saat Anda membangun R, Anda harus sekaligus membangun Q

— Glen_b -Reinstate Monica

Matthew (+1), saya sarankan Anda memulai atau mengakhiri posting Anda dengan tautan ke madrury write-up Anda yang jauh lebih rinci .

— Amuba kata Reinstate Monica

-1 untuk keluar dan tidak turun ke kode mesin.

— S. Kolassa - Pasang kembali Monica

(Maaf, hanya bercanda ;-)

— S. Kolassa - Reinstate Monica

Perhitungan langkah demi langkah aktual dalam R dijelaskan dengan indah dalam jawaban oleh Matthew Drury di utas yang sama ini. Dalam jawaban ini saya ingin berjalan melalui proses membuktikan kepada diri sendiri bahwa hasil dalam R dengan contoh sederhana dapat dicapai mengikuti aljabar linear proyeksi ke ruang kolom, dan konsep kesalahan tegak lurus (titik produk), diilustrasikan dalam posting yang berbeda , dan dijelaskan dengan baik oleh Dr. Strang di Aljabar Linier dan Penerapannya , dan mudah diakses di sini .

$\small \beta$

m hal g = saya n t e r c e hal t (c y l = 4) + β_{1} * w e saya g h t + D 1 * saya n t e r c e hal t (c y l = 6) + D 2 * saya n t e r c e hal t (c y l = 8) [*]

$\small mpg = intercept\,(cyl=4) + \beta_1\,*\,weight + D1\,* intercept\,(cyl=6) + D2\, * intercept\,(cyl=8)\,\,\,\,[*]$

$\small D1$ $\small D2$ $\small X$

attach(mtcars)    
x1 <- wt

    x2 <- cyl; x2[x2==4] <- 1; x2[!x2==1] <-0

    x3 <- cyl; x3[x3==6] <- 1; x3[!x3==1] <-0

    x4 <- cyl; x4[x4==8] <- 1; x4[!x4==1] <-0

    X <- cbind(x1, x2, x3, x4)
    colnames(X) <-c('wt','4cyl', '6cyl', '8cyl')

head(X)
        wt 4cyl 6cyl 8cyl
[1,] 2.620    0    1    0
[2,] 2.875    0    1    0
[3,] 2.320    1    0    0
[4,] 3.215    0    1    0
[5,] 3.440    0    0    1
[6,] 3.460    0    1    0

$\small [*]$ lm

$\small\beta$ $\small ProjMatrix = \small (X^{T}X)^{-1}X^{T}$ $\small [ProjMatrix] \,[y]\, =\, [RegrCoef's]$ $\small (X^{T}X)^{-1}X^{T}\,y = \beta$

X_tr_X_inv <- solve(t(X) %*% X)    
Proj_M <- X_tr_X_inv %*% t(X)
Proj_M %*% mpg

          [,1]
wt   -3.205613
4cyl 33.990794
6cyl 29.735212
8cyl 27.919934

Identik dengan: coef(lm(mpg ~ wt + as.factor(cyl)-1)).

$\small Hat Matrix = \small X(X^{T}X)^{-1}X^{T}$

HAT <- X %*% X_tr_X_inv %*% t(X)

$\hat{y}$ $\small X(X^{T}X)^{-1}X^{T}\,y$ , dalam hal ini:, y_hat <- HAT %*% mpgyang memberikan nilai identik ke:

cyl <- as.factor(cyl); OLS <- lm(mpg ~ wt + cyl); predict(OLS):

y_hat <- as.numeric(y_hat)
predicted <- as.numeric(predict(OLS))
all.equal(y_hat,predicted)
[1] TRUE

— Antoni Parellada
sumber

Secara umum, dalam komputasi numerik, saya percaya yang terbaik adalah menyelesaikan persamaan linear daripada menghitung matriks invers. Jadi, saya pikir beta = solve(t(X) %*% X, t(X) %*% y)dalam praktiknya lebih akurat daripada solve(t(X) %*% X) %*% t(X) %*% y.

— Matthew Drury

R tidak melakukannya seperti itu - ia menggunakan dekomposisi QR. Jika Anda akan menggambarkan algoritma yang digunakan, pada komputer saya ragu ada yang menggunakan yang Anda tunjukkan.

— Reinstate Monica - G. Simpson

Tidak setelah algoritma, hanya mencoba memahami dasar-dasar aljabar linier.

— Antoni Parellada

@AntoniParellada Bahkan dalam kasus itu, saya masih menemukan pemikiran dalam hal persamaan linear yang lebih bersinar dalam banyak situasi.

— Matthew Drury

Mengingat hubungan perifer dari utas ini dengan tujuan situs kami, sambil melihat nilai dalam menggambarkan penggunaan Runtuk perhitungan penting, saya ingin menyarankan agar Anda mempertimbangkan untuk mengubahnya menjadi kontribusi untuk blog kami.

— whuber