Jika Anda tidak dapat melakukannya secara orthogonal, lakukan mentah (regresi polinomial)


11

Saat melakukan regresi polinomial untuk ke , orang terkadang menggunakan polinomial mentah, terkadang polinomial ortogonal. Tetapi ketika mereka menggunakan apa yang tampaknya sepenuhnya sewenang-wenang.XYX

Di sini dan di sini polinomial mentah digunakan. Tetapi di sini dan di sini , polinomial ortogonal tampaknya memberikan hasil yang benar. Apa, bagaimana, mengapa ?!

Berbeda dengan itu, ketika belajar tentang regresi polinom dari buku teks (misalnya ISLR ), yang bahkan tidak menyebutkan polinomial mentah atau ortogonal - hanya model yang akan dipasang diberikan.

Jadi kapan kita harus menggunakan apa?
Dan mengapa nilai p individu untuk , dll banyak berbeda antara dua nilai ini?X 2XX2


1
Anda harus memberikan beberapa pemikiran untuk yang p-nilai yang berbeda ketika Anda sesuai dengan model yang sama ke data yang sama dengan menggunakan polinomial baku & orthogonal, & interpretasi mereka. Bagaimana dengan prediksi model?
Scortchi

@Scortchi Saya menambahkan informasi yang relevan ke pertanyaan saya.
l7ll7

4
Alasan bagus lainnya untuk menggunakan polinomial ortogonal adalah stabilitas numerik; matriks desain yang terkait untuk pemasangan dalam basis monomial bisa sangat tidak dikondisikan untuk pemasangan tingkat tinggi karena monomial tingkat tinggi adalah "sangat hampir linear tergantung" (sebuah konsep yang dapat dibuat lebih tepat secara matematis), sedangkan matriks desain untuk polinomial ortogonal berperilaku sedikit lebih baik. Saya membahas kasus equispaced abscissas (Gram) di sini , tetapi kesepakatannya serupa dalam kasus non-equispaced.
JM bukan ahli statistik

(Meskipun demikian, seseorang tidak boleh cocok dengan polinomial tingkat tinggi tanpa alasan yang baik untuk melakukan hal itu.)
JM bukan ahli statistik

Jawaban:


7

Variabel dan tidak linier independen. Jadi bahkan jika tidak ada efek kuadrat, menambahkan untuk model akan mengubah estimasi efek .X 2 X 2 XXX2X2X

Mari kita simak dengan simulasi yang sangat sederhana.

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

Sekarang dengan istilah kuadrat dalam model yang pas.

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

Tentu saja tes omnibus masih signifikan, tetapi saya pikir hasil yang kami cari bukan yang ini. Solusinya adalah dengan menggunakan polinomial ortogonal.

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348    

Perhatikan bahwa koefisien xdalam model pertama dan poly(x,2)1dalam model kedua tidak sama, dan bahkan intersepsi berbeda. Ini karena polymemberikan vektor ortonormal, yang juga ortogonal ke vektor rep(1, length(x)). Jadi poly(x,2)1bukan xtapi (x -mean(x))/sqrt(sum((x-mean(x))**2))...

Poin penting adalah bahwa tes Wald, dalam model terakhir ini, independen. Anda dapat menggunakan polinomial ortogonal untuk memutuskan sampai tingkat mana Anda ingin pergi, hanya dengan melihat tes Wald: di sini Anda memutuskan untuk mempertahankan tetapi tidak . Tentu saja Anda akan menemukan model yang sama dengan membandingkan dua model pas pertama, tetapi lebih sederhana dengan cara ini - jika Anda mempertimbangkan naik ke tingkat yang lebih tinggi, itu benar-benar jauh lebih sederhana.X 2XX2

Setelah Anda memutuskan syarat mana yang harus dipertahankan, Anda mungkin ingin kembali ke polinomial mentah dan untuk interpretabilitas atau prediksi.X 2XX2


+1 Akhirnya jawaban yang jelas! Terima kasih! Sebelum saya menerima, dapatkah Anda memberi tahu saya, apakah ada statistik lain, seperti R ^ 2 atau F-statistik yang sebaiknya saya baca dari ringkasan plot ortogonal daripada yang mentah? Selain merencanakan variabel, apakah cocok menggunakan polinomial mentah baik untuk hal lain dalam skenario ini?
l7ll7

Dan ketika saya memiliki banyak prediktor, apakah hal yang sama berlaku?
l7ll7

Bagaimana Anda "menggunakan polinomial ortogonal untuk memutuskan apakah Anda ingin memasukkan istilah kuadratik atau tidak"?
Scortchi

1
Intinya, tes efek urutan tertinggi, kuadratik dalam kasus ini, sama apakah Anda menggunakan polinomial mentah atau ortogonal. Jadi mengapa repot dengan polinomial ortogonal?
Scortchi

4
Yah, tentu saja Anda tidak seharusnya melakukan tes marginal dalam model itu; Anda harus memasang kembali setelah membuang efek urutan tertinggi. Polinomial ortogonal membebaskan Anda dari gangguan, memungkinkan prosedur step-down yang mudah - mungkin Anda bisa mengilustrasikannya dengan istilah kubik.
Scortchi

3

Untuk memberikan penilaian yang naif terhadap situasi:

umumnya: misalkan Anda memiliki dua sistem fungsi basis yang berbeda , serta untuk beberapa fungsi (hilbert-) ruang, biasa , yaitu ruang semua fungsi persegi-integrable. { ˜ p } n = 1 L 2 ( [ a , b ] ){pn}n=1{p~}n=1L2([a,b])

Ini berarti bahwa masing-masing dari dua basis dapat digunakan untuk menjelaskan setiap elemen , yaitu untuk Anda miliki untuk beberapa koefisien dan , (dalam -sense): L2([a,b])yL2([a,b])θnθ~nRn=1,2,L2

n=1θ~np~n=y=n=1θnpn.

Namun, di sisi lain, jika Anda memotong kedua set fungsi basis di beberapa angka , yaitu Anda mengambil serta rangkaian fungsi basis terpotong ini sangat mungkin menggambarkan dua "bagian yang berbeda" dari .k<

{pn}n=1k
{p~}n=1k,
L2([a,b])

Namun, di sini dalam kasus khusus di mana satu basis, , hanyalah dari basis lainnya, , keseluruhan prediksi akan sama untuk setiap model terpotong ( dan rekanan ortogonalnya akan menggambarkan subruang -dimensi ).{p~}n=1{pn}n=1y{p}n=1kkL2([a,b])

Tetapi masing-masing fungsi basis individu dari dua basis "berbeda" akan menghasilkan kontribusi yang berbeda untuk predcisi ini (jelas karena fungsi / prediktornya berbeda!) Menghasilkan nilai- dan koefisien yang berbeda.p

Oleh karena itu, dalam hal prediksi tidak ada (dalam hal ini).

Dari sudut pandang komputasi, model matriks yang terdiri dari fungsi-fungsi dasar ortogonal memiliki sifat numerik / komputasi yang bagus untuk estimator kuadrat terkecil. Sementara pada saat yang sama dari sudut pandang statistik, hasil orthogonalization dalam estimasi tidak berkorelasi, karena bawah asumsi standar.var(θ~^)=Iσ²


Pertanyaan alami muncul jika ada sistem basis terpotong terbaik. Namun jawaban untuk pertanyaan ini tidak sederhana atau unik dan tergantung misalnya pada definisi kata "terbaik", yaitu apa yang Anda coba arsipkan.


1
(+1) Tidak ada perbedaan dalam hal prediksi; & Bisa dikatakan tidak ada perbedaan dalam hal kesimpulan yang berarti.
Scortchi
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.