Diberikan dua model regresi linier, model mana yang akan melakukan lebih baik?

Saya telah mengambil kursus pembelajaran mesin di kampus saya. Di salah satu quize, pertanyaan ini diajukan.

Model 1:
$y = θ x + ϵ$ $y = \theta x + \epsilon$ Model 2: $y = θ x + θ^{2} x + ϵ$ $y = \theta x + \theta^2 x + \epsilon$
Manakah dari model di atas yang lebih cocok dengan data? (anggap data dapat dimodelkan menggunakan regresi linier)

Jawaban yang benar (menurut profesor) adalah bahwa kedua model akan tampil sama baiknya. Namun saya percaya bahwa model pertama akan lebih cocok.

Inilah alasan di balik jawaban saya. Model kedua, yang dapat ditulis ulang sebagai $\alpha x + \epsilon$ , $\alpha = \theta + \theta^2$ tidak akan sama dengan model pertama. $\alpha$ sebenarnya adalah parabola, dan karenanya memiliki nilai minimum ( $-0.25$ dalam kasus ini). Sekarang karena ini, kisaran $\theta$ dalam model pertama lebih besar dari kisaran $\alpha$ dalam model kedua. Oleh karena itu, jika data sedemikian rupa sehingga kecocokan terbaik memiliki kemiringan kurang dari $-0.25$ , model kedua akan berkinerja sangat buruk dibandingkan dengan yang pertama. Namun dalam kasus kemiringan paling cocok lebih besar dari $-0.25$ , kedua model akan memiliki kinerja yang sama baiknya.

Jadi apakah yang pertama lebih baik, atau keduanya sama persis?

— Kush
sumber

Aku pikir kamu benar. Dengan mensyaratkan bahwa parameter

α

$\alpha$ dapat diekspresikan sebagai

θ + θ^{2}

$\theta + \theta^2$ (untuk beberapa

θ

$\theta$ ) benar-benar menegakkan batasan tentang apa yang dimungkinkan oleh

α

$\alpha$ . Ini berarti bahwa model kedua dapat mengungkapkan lebih sedikit hubungan daripada yang pertama, karena pada dasarnya sekarang merupakan masalah optimasi yang dibatasi. Alasanmu tampak kuat bagiku.

— Matthew Drury

@MatthewDrury Saya baru tahu di mana saya salah, lihat jawaban di bawah ini (dan komentarnya)

— kush

Saya melihat komentar Anda, tetapi itu adalah beberapa senam yang cukup serius untuk mengasumsikan bahwa

akan mengambil nilai yang kompleks. Saya pasti akan menghadiri beberapa jam kantor untuk membicarakan hal ini dengan profesor Anda. Anda akan mendapatkan diskusi yang bagus.

θ

$\theta$

— Matthew Drury

Tidak jelas bagi saya dari mana -0.25 berasal. Bisakah Anda mengklarifikasi?

— Mad Jack

Saya akan tertarik pada bagaimana profesor Anda akan mencocokkan setiap model dengan dataset dua titik

. Dengan Model 1 dan

kesesuaiannya sempurna, tetapi bagaimana ia memperkirakan

pada Model 2 untuk mendapatkan kesesuaian yang sempurna?

{(1, - 1), (2, - 2)}

$\{(1,-1),(2,-2)\}$

θ = - 1

$\theta=-1$

θ

$\theta$

— Whuber

Jawaban:

Model 2 dapat ditulis sebagai: Ini tampaknya mirip dengan model 1, hanya dengan notasi berbeda untuk hyperparameters ( ). Namun, untuk model 1 kita dapat menulis

y = (θ + θ^{2}) x + ϵ = β x + ϵ .

$y=(\theta + \theta^{2}) x+\epsilon=\beta x+\epsilon.$

θ, β

$\theta, \beta$

\hat{θ} = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=(X^{'}X)^{-1}X^{'}y.$

Tapi karena dalam model 2 kita mendapati bahwa maka seperti yang Anda sebutkan memang berbagai harus milik untuk . Yang akan menyebabkan perbedaan dalam 2 model ini.

β = θ + θ^{2},

$\beta=\theta + \theta^{2},$

\hat{β}

$\hat{\beta}$

[- 0.25, + \infty]

$[-0.25,+\infty]$

θ \in R

$\theta \in R$

Jadi dalam model 2 Anda membatasi estimasi koefisien Anda tidak seperti model yang 1. Untuk membuat ini lebih jelas, perlu dicatat bahwa dalam model diperoleh melalui meminimalkan fungsi kerugian persegi $\hat{\theta}$ Namun dalam model 2 estimasi yang diperoleh melalui

\hat{θ} = \arg min_{θ \in R} (y - X θ)^{^{'}} (y - X θ) = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=\arg\min_{\theta\in{R}} \ \ (y-X\theta)^{'}(y-X\theta)=(X^{'}X)^{-1}X^{'}y.$

yang mungkin mengarah pada hasil yang berbeda.

\hat{β} = \arg min_{β \geq - 0.25} (y - X β)^{^{'}} (y - X β)

$\hat{\beta}=\arg\min_{\beta\geq-0.25} \ \ (y-X\beta)^{'}(y-X\beta)$

— Wis
sumber

Itu masuk akal, saya baru sadar bahwa tidak ada kendala pada

pada model kedua! Jika

negatif,

mungkin memiliki nilai kompleks. Namun itu tidak terlalu mempengaruhi model, kan? Saya tidak punya perwakilan untuk mendukung, tetapi terima kasih banyak!

θ

$\theta$

θ + θ^{2}

$\theta + \theta^2$

θ

$\theta$

— kush

@kush Silakan periksa respons saya yang diedit yang juga mendukung kekhawatiran Anda

— Wis

Tidak yakin saya mengerti alasan Anda. Jika Anda mengambil:

dan

y = α x + ϵ

$y = \alpha x+\epsilon$

y = θ x + ϵ

$y = \theta x + \epsilon$

$\alpha$ $\theta$ $\alpha$ $\theta$ $R^2$ $\theta$ $\alpha = \theta + \theta^2$

— akeenlogician
sumber

θ

$\theta$

(- \infty, \infty)

$(- \infty, \infty)$

α

$\alpha$

(- 0.25, \infty)

$(- 0.25, \infty)$

x

$x$