Apakah asumsi linearitas dalam regresi linier hanyalah definisi ?

Saya merevisi regresi linier.

Buku teks oleh Greene menyatakan:

Sekarang, tentu saja akan ada asumsi lain pada model regresi linier, seperti . Asumsi ini dikombinasikan dengan asumsi linearitas (yang pada dasarnya mendefinisikan ), menempatkan struktur pada model. $E(\epsilon|X)=0$ $\epsilon$

Namun, asumsi linearitas dengan sendirinya tidak menempatkan struktur apa pun pada model kami, karena dapat sepenuhnya arbitrer. Untuk variabel apa pun apa pun, tidak peduli apa hubungan antara keduanya, kita dapat mendefinisikan sedemikian rupa sehingga asumsi linearitas berlaku. Oleh karena itu, linearitas "asumsi" harus benar-benar disebut definisi dari , bukan asumsi. $\epsilon$ $X, y$ $\epsilon$ $\epsilon$

Karena itu saya bertanya-tanya :

Apakah Greene ceroboh? Haruskah dia benar-benar menulis: ? Ini adalah "asumsi linearitas" yang sebenarnya menempatkan struktur pada model. $E(y|X)=X\beta$
Atau apakah saya harus menerima bahwa asumsi linearitas tidak meletakkan struktur pada model tetapi hanya mendefinisikan , di mana asumsi lain akan menggunakan definisi untuk meletakkan struktur pada model? $\epsilon$ $\epsilon$

Sunting : karena tampaknya ada beberapa kebingungan di sekitar asumsi lain, izinkan saya menambahkan set lengkap asumsi di sini:

Ini dari Greene, Analisis Ekonometrik, edisi ke-7. hal. 16.

— pengguna56834
sumber

Ini adalah pengamatan perseptif (+1). Namun, dalam semua keadilan, saya percaya sebagian besar (jika tidak semua) penulis bekerja dalam kerangka kerja di mana arti dari kesalahan aditif seperti mencakup asumsi bahwa distribusinya berpusat pada .

ϵ

$\epsilon$

0

$0$

— whuber

@whuber, saya telah menambahkan seluruh asumsi. lihat A3. A3 membuat eksplisit bahwa itu berpusat pada 0, yang akan menyiratkan bahwa Greene tidak menganggap ini dalam A1, yang membuat saya mempertanyakan apakah A1 memiliki konten logis sama sekali, selain dari mendefinisikan .

ϵ

$\epsilon$

— user56834

Arti yang dimaksudkan dari daftar asumsi adalah bahwa asumsi tersebut berlaku secara kolektif, bukan secara terpisah. Ini tidak menunjukkan "kecerobohan".

— whuber

@ AdamO, kata "benar" tampaknya tidak memiliki arti yang tepat bagi saya. Saya mencoba untuk lebih memahami hal ini. Tampak bagi saya bahwa rumusan yang paling tepat untuk semua ini adalah dengan mengatakan bahwa asumsi 1 harus disebut "definisi ", dan kemudian semuanya masuk akal. Atau saya benar-benar kehilangan sesuatu, itulah sebabnya saya menanyakan pertanyaan ini. Sayangnya sejauh ini saya belum melihat jawaban langsung untuk pertanyaan itu

ϵ

$\epsilon$

— user56834

@ Programmer2134 Anda mendapatkan jawaban yang tidak tepat karena Anda mengajukan pertanyaan yang tidak tepat. Seseorang tidak "menempatkan struktur pada model" seperti yang Anda katakan. Jika model mean yang salah ( ) digunakan, maka responsnya dikarakterisasi sebagai . dan residu diambil sebagai jumlah dari bias dan kesalahan.

f (x)

$f(x)$

Y = f (x) + bias + error

$Y = f(x) + \text{bias} + \text{error}$

— AdamO

Jawaban:

Apakah Greene ceroboh? Haruskah dia benar-benar menulis: ? Ini adalah "asumsi linearitas" yang sebenarnya menempatkan struktur pada model. $E(y|X)=X\beta$

Dalam arti tertentu, ya dan tidak. Di satu sisi, ya, mengingat penelitian kausalitas modern saat ini ia ceroboh, tetapi seperti kebanyakan buku teks ekonometrik, dalam arti bahwa mereka tidak membuat perbedaan yang jelas dari jumlah sebab akibat dan pengamatan, yang mengarah pada kebingungan umum seperti pertanyaan yang sangat ini. Tetapi, di sisi lain, tidak, asumsi ini tidak ceroboh dalam arti bahwa asumsi tersebut memang berbeda dari sekadar mengasumsikan . $E(y|X)=X\beta$

Inti dari masalah di sini adalah perbedaan antara ekspektasi bersyarat, , dan persamaan struktural (kausal) dari , serta ekspektasi struktural (kausal) $E(y|X)$ $y$ $E[Y|do(X)]$ . Asumsi linearitas dalam Greene adalah asumsi struktural . Mari kita lihat contoh sederhana. Bayangkan persamaan strukturalnya adalah:

y = β x + γ x^{2} + ϵ

$y= \beta x + \gamma x^2 + \epsilon$

Sekarang, biarkan . Maka kita akan memiliki: $E[\epsilon |x] = \delta x - \gamma x^2$

E [y | x] = β^{'} x

$E[y|x] = \beta'x$

di mana . Selain itu, kita dapat menulis dan kita akan memiliki . Ini menunjukkan bahwa kita dapat memiliki ekspektasi bersyarat linear yang ditentukan dengan benar yang menurut definisi akan memiliki gangguan ortogonal, namun persamaan strukturalnya adalah nonlinier. $\beta' = \beta + \delta$ $y = \beta'x + \epsilon'$ $E[\epsilon'|x] = 0$ $E[y|x]$

Atau apakah saya harus menerima bahwa asumsi linearitas tidak meletakkan struktur pada model tetapi hanya mendefinisikan , di mana asumsi lain akan menggunakan definisi untuk meletakkan struktur pada model? $\epsilon$ $\epsilon$

Asumsi linearitas mendefinisikan , yaitu, menurut definisi, di mana mewakili penyimpangan dari ekspektasinya ketika kita secara eksperimental atur ( lihat Pearl bagian 5.4 ). Asumsi lain digunakan baik untuk identifikasi parameter struktural (misalnya, asumsi eksogenitas dari memungkinkan Anda untuk mengidentifikasi harapan struktural dengan harapan bersyarat ) atau untuk derivasi sifat statistik estimator $\epsilon$ $\epsilon := y - X\beta = y - E[Y|do(X)]$ $\epsilon$ $y$ $X$ $\epsilon$ $E[Y|do(X)]$ $E[Y|X]$ (misalnya, asumsi homoskedastisitas menjamin OLS adalah BIRU, asumsi normalitas memudahkan untuk memperoleh hasil "sampel terbatas" untuk kesimpulan, dll.).

Namun, asumsi linearitas dengan sendirinya tidak menempatkan struktur apa pun pada model kami, karena dapat sepenuhnya arbitrer. Untuk variabel apa pun apa pun, tidak peduli apa hubungan antara keduanya, kita dapat mendefinisikan sedemikian rupa sehingga asumsi linearitas berlaku. $\epsilon$ $X, y$ $\epsilon$

Pernyataan Anda di sini masuk ke masalah utama inferensi kausal secara umum! Seperti ditunjukkan dalam contoh sederhana di atas, kita dapat memasak gangguan struktural yang dapat membuat ekspektasi bersyarat dari diberikan linier. Secara umum, beberapa model struktural (kausal) yang berbeda dapat memiliki distribusi pengamatan yang sama, Anda bahkan dapat memiliki sebab-akibat tanpa asosiasi yang diamati. Oleh karena itu, dalam hal ini, Anda benar --- kami memerlukan lebih banyak asumsi pada untuk memasukkan "lebih banyak struktur" ke dalam masalah dan mengidentifikasi parameter struktural dengan data pengamatan. $y$ $x$ $\epsilon$ $\beta$

Catatan samping

Patut disebutkan bahwa sebagian besar buku pelajaran ekonometrik membingungkan ketika sampai pada perbedaan antara regresi dan persamaan struktural dan artinya. Ini telah didokumentasikan akhir-akhir ini. Anda dapat memeriksa makalah oleh Chen dan Pearl di sini serta survei diperpanjang oleh Chris Auld . Greene adalah salah satu buku yang diteliti.

— Carlos Cinelli
sumber

Terima kasih, ini adalah jawaban yang saya cari. Jadi, ketika Anda mengatakan asumsi linearitas adalah asumsi struktural, lalu apa artinya secara pasti tentang hubungan sebab akibat antara dan ? Masih bisa ada hubungan kausal yang benar? Hanya saja hubungan sebab akibat langsung dari ke adalah linier, bukankah begitu? Masih ada efek kausal yang sangat nonlinear dari pada sampai ?

ϵ

$\epsilon$

x

$x$

x

$x$

y

$y$

x

$x$

y

$y$

ϵ

$\epsilon$

— user56834

@ Programmer2134 itu bidang lain di mana buku teks ekonometrik ceroboh, Anda akan menemukan sedikit referensi untuk efek langsung / tidak langsung, mediasi dll. Jika persamaannya struktural, maka kita dapat memiliki definisi operasional gangguan struktural sebagai perbedaan dengan perbedaan dengan yang diharapkan efek kausal , yaitu . Oleh karena itu, dalam pengertian ini, struktural tidak "disebabkan" oleh . Namun, ini memberitahu kita apa-apa tentang hubungan dari dan , karena mereka bisa memiliki penyebab umum.

y

$y$

X

$X$

ϵ := y - E [Y | d o (X)] = y - X β

$\epsilon := y - E[Y|do(X)] = y - X\beta$

ϵ

$\epsilon$

X

$X$

ϵ

$\epsilon$

X

$X$

— Carlos Cinelli

@ Programmer2134 ngomong-ngomong, kekhawatiran Anda ada di jalur yang benar, saya pikir Pearl's Primer tentang inferensial kausal mungkin menjadi teman yang menarik bagi Greene's!

— Carlos Cinelli

Kebetulan, saya mulai membaca "Kausalitas: Model, Penalaran dan Inferensi" oleh Pearl beberapa waktu lalu. Saya pikir itu sangat menarik, tetapi agak abstrak bagi saya. Saya tidak melampaui bab 2. Apakah Anda pikir "primer tentang kesimpulan kausal" akan lebih cocok? (Yaitu memperkenalkan konsep lebih intuitif).

— user56834

@ColorStatistics Anda dapat menggunakan regresi untuk peramalan, tentu saja, tetapi kemudian asumsi eksogenitas tidak memainkan peran apa pun. Itulah yang mulai dicurigai oleh OP sendiri, dengan mempertanyakan mengapa Greene tidak hanya menulis asumsi bahwa linier.

E (Y | x)

$E(Y|x)$

— Carlos Cinelli

diedit setelah komentar oleh OP dan Matthew Drury

Untuk menjawab pertanyaan ini, saya berasumsi Greene, dan OP, memiliki definisi linearitas berikut dalam pikiran: Linearitas berarti bahwa untuk setiap kenaikan satu unit dalam prediktor ini, hasilnya meningkat sebesar beta ( ), di mana pun pada kisaran nilai prediktor yang mungkin. Peningkatan satu unit ini terjadi. Yaitu fungsi adalah dan bukan misalnya atau . Selanjutnya, asumsi ini difokuskan pada beta dan dengan demikian berlaku untuk prediktor (alias variabel independen). $β$ $y=f(x)$ $y=a+bx$ $y=a+bx^2$ $y=a+sin(x)$

Harapan residual tergantung pada model adalah sesuatu yang lain. Ya, memang benar bahwa matematika di balik regresi linier mendefinisikan / mencoba mendefinisikan . Namun, ini biasanya ditetapkan pada seluruh rentang nilai yang dipasang / diprediksi untuk . Jika Anda melihat bagian-bagian tertentu dari prediktor linier dan nilai prediksi , Anda mungkin melihat heteroskedastisitas (area di mana variasi lebih besar daripada di tempat lain), atau area di mana . Hubungan non-linear antara 's dan mungkin menjadi penyebabnya, tetapi bukan satu-satunya alasan heteroskedastisitas atau $E(ϵ|X)$ $E(ϵ|X)=0$ $y$ $y$ $ϵ$ $E(ϵ|X)≠0$ $x$ $y$ $E(ϵ|X)≠0$ mungkin terjadi (lihat misalnya bias prediksi yang hilang).

Dari komentar: OP menyatakan "asumsi linearitas tidak membatasi model dengan cara apa pun, mengingat bahwa epsilon adalah arbitrer dan dapat berupa fungsi XX apa pun", yang saya setujui. Saya pikir ini diperjelas oleh regresi linier yang dapat disesuaikan dengan data apa pun, apakah asumsi linearitas dilanggar atau tidak. Saya berspekulasi di sini, tapi itu mungkin menjadi alasan mengapa Greene memilih untuk menyimpan kesalahan dalam rumus - menyimpan untuk nanti - untuk menyatakan bahwa dengan mengasumsikan linearitas, (dan bukan yang diharapkan ) dapat didefinisikan berdasarkan tetapi mempertahankan beberapa kesalahan , terlepas dari nilai apa $ϵ$ $E(ϵ|X)=0$ $y$ $y$ $X$ $ϵ$ $ϵ$ mengambil. Saya hanya bisa berharap bahwa dia nanti akan menyatakan relevansi . $E(ϵ|X)=0$

Singkatnya (harus diakui, tanpa sepenuhnya membaca buku Greene dan memeriksa argumentasinya):

Greene mungkin merujuk pada beta yang konstan untuk seluruh rentang prediktor (penekanan harus ditempatkan pada beta dalam atau persamaan ; $y=Xβ + ϵ$ $E(ϵ|X)=Xβ$
Asumsi linearitas menempatkan beberapa struktur pada model. Namun Anda harus mencatat bahwa transformasi atau penambahan seperti splines sebelum pemodelan, dapat membuat asosiasi non-linear sesuai dengan kerangka kerja regresi linier.

— IWS
sumber

Ini membantu, tetapi seruan untuk kontinuitas tidak diperlukan dalam arti apa pun. Mesin bekerja dengan cara yang sama jika hanya didasarkan pada prediktor.

X

$X$

(0, 1)

$(0, 1)$

— Nick Cox

Anda menulis tapi saya pikir maksud Anda ,.

f (y)

$f(y)$

f (x)

$f(x)$

— Nick Cox

@NickCox Saya sudah mengedit poin-poin ini.

— IWS

Apa maksudmu dengan kenormalan? Jika yang Anda maksud normal maka itu tidak benar karena epsilon tidak harus normal untuk itu memiliki harapan bersyarat nol. Tapi maksudmu sesuatu yang lain? Juga, ya beta dianggap konstan untuk semua pengamatan. Dan apa yang menurut Anda salah dengan argumen saya bahwa asumsi linearitas tidak membatasi model dengan cara apa pun, mengingat epsilon adalah arbitrer dan dapat berupa fungsi apa pun? Perhatikan bahwa saya tahu apa itu heteroskedastisitas dan linearitas berarti linear dalam parameter, bukan dalam variabel.

X

$X$

— user56834

Saya tidak setuju dengan ini. Asumsi ekspektasi tidak berhubungan dengan kenormalan, tetapi mutlak diperlukan untuk memahami asumsi linearitas struktural. Kalau tidak, seperti dicatat oleh op, asumsi linearitas tidak ada artinya. Asumsi normalitas adalah binatang yang sangat berbeda, dan seringkali tidak dibutuhkan.

— Matthew Drury

-1

Saya sedikit bingung dengan jawaban di atas, maka saya akan mencoba lagi. Saya pikir pertanyaannya sebenarnya bukan tentang regresi linier 'klasik' tetapi tentang gaya sumber tertentu. Pada bagian regresi klasik:

Namun, asumsi linearitas dengan sendirinya tidak menempatkan struktur apa pun pada model kami

Itu benar sekali. Seperti yang telah Anda nyatakan, mungkin juga membunuh relasi linier dan menambahkan sesuatu yang sepenuhnya independen dari sehingga kita tidak dapat menghitung model apa pun sama sekali. $\epsilon$ $X$

Apakah Greene ceroboh? Haruskah ia benar-benar menulis: $E(y|X)=Xβ$

Saya tidak ingin menjawab pertanyaan pertama tetapi izinkan saya meringkas asumsi yang Anda butuhkan untuk regresi linier biasa:

Mari kita asumsikan bahwa Anda mengamati (Anda diberi) poin data dan untuk . Anda perlu mengasumsikan bahwa data yang telah Anda amati berasal dari variabel acak yang terdistribusi secara independen dan identik sedemikian rupa sehingga ... $x_i \in \mathbb{R}^d$ $y_i \in \mathbb{R}$ $i=1,...,n$ $(x_i, y_i)$ $(X_i, Y_i)$

Ada tetap (independen dari ) sehingga untuk semua dan variabel acak sedemikian rupa sehingga $i$ $\beta \in \mathbb{R}^d$ $Y_i = \beta X_i + \epsilon_i$ $i$ $\epsilon_i$
The yang IID juga dan didistribusikan sebagai ( harus independen dari juga) $\epsilon_i$ $\epsilon_i$ $\mathcal{N}(0, \sigma)$ $\sigma$ $i$
Untuk dan variabel memiliki kerapatan yang sama, yaitu variabel acak tunggal memiliki kerapatan $X = (X_1, ..., X_n)$ $Y = (Y_1, ..., Y_n)$ $X, Y$ $(X, Y)$ $f_{X,Y}$

Sekarang Anda dapat menjalankan jalan yang biasa dan menghitung

f_{Y | X} (y | x) = f_{Y, X} (y, x) / f_{X} (x) = {(\frac{1}{\sqrt{2 π d}})}^{n} \exp (\frac{- \sum_{i = 1}^{n} (y_{i} - β x_{i})^{2}}{2 σ})

$f_{Y|X}(y|x) = f_{Y,X}(y,x)/f_X(x) = \left(\frac{1}{\sqrt{2\pi d}}\right)^n \exp{\left( \frac{-\sum_{i=1}^n (y_i - \beta x_i)^2}{2\sigma}\right)}$

sehingga dengan 'dualitas' yang biasa antara pembelajaran mesin (minimalisasi fungsi kesalahan) dan teori probabilitas (maksimalisasi kemungkinan) Anda memaksimalkan dalam yang pada kenyataannya, memberi Anda hal-hal "RMSE" yang biasa. $-\log f_{Y|X}(y|x)$ $\beta$

Sekarang seperti yang dinyatakan: Jika penulis buku yang Anda kutip ingin membuat poin ini (yang harus Anda lakukan jika Anda ingin dapat menghitung garis regresi 'terbaik' dalam pengaturan dasar) maka ya, ia harus membuat asumsi ini pada normalitas di suatu tempat di buku ini. $\epsilon$

Ada berbagai kemungkinan sekarang:

Dia tidak menuliskan asumsi ini di dalam buku. Maka itu adalah kesalahan dalam buku.
Dia menuliskannya dalam bentuk komentar 'global' seperti 'setiap kali saya menulis maka biasanya didistribusikan dengan rata-rata nol kecuali dinyatakan sebaliknya'. Maka IMHO itu adalah gaya yang buruk karena menyebabkan kebingungan yang Anda rasakan saat ini. Itu sebabnya saya cenderung menulis asumsi dalam bentuk singkat di setiap Teorema. Hanya dengan demikian setiap blok bangunan dapat dilihat dengan bersih dalam dirinya sendiri. $+ \epsilon$ $\epsilon$
- Dia menuliskannya dengan cermat pada bagian yang Anda kutip dan Anda / kami tidak menyadarinya (juga kemungkinan :-))

Namun, juga dalam pengertian matematis yang ketat, kesalahan normal adalah sesuatu yang kanonik (distribusi dengan entropi tertinggi [setelah varians diperbaiki], karenanya, menghasilkan model terkuat) sehingga beberapa penulis cenderung mengabaikan asumsi ini tetapi menggunakan dalam nontheless . Secara formal, Anda benar sekali: Mereka menggunakan matematika dengan "cara yang salah". Setiap kali mereka ingin membuat persamaan untuk densitas seperti yang dinyatakan di atas maka mereka perlu tahu cukup baik, jika tidak, Anda hanya memiliki sifat-sifat itu terbang di dalam setiap persamaan yang masuk akal yang Anda coba tuliskan . $f_{Y|X}$ $\epsilon$

— Fabian Werner
sumber

kesalahan tidak perlu didistribusikan secara normal untuk menggunakan OLS.

— user56834

(-1) Kesalahan tidak perlu didistribusikan secara normal. Mereka sebenarnya bahkan tidak perlu independen atau terdistribusi secara identik agar estimasi parameter tidak bias dan agar pengujian konsisten. Spesifikasi Anda yang jauh lebih ketat diperlukan agar OLS menjadi tes yang tepat.

— AdamO

@ AdamO: Ah? Jadi bagaimana Anda menghitung kemungkinan itu? Atau lebih tepatnya ... jika Anda diminta untuk menerapkan regresi linier: garis regresi apa yang Anda pilih jika kesalahan tidak terdistribusi secara normal dan single tidak independen?

ϵ_{i}

$\epsilon_i$

— Fabian Werner

@FabianWerner pilihan saya untuk model tergantung pada pertanyaan yang harus ditanyakan. Regresi linier memperkirakan tren urutan pertama dalam satu set data, "aturan praktis" yang menghubungkan selisih X dengan selisih Y. Jika kesalahan tidak terdistribusi secara normal, Lindeberg Feller CLT menjamin bahwa CI dan PI kurang lebih benar. bahkan dalam sampel yang sangat kecil. Jika kesalahannya tidak independen (dan struktur ketergantungan tidak diketahui), estimasi tersebut tidak bias meskipun UK mungkin salah. Estimasi kesalahan sandwich mengurangi masalah ini.

— AdamO