Jadi ketika saya berasumsi bahwa istilah kesalahan biasanya didistribusikan dalam regresi linier, apa artinya untuk variabel respon, ?
Jadi ketika saya berasumsi bahwa istilah kesalahan biasanya didistribusikan dalam regresi linier, apa artinya untuk variabel respon, ?
Jawaban:
Mungkin saya tidak aktif tetapi saya pikir kita harus bertanya-tanya tentang , yang merupakan cara saya membaca OP. Dalam kasus regresi linier yang paling sederhana jika model Anda adalah y = X β + ϵ maka satu-satunya komponen stokastik dalam model Anda adalah istilah kesalahan. Karena itu menentukan distribusi sampling y . Jika ϵ ∼ N ( 0 , σ 2 I ) maka y | X , β ∼ N ( X β , . Apa yang @Aniko katakan tentu benar untuk f ( y ) (sedikit di atas X , β ). Jadi seperti berdiri pertanyaannya agak kabur.
Jawaban singkatnya adalah Anda tidak dapat menyimpulkan apa pun tentang distribusi , karena itu tergantung pada distribusi x dan kekuatan serta bentuk hubungan. Lebih formal, y akan memiliki "campuran normals" distribusi, yang dalam prakteknya bisa apa pun cukup banyak.
Berikut adalah dua contoh ekstrem untuk menggambarkan hal ini:
Bahkan, karena setiap distribusi dapat diperkirakan secara sewenang-wenang dengan campuran normal, Anda benar-benar bisa mendapatkan distribusi apa pun untuk .
Kami menemukan istilah kesalahan dengan menerapkan model fiktif pada data nyata; distribusi istilah kesalahan tidak mempengaruhi distribusi respons.
Kami sering berasumsi bahwa kesalahan didistribusikan secara normal dan dengan demikian mencoba untuk membangun model sehingga residu kami yang diperkirakan terdistribusi secara normal. Ini bisa sulit untuk beberapa distribusi . Dalam kasus ini, saya kira Anda bisa mengatakan bahwa distribusi respons memengaruhi istilah kesalahan.
. Penentuan distribusi kesalahan dan persamaan model pada dasarnya mengatakan vektor mana yang lebih masuk akal daripada yang lain.