Apa perbedaan antara


9

Misalkan saya punya sampel acak {xn,yn}n=1N.

Seharusnya

yn=β0+β1xn+εn

dan

y^n=β^0+β^1xn

Apa perbedaan antara β1 dan β^1?


6
β adalah koefisien aktual Anda dan β^ adalah penaksir Anda untuk β.
ARAT

1
Bukankah ini duplikat dari posting sebelumnya? Saya akan terkejut ...
Richard Hardy

Jawaban:


7

β1adalah sebuah ide - itu tidak benar-benar ada dalam praktik. Tetapi jika asumsi Gauss-Markov bertahan,β1 akan memberi Anda kemiringan yang optimal dengan nilai-nilai di atas dan di bawahnya pada "irisan" vertikal vertikal ke variabel dependen membentuk distribusi normal Gaussian residual yang bagus. β^1 adalah estimasi β1 berdasarkan sampel.

Idenya adalah Anda bekerja dengan sampel dari suatu populasi. Sampel Anda membentuk cloud data, jika Anda mau. Salah satu dimensi sesuai dengan variabel dependen, dan Anda mencoba menyesuaikan garis yang meminimalkan istilah kesalahan - dalam OLS, ini adalah proyeksi dari variabel dependen pada subruang vektor yang dibentuk oleh ruang kolom dari matriks model. Estimasi parameter populasi ini dilambangkan denganβ^simbol. Semakin banyak titik data yang Anda miliki semakin akurat perkiraan koefisien,β^i adalah, dan semakin baik estimasi koefisien populasi ideal ini, βi.

Inilah perbedaan lereng (β melawan β^) antara "populasi" berwarna biru, dan sampel dalam titik hitam terisolasi:

masukkan deskripsi gambar di sini

Garis regresi bertitik dan berwarna hitam, sedangkan garis "populasi" yang sempurna secara sintetis berwarna biru pekat. Kelimpahan poin memberikan rasa sentuhan normalitas dari distribusi residu.


9

The "topi" simbol umumnya menunjukkan perkiraan, yang bertentangan dengan nilai "true". Karena ituβ^ adalah estimasi β. Beberapa simbol memiliki konvensi sendiri: varians sampel, misalnya, sering ditulis sebagais2tidak σ^2, meskipun beberapa orang menggunakan keduanya untuk membedakan antara estimasi yang bias dan tidak bias.

Dalam kasus spesifik Anda, the β^nilai adalah estimasi parameter untuk model linier. Model linier mengandaikan bahwa variabel hasilY dihasilkan oleh kombinasi linear dari xis, masing-masing ditimbang oleh yang sesuai βinilai. Dalam praktiknya, tentu saja, iniβnilai tidak diketahui dan bahkan mungkin tidak ada (mungkin data tidak dihasilkan oleh model linier). Namun demikian, kita dapat memperkirakanβ^ nilai dari data yang mendekati Y.


4

Persamaannya

yi=β0+β1xi+ϵi

adalah apa yang disebut sebagai model yang sebenarnya. Persamaan ini mengatakan bahwa hubungan antar variabelx dan variabelnya y dapat dijelaskan oleh garis y=β0+β1x. Namun, karena nilai yang diamati tidak akan pernah mengikuti persamaan yang tepat (karena kesalahan), tambahanϵiistilah kesalahan ditambahkan untuk menunjukkan kesalahan. Kesalahan dapat diartikan sebagai penyimpangan alami dari hubunganx dan y. Di bawah ini saya menunjukkan dua pasangx dan y(titik-titik hitam adalah data). Secara umum orang dapat melihatnya sebagaix meningkat ymeningkat. Untuk kedua pasangan, persamaan sebenarnya adalah

yi=4+3xi+ϵi
tetapi kedua plot memiliki kesalahan yang berbeda. Plot di sebelah kiri memiliki kesalahan besar dan plot di sebelah kanan kesalahan kecil (karena poinnya lebih ketat). (Saya tahu persamaan sebenarnya karena saya menghasilkan data sendiri. Secara umum, Anda tidak pernah tahu persamaan sebenarnya) masukkan deskripsi gambar di sini

Mari kita lihat plot di sebelah kiri. Kebenaranβ0=4 dan yang benar β1= 3. Tetapi dalam praktiknya ketika diberi data, kita tidak tahu kebenarannya. Jadi kami memperkirakan kebenarannya. Kami memperkirakanβ0 dengan β^0 dan β1 dengan β^1. Bergantung pada metode statistik mana yang digunakan, estimasi bisa sangat berbeda. Dalam pengaturan regresi, estimasi diperoleh melalui metode yang disebut Ordinary Least Squares. Ini juga dikenal sebagai metode garis paling cocok. Pada dasarnya, Anda perlu menggambar garis yang paling cocok dengan data. Saya tidak membahas rumus di sini, tetapi menggunakan rumus untuk OLS, Anda dapatkan

β^0=4.809 and β^1=2.889

dan garis yang dihasilkan paling cocok adalah, masukkan deskripsi gambar di sini

Contoh sederhana adalah hubungan antara ketinggian ibu dan anak perempuan. Membiarkanx= tinggi ibu dan y= ketinggian anak perempuan. Secara alami, orang akan mengharapkan ibu yang lebih tinggi untuk memiliki anak perempuan yang lebih tinggi (karena kesamaan genetik). Namun, apakah menurut Anda satu persamaan dapat meringkas dengan tepat tinggi ibu dan anak perempuan, sehingga jika saya mengetahui tinggi ibu, saya akan dapat memperkirakan tinggi persis anak perempuan itu? Di sisi lain, orang mungkin bisa meringkas hubungan dengan bantuan rata-rata pernyataan .

TL DR: βadalah kebenaran populasi. Ini mewakili hubungan yang tidak diketahui antaray dan x. Karena kita tidak selalu bisa mendapatkan semua nilai yang mungkin dariy dan x, kami mengumpulkan sampel dari populasi, dan mencoba serta memperkirakannya β menggunakan data. β^adalah estimasi kami. Ini adalah fungsi dari data.βadalah tidak fungsi dari data, tapi kebenaran.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.