Misalkan saya punya sampel acak .
Seharusnya
dan
Apa perbedaan antara dan ?
Misalkan saya punya sampel acak .
Seharusnya
dan
Apa perbedaan antara dan ?
Jawaban:
adalah sebuah ide - itu tidak benar-benar ada dalam praktik. Tetapi jika asumsi Gauss-Markov bertahan, akan memberi Anda kemiringan yang optimal dengan nilai-nilai di atas dan di bawahnya pada "irisan" vertikal vertikal ke variabel dependen membentuk distribusi normal Gaussian residual yang bagus. adalah estimasi berdasarkan sampel.
Idenya adalah Anda bekerja dengan sampel dari suatu populasi. Sampel Anda membentuk cloud data, jika Anda mau. Salah satu dimensi sesuai dengan variabel dependen, dan Anda mencoba menyesuaikan garis yang meminimalkan istilah kesalahan - dalam OLS, ini adalah proyeksi dari variabel dependen pada subruang vektor yang dibentuk oleh ruang kolom dari matriks model. Estimasi parameter populasi ini dilambangkan dengansimbol. Semakin banyak titik data yang Anda miliki semakin akurat perkiraan koefisien, adalah, dan semakin baik estimasi koefisien populasi ideal ini, .
Inilah perbedaan lereng ( melawan ) antara "populasi" berwarna biru, dan sampel dalam titik hitam terisolasi:
Garis regresi bertitik dan berwarna hitam, sedangkan garis "populasi" yang sempurna secara sintetis berwarna biru pekat. Kelimpahan poin memberikan rasa sentuhan normalitas dari distribusi residu.
The "topi" simbol umumnya menunjukkan perkiraan, yang bertentangan dengan nilai "true". Karena itu adalah estimasi . Beberapa simbol memiliki konvensi sendiri: varians sampel, misalnya, sering ditulis sebagaitidak , meskipun beberapa orang menggunakan keduanya untuk membedakan antara estimasi yang bias dan tidak bias.
Dalam kasus spesifik Anda, the nilai adalah estimasi parameter untuk model linier. Model linier mengandaikan bahwa variabel hasil dihasilkan oleh kombinasi linear dari s, masing-masing ditimbang oleh yang sesuai nilai. Dalam praktiknya, tentu saja, ininilai tidak diketahui dan bahkan mungkin tidak ada (mungkin data tidak dihasilkan oleh model linier). Namun demikian, kita dapat memperkirakan nilai dari data yang mendekati .
Persamaannya
adalah apa yang disebut sebagai model yang sebenarnya. Persamaan ini mengatakan bahwa hubungan antar variabel dan variabelnya dapat dijelaskan oleh garis . Namun, karena nilai yang diamati tidak akan pernah mengikuti persamaan yang tepat (karena kesalahan), tambahanistilah kesalahan ditambahkan untuk menunjukkan kesalahan. Kesalahan dapat diartikan sebagai penyimpangan alami dari hubungan dan . Di bawah ini saya menunjukkan dua pasang dan (titik-titik hitam adalah data). Secara umum orang dapat melihatnya sebagai meningkat meningkat. Untuk kedua pasangan, persamaan sebenarnya adalah
Mari kita lihat plot di sebelah kiri. Kebenaran dan yang benar = 3. Tetapi dalam praktiknya ketika diberi data, kita tidak tahu kebenarannya. Jadi kami memperkirakan kebenarannya. Kami memperkirakan dengan dan dengan . Bergantung pada metode statistik mana yang digunakan, estimasi bisa sangat berbeda. Dalam pengaturan regresi, estimasi diperoleh melalui metode yang disebut Ordinary Least Squares. Ini juga dikenal sebagai metode garis paling cocok. Pada dasarnya, Anda perlu menggambar garis yang paling cocok dengan data. Saya tidak membahas rumus di sini, tetapi menggunakan rumus untuk OLS, Anda dapatkan
dan garis yang dihasilkan paling cocok adalah,
Contoh sederhana adalah hubungan antara ketinggian ibu dan anak perempuan. Membiarkan tinggi ibu dan = ketinggian anak perempuan. Secara alami, orang akan mengharapkan ibu yang lebih tinggi untuk memiliki anak perempuan yang lebih tinggi (karena kesamaan genetik). Namun, apakah menurut Anda satu persamaan dapat meringkas dengan tepat tinggi ibu dan anak perempuan, sehingga jika saya mengetahui tinggi ibu, saya akan dapat memperkirakan tinggi persis anak perempuan itu? Di sisi lain, orang mungkin bisa meringkas hubungan dengan bantuan rata-rata pernyataan .
TL DR: adalah kebenaran populasi. Ini mewakili hubungan yang tidak diketahui antara dan . Karena kita tidak selalu bisa mendapatkan semua nilai yang mungkin dari dan , kami mengumpulkan sampel dari populasi, dan mencoba serta memperkirakannya menggunakan data. adalah estimasi kami. Ini adalah fungsi dari data.adalah tidak fungsi dari data, tapi kebenaran.