Saya membaca buku tentang regresi linier dan mengalami kesulitan memahami matriks varians-kovarians dari :
Item diagonal cukup mudah, tetapi item off-diagonal sedikit lebih sulit, yang membingungkan saya adalah
tetapi tidak ada jejak dan sini.
Saya membaca buku tentang regresi linier dan mengalami kesulitan memahami matriks varians-kovarians dari :
Item diagonal cukup mudah, tetapi item off-diagonal sedikit lebih sulit, yang membingungkan saya adalah
tetapi tidak ada jejak dan sini.
Jawaban:
Ini sebenarnya pertanyaan keren yang menantang pemahaman dasar Anda tentang regresi.
Pertama, keluarkan semua kebingungan awal tentang notasi. Kami melihat regresi:
di mana dan adalah penaksir dan , dan adalah residu dari regresi. Perhatikan bahwa regresi yang benar dan tidak dilindungi yang mendasarinya dengan demikian dilambangkan sebagai:u
Dengan harapan dan varians . Beberapa buku menyatakan sebagai dan kami mengadaptasi konvensi ini di sini. Kami juga menggunakan notasi matriks, di mana b adalah vektor 2x1 yang menahan penaksir , yaitu . (Juga demi kejelasan, saya memperlakukan X sebagaimana ditetapkan dalam perhitungan berikut.)β β = [ β 0 , ß 1 ]
Sekarang untuk pertanyaan Anda. Formula Anda untuk kovarians memang benar, yaitu:
Saya pikir Anda ingin tahu mengapa kami memiliki koefisien yang tidak teramati yang sebenarnya dalam rumus ini? Mereka benar-benar dibatalkan jika kita mengambil langkah lebih jauh dengan memperluas formula. Untuk melihat ini, perhatikan bahwa varians populasi estimator diberikan oleh:
Matriks ini menyimpan varian dalam elemen diagonal dan kovarian pada elemen off-diagonal.
Untuk sampai pada rumus di atas, mari generalisasi klaim Anda dengan menggunakan notasi matriks. Karena itu marilah kita menunjukkan varians dengan dan harapan dengan .
Pada dasarnya kami memiliki rumus varian umum, hanya menggunakan notasi matriks. Persamaan diselesaikan ketika mengganti dalam ekspresi standar untuk estimator . Juga asumsikan merupakan penaksir yang tidak bias. Oleh karena itu, kami memperoleh:
Perhatikan bahwa kita memiliki di sisi kanan - 2x2 matriks, yaitu , tetapi Anda mungkin sudah menebak apa yang akan terjadi dengan istilah ini segera.
Mengganti dengan ekspresi kami untuk proses pembuatan data mendasar yang sebenarnya di atas, kami memiliki:
karena . Lebih lanjut, istilah kuadrat dibatalkan seperti yang diharapkan.
Jadi kita memiliki:
Dengan linearitas harapan. Perhatikan bahwa dengan asumsi dan karena adalah matriks simetrik dan dengan demikian sama dengan transposnya. Akhirnya kami tiba di
Sekarang kita menyingkirkan semua istilah . Secara intuitif, varians estimator tidak tergantung pada nilai koefisien yang mendasari benar, karena ini bukan variabel acak per se. Hasilnya berlaku untuk semua elemen individu dalam matriks kovarians varians seperti yang ditunjukkan dalam buku sehingga juga berlaku untuk elemen diagonal off juga dengan untuk membatalkan masing-masing. Satu-satunya masalah adalah Anda telah menerapkan rumus umum untuk varian yang tidak mencerminkan pembatalan ini pada awalnya.
Pada akhirnya, varian koefisien berkurang menjadi dan independen dari . Tapi apa artinya ini? (Saya yakin Anda juga meminta pemahaman yang lebih umum tentang matriks kovarians umum)
Lihatlah formula dalam buku ini. Ini hanya menegaskan bahwa varians dari penaksir meningkat ketika istilah kesalahan mendasar yang sebenarnya lebih berisik ( meningkat), tetapi menurun ketika penyebaran X meningkat. Karena memiliki lebih banyak pengamatan yang tersebar di sekitar nilai sebenarnya, memungkinkan Anda secara umum membuat estimator yang lebih akurat dan dengan demikian lebih dekat dengan true . Di sisi lain, istilah kovarian pada off-diagonal menjadi relevan secara praktis dalam pengujian hipotesis hipotesis gabungan seperti . Selain itu, mereka sedikit fudge, sungguh. Semoga ini menjelaskan semua pertanyaan. β b 0 = b 1 = 0
Tampaknya adalah nilai yang diprediksi (nilai yang diharapkan). Mereka beralih antara dan .