Apa perbedaan antara varians dan galat kuadrat rata-rata?


27

Saya terkejut ini belum ditanyakan sebelumnya, tetapi saya tidak dapat menemukan pertanyaan di stats.stackexchange.

Ini adalah rumus untuk menghitung varians dari sampel yang terdistribusi normal:

(XX¯)2n1

Ini adalah rumus untuk menghitung rata-rata kesalahan kuadrat pengamatan dalam regresi linier sederhana:

(yiy^i)2n2

Apa perbedaan antara kedua formula ini? Satu-satunya perbedaan yang saya lihat adalah MSE menggunakan n2 . Jadi jika itu satu-satunya perbedaan, mengapa tidak merujuk keduanya sebagai varian, tetapi dengan tingkat kebebasan yang berbeda?


Ada apa dengan halaman wikipedia di sini yang tidak jelas?
TrynnaDoStat

3
Varians adalah rata-rata deviasi kuadrat dari pengamatan dari mean. Sebaliknya, MSE adalah rata-rata penyimpangan kuadrat dari prediksi dari nilai sebenarnya.
random_guy

3
"Varians" dan "galat kuadrat rata-rata" memiliki beberapa rumus dan beragam aplikasi. Untuk memperjelas pertanyaan Anda, dapatkah Anda (a) menjelaskan data seperti apa yang Anda terapkan pada konsep-konsep ini dan (b) memberikan formula untuknya? (Kemungkinan dengan melakukan hal itu Anda juga akan menemukan jawaban untuk pertanyaan Anda.)
whuber

6
Ada rumus yang lebih umum, yang kedua adalah kasus khusus dari: manapadalah jumlah parameter diperkirakan dalam memperoleh yi(yiy^i)2nppy^
Glen_b -Reinstate Monica

@Glen_b dapatkah Anda memberikan referensi untuk informasi lebih lanjut tentang formula umum ini?
trianta2

Jawaban:


28

Kesalahan kuadrat rata-rata seperti yang Anda tulis untuk OLS menyembunyikan sesuatu:

in(yiy^i)2n2=in[yi(β^0+β^xxi)]2n2

Perhatikan bahwa pembilang meringkas fungsi y dan x , sehingga Anda kehilangan derajat kebebasan untuk setiap variabel, karenanya n2 . Dalam rumus untuk varians sampel, pembilang adalah fungsi dari variabel tunggal, sehingga Anda hanya kehilangan satu derajat kebebasan dalam penyebut.

Namun, Anda berada di jalur dalam memperhatikan bahwa ini adalah jumlah yang secara konsep serupa. Varians sampel mengukur penyebaran data di sekitar mean sampel (dalam satuan kuadrat), sedangkan MSE mengukur penyebaran vertikal data di sekitar garis regresi sampel (dalam kuadrat unit vertikal).


@amoeba Hei! Terima kasih atas perhatiannya. Apakah ada panduan gaya CV resmi yang mendorong pengeditan ini? Jika demikian saya ingin mempelajarinya. Jika tidak, yah, Glen_b pernah dengan benar memperingatkan saya karena menjajah dengan preferensi gaya pribadi saya dan mengedit untuk orang lain Qs dan As. Apa yang kamu pikirkan? (Dan saya bertanya dengan nada kolegial: Saya pikir hasil edit Anda menambah sesuatu. Hanya ingin memahami nilai-nilai pengeditan kami lebih baik.)
Alexis

1
Saya tidak berpikir ada panduan gaya CV resmi yang membuat saran ini, tetapi di LaTeX ada rumus inline (ditandai dengan satu tanda dolar) yang diberikan langsung di blok teks, dan rumus yang ditampilkan (ditandai dengan dua tanda dolar) yang diberikan pada baris terpisah. Rumus yang ditampilkan menggunakan tata letak yang berbeda. Formula Anda pada awalnya berada pada baris terpisah tetapi ditandai dengan satu tanda dolar; Saya pikir ini tidak masuk akal. Namun, Anda benar tentang preferensi pribadi, jadi silakan membalas dengan permintaan maaf. Alasan saya mengedit adalah karena saya memperbaiki kesalahan ketik pada Q.
Amuba mengatakan Reinstate Monica

β0n-1 seperti dalam rumus varian alih-alih n-2
develarist

1

Dalam rumus varians, mean sampel mendekati rata-rata populasi. Mean sampel dihitung untuk sampel yang diberikan denganntitik data. Mengetahui sampel berarti meninggalkan kita sajan-1 titik data independen sebagai ntitik data th dibatasi oleh mean sampel, jadi (n-1) derajat kebebasan (DOF) dalam penyebut dalam rumus varian.

Untuk mendapatkan nilai estimasi y (=β0+β1×x) dalam rumus UMK, kita perlu memperkirakan keduanya β0 (Yaitu mencegat) serta β1 (i.e. the slope) so we lose 2 DOF, and so that is the reason for (n2) in the denominator in the MSE formula.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.