Apakah rata-rata kuadrat kesalahan digunakan untuk menilai superioritas relatif satu penaksir atas yang lain?

13

Misalkan kita memiliki dua penduga $\alpha_1$ dan $\alpha_2$ untuk beberapa parameter $x$ . Untuk menentukan estimator mana yang "lebih baik" apakah kita melihat MSE (mean squared error)? Dengan kata lain kita melihat

M. S E = β^{2} + σ^{2}

$MSE = \beta^2+ \sigma^2$ mana

β

$\beta$ adalah bias dari estimator dan

σ^{2}

$\sigma^2$ adalah varians dari estimator? Manakah yang memiliki MSE lebih besar adalah penaksir yang lebih buruk?

estimation mse

— Damien
sumber

10

Jika Anda telah dua estimator bersaing dan , apakah atau tidak memberitahu Anda bahwa adalah estimator yang lebih baik tergantung sepenuhnya pada definisi Anda "terbaik". Misalnya, jika Anda membandingkan berisi estimator dan dengan "lebih baik" yang Anda maksud memiliki varians lebih rendah maka, ya, ini akan berarti bahwa lebih baik. $\hat \theta_1$ $\hat \theta_2$

M. S E ({\hat{θ}}_{1}) < M. S E ({\hat{θ}}_{2})

${\rm MSE}(\hat \theta_1) < {\rm MSE}(\hat \theta_2)$

{\hat{θ}}_{1}

$\hat \theta_1$

{\hat{θ}}_{1}

$\hat \theta_1$

M S E

$\rm MSE$ adalah kriteria populer karena hubungannya dengan Least Squares dan Gaussian log-likelihood tetapi, seperti banyak kriteria statistik, satu harus berhati-hati dari menggunakan

membabi buta sebagai ukuran kualitas estimator tanpa memperhatikan aplikasi.

M S E

$\rm MSE$

Ada situasi tertentu di mana memilih estimator untuk meminimalkan mungkin tidak menjadi hal yang sangat masuk akal untuk dilakukan. Dua skenario muncul dalam pikiran: ${\rm MSE}$

Jika ada outlier yang sangat besar dalam kumpulan data maka mereka dapat mempengaruhi MSE secara drastis dan dengan demikian estimator yang meminimalkan MSE dapat dipengaruhi oleh outlier seperti itu. Dalam situasi seperti itu, fakta bahwa estimator meminimalkan MSE tidak benar-benar memberi tahu Anda banyak karena, jika Anda menghapus outlier (s), Anda bisa mendapatkan perkiraan yang sangat berbeda. Dalam hal itu, MSE tidak "kuat" untuk outlier. Dalam konteks regresi, fakta inilah yang memotivasi Penaksir-M Huber (yang saya bahas dalam jawaban ini), yang meminimalkan fungsi kriteria yang berbeda (yaitu campuran antara kesalahan kuadrat dan kesalahan absolut) ketika ada kesalahan berekor panjang .
Jika Anda memperkirakan parameter dibatasi, membandingkan s mungkin tidak tepat karena menghukum lebih dan understimation berbeda dalam kasus itu. Sebagai contoh, misalkan Anda memperkirakan varians, . Kemudian, jika Anda sadar meremehkan kuantitas Anda dapat paling , sementara terlalu tinggi dapat menghasilkan yang jauh melebihi , bahkan mungkin dengan jumlah yang tak terbatas. $\rm MSE$ $\sigma^2$ $\rm MSE$ $\sigma^4$ $\rm MSE$ $\sigma^4$

Untuk membuat kelemahan ini lebih jelas, saya akan memberikan contoh konkret ketika, karena masalah ini, tidak mungkin ukuran yang tepat dari kualitas estimator. $\rm MSE$

Misalkan Anda memiliki sampel dari distribusi dengan derajat kebebasan dan kami mencoba untuk memperkirakan varians, yang merupakan . Pertimbangkan dua estimator $X_1, ..., X_n$ $t$ $\nu>2$ $\nu/(\nu-2)$ dan Jelas

{\hat{θ}}_{1} : t h e kamu n b saya Sebuah s e d s Sebuah m hal l e v Sebuah r saya Sebuah n c e

$\hat \theta_{1}: {\rm the \ unbiased \ sample \ variance}$

{\hat{θ}}_{2} = 0, r e g Sebuah r d l e s s Hai f t h e d Sebuah t Sebuah

$\hat \theta_{2} = 0,{\rm \ regardless \ of \ the \ data}$

dan itu adalah kenyataan bahwa

M S E ({\hat{θ}}_{2}) = \frac{ν^{2}}{(ν - 2)^{2}}

$\rm MSE(\hat \theta_{2}) = \frac{\nu^2}{(\nu-2)^2}$

yang dapat diturunkan menggunakanfakta yang dibahas dalam utas inidansifat-sifat distribusi-

. Dengan demikian melebihi estimator naif dalam halterlepas dari ukuran sampel setiap kali, yang agak membingungkan. Itu juga mengungguli ketika

M. S E ({\hat{θ}}_{1}) = {\begin{cases} \infty & jika ν \leq 4 \\ \frac{ν^{2}}{(ν - 2)^{2}} (\frac{2}{n - 1} + \frac{6}{n (ν - 4)}) & jika ν > 4 . \end{cases}

${\rm MSE}(\hat \theta_{1}) = \begin{cases} \infty &\mbox{if } \nu \leq 4 \\ \frac{\nu^2}{(\nu-2)^2} \left( \frac{2}{n-1}+\frac{6}{n(\nu-4)} \right) & \mbox{if } \nu>4 . \end{cases}$

t

$t$ $\rm MSE$ $\nu < 4$

tetapi ini hanya relevan untuk ukuran sampel yang sangat kecil. Di atas terjadi karena sifat ekor panjang dari

distribusi dengan derajat kecil kebebasan, yang membuat

rentan terhadap nilai-nilai yang sangat besar dan

menghukum berat untuk terlalu tinggi, sementara

tidak memiliki masalah ini.

(\frac{2}{n - 1} + \frac{6}{n (ν - 4)}) > 1

$\left( \frac{2}{n-1}+\frac{6}{n(\nu-4)} \right) > 1$

t

$t$

{\hat{θ}}_{2}

$\hat \theta_{2}$

M S E

$\rm MSE$

{\hat{θ}}_{1}

$\hat \theta_1$

$\rm MSE$ $\rm MSE$ $\hat \theta$

S (\hat{θ}) = \frac{\hat{θ}}{ν / (ν - 2)} - 1 - catatan (\frac{\hat{θ}}{ν / (ν - 2)})

$S(\hat \theta) = \frac{ \hat \theta}{\nu/(\nu-2)} - 1 - \log \left( \frac{ \hat \theta}{\nu/(\nu-2)} \right)$

$S(\hat \theta_1)=\infty$

— Makro
sumber

(+1) Diskusi yang bagus. Agar adil, mungkin harus ditunjukkan bahwa argumen yang sama dapat dibuat untuk dan terhadap kriteria lain (fungsi kerugian lainnya) juga.

— MånsT

2

Biasanya, seseorang mengevaluasi estimator dengan melihat fungsi risikonya, yang memplot perkiraan kerugian versus parameter. Di sini, dengan memperbaiki parameter, Anda mungkin telah menghasilkan analisis yang menyesatkan. Lagi pula, selalu merupakan hal yang membuat penaksir bodoh (konstan, data-bodoh) dapat menghasilkan kerugian yang diharapkan sangat rendah: cukup setel dengan parameter yang benar! Ini membuat saya bertanya-tanya apa simulasi yang sebenarnya ditampilkan di sini.

— whuber

@whuber, saya telah memodifikasi jawaban ini untuk memberikan contoh secara analitis, yang membuatnya lebih jelas mungkin. Saya juga menawarkan fungsi kerugian alternatif yang mungkin lebih sesuai.

— Makro

ν

$\nu$

2

$L(\alpha_i) = (\alpha_i - \alpha)^2$

— JMS
sumber

2

Karena fungsinya $f(x) = x^2$ dapat dibedakan, itu membuat menemukan MSE minimum lebih mudah dari sudut pandang teoritis dan numerik. Sebagai contoh, dalam kuadrat terkecil biasa Anda dapat memecahkan kejelasan untuk kemiringan dan penyadapan yang dipasang. Dari sudut pandang numerik, Anda memiliki pemecah yang lebih efisien saat Anda memiliki turunan juga.

Kesalahan kuadrat rata-rata biasanya melebihi bobot outlier menurut saya. Inilah sebabnya mengapa sering lebih kuat untuk menggunakan kesalahan absolut rata-rata, yaitu penggunaan $f(x) = |x|$ sebagai fungsi kesalahan Anda. Namun, karena tidak dapat dibedakan, itu membuat solusi lebih sulit untuk dikerjakan.

MSE mungkin merupakan pilihan yang baik jika istilah kesalahan didistribusikan secara normal. Jika mereka memiliki ekor yang lebih gemuk, pilihan yang lebih kuat seperti nilai absolut lebih disukai.

— aprokopiw
sumber

0

Dalam Case & Berger Statistical Inference edisi ke-2 Halaman 332 menyatakan bahwa MSE memberikan penalti yang sama untuk perkiraan yang terlalu tinggi dan terlalu rendah, yang tidak masalah dalam kasus lokasi. Namun, dalam kasus skala, 0 adalah batas bawah alami, sehingga masalah estimasi tidak simetris. Penggunaan MSE dalam hal ini cenderung memaafkan terlalu rendah.

Anda mungkin ingin memeriksa penaksir mana yang memenuhi properti UMVUE, yang berarti menggunakan Cramer-Rao Batas bawah. Halaman 341.

— Tu.2
sumber