Mengapa perbedaan kuadrat begitu umum digunakan?

Sangat sering ketika saya menyelidiki metode dan konsep statistik baru, saya mengalami perbedaan kuadrat (atau rata-rata kesalahan kuadrat, atau kebanyakan julukan lainnya). Sama seperti contoh, r Pearson diputuskan berdasarkan perbedaan kuadrat rata-rata dari garis regresi di mana titik terletak. Untuk ANOVA, Anda melihat jumlah kuadrat, dan sebagainya.

Sekarang, saya mengerti bahwa dengan mengkuadratkan segala sesuatu, Anda memastikan bahwa data dengan pencilan benar-benar dihukum. Namun, mengapa eksponen digunakan tepat 2? Mengapa tidak 2.1, atau e, atau pi, atau apa pun? Apakah ada alasan khusus mengapa 2 digunakan atau itu hanya sebuah konvensi? Saya menduga bahwa penjelasannya mungkin ada hubungannya dengan kurva lonceng, tapi saya cukup yakin.

normal-distribution

— Speldosa
sumber

Pertama, Anda menyalahgunakan istilah EKSPONENTIAL, yang merujuk pada hal-hal seperti daripada . Kedua, lihat stats.stackexchange.com/questions/118/… di mana topik ini dibahas secara menyeluruh.

a^{x}

$a^x$

x^{a}

$x^a$

— Russ Lenth

@ rvl Terima kasih, saya mengedit istilah itu dari pertanyaan saya. Dan terima kasih, saya akan memeriksa pertanyaan itu!

— Speldosa

Salah satu alasan bagus mengapa mereka muncul pada akhirnya berasal dari rumus sederhana yang menghubungkan varian jumlah dengan varian (dan mungkin kovarian) komponen, dan hasil yang rapi tentang dekomposisi kuadrat. Jika pertanyaan @rvl tautan ke atas menjawab pertanyaan Anda, silakan pertimbangkan untuk menutup pertanyaan Anda. Jika tidak sepenuhnya menjawab pertanyaan Anda, harap edit pertanyaan Anda untuk menyoroti perbedaan antara apa yang ingin Anda ketahui dan apa yang ditangani di sana.

— Glen_b -Reinstate Monica

Saya pikir ini adalah pertanyaan yang berbeda dari utas (populer) lainnya tentang mengkuadratkan. Ada perbedaan konseptual antara fungsi kerugian kuadrat (yang, pada dasarnya, adalah kunci untuk menjawab pertanyaan ini) dan kuadrat untuk menilai penyimpangan (yang merupakan dorongan dari utas lainnya).

— whuber

Periksa di sini dan di sini untuk masalah yang sama.

— Tim

Pendekatan keputusan-teori untuk statistik memberikan penjelasan yang mendalam. Dikatakan bahwa perbedaan kuadrat adalah proksi untuk berbagai fungsi kerugian yang (setiap kali dapat dibenarkan diadopsi) menyebabkan penyederhanaan yang cukup besar dalam prosedur statistik yang mungkin harus dipertimbangkan.

Sayangnya, menjelaskan apa artinya ini dan menunjukkan mengapa itu benar membutuhkan banyak pengaturan. Notasi dapat dengan cepat menjadi tidak dapat dipahami. Apa yang ingin saya lakukan di sini, hanya untuk membuat sketsa ide-ide utama, dengan sedikit elaborasi. Untuk akun yang lebih lengkap lihat referensi.

Sebuah standar, model kaya data berpendapat bahwa mereka adalah realisasi dari (nyata, vektor-dihargai) variabel acak yang distribusinya hanya dikenal menjadi elemen dari beberapa set distribusi, yang menyatakan alam . Sebuah statistik prosedur adalah fungsi dari mengambil nilai-nilai dalam beberapa set keputusan , yang ruang keputusan. $\mathbf x$ $\mathbf X$ $F$ $\Omega$ $t$ $\mathbf x$ $D$

Misalnya, dalam masalah prediksi atau klasifikasi akan terdiri dari gabungan dari "set pelatihan" dan "set data uji" dan akan memetakan ke dalam set nilai prediksi untuk set uji. Himpunan semua kemungkinan nilai diprediksi akan . $\mathbf x$ $t$ $\mathbf x$ $D$

Diskusi teoretis lengkap tentang prosedur harus mengakomodasi prosedur acak . Prosedur acak memilih di antara dua atau lebih keputusan yang mungkin menurut beberapa distribusi probabilitas (yang tergantung pada data ). Ini menggeneralisasi gagasan intuitif bahwa ketika data tampaknya tidak membedakan antara dua alternatif, Anda selanjutnya "melempar koin" untuk memutuskan alternatif yang pasti. Banyak orang tidak menyukai prosedur acak, keberatan membuat keputusan dengan cara yang tidak terduga. $\mathbf x$

Fitur yang membedakan dari teori keputusan adalah penggunaan dari fungsi kerugian . $W$ Untuk setiap keadaan alamiah dan keputusan , kerugian $F \in \Omega$ $d \in D$

W (F, d)

$W(F,d)$

adalah nilai numerik yang menunjukkan seberapa "buruk" akan membuat keputusan ketika keadaan sebenarnya adalah : kerugian kecil adalah baik, kerugian besar adalah buruk. Dalam situasi pengujian hipotesis, misalnya, memiliki dua elemen "terima" dan "tolak" (hipotesis nol). Fungsi kerugian menekankan pada pengambilan keputusan yang tepat: ia disetel ke nol ketika keputusan itu benar dan sebaliknya adalah beberapa konstanta . (Ini disebut " fungsi kerugian :" semua keputusan buruk sama buruknya dan semua keputusan bagus sama baiknya.) Secara khusus, saat $d$ $F$ $D$ $w$ $0-1$ $W(F,\text{ accept})=0$ ada dalam hipotesis nol dan ketika ada dalam hipotesis alternatif. $F$ $W(F,\text{ reject})=0$ $F$

Saat menggunakan prosedur , kerugian untuk data ketika keadaan sebenarnya adalah dapat ditulis . Hal ini membuat hilangnya suatu variabel acak yang distribusi ditentukan oleh (tidak diketahui) . $t$ $x$ $F$ $W(F, t(x))$ $W(F, t(X))$ $F$

Kerugian diharapkan dari prosedur disebut nya risiko , . Ekspektasi menggunakan keadaan sebenarnya dari sifat , yang karenanya akan muncul secara eksplisit sebagai subskrip operator ekspektasi. Kami akan melihat risiko sebagai fungsi dan menekankan bahwa dengan notasi: $t$ $r_t$ $F$ $F$

r_{t} (F) = E_{F} (W (F, t (X))) .

$r_t(F) = \mathbb{E}_F(W(F, t(X))).$

Prosedur yang lebih baik memiliki risiko lebih rendah. Dengan demikian, membandingkan fungsi risiko adalah dasar untuk memilih prosedur statistik yang baik. Karena mengubah semua fungsi risiko dengan konstanta umum (positif) tidak akan mengubah perbandingan, skala tidak ada bedanya: kita bebas mengalikannya dengan nilai positif apa pun yang kita suka. Khususnya, saat mengalikan dengan kita selalu dapat menggunakan untuk fungsi kerugian (membenarkan namanya). $W$ $W$ $1/w$ $w=1$ $0-1$

Untuk melanjutkan contoh pengujian hipotesis, yang menggambarkan fungsi kerugian , definisi ini menyiratkan risiko apa pun dalam hipotesis nol adalah peluang bahwa keputusan itu "ditolak," sedangkan risiko apa pun dalam alternatifnya adalah kemungkinan bahwa keputusan itu adalah "menerima." Nilai maksimum (di atas semua dalam hipotesis nol) adalah ukuran tes , sedangkan bagian dari fungsi risiko yang didefinisikan pada hipotesis alternatif adalah komplemen dari daya uji ( $0-1$ $F$ $F$ $F$ $\text{power}_t(F) = 1 - r_t(F)$ ). Dalam hal ini kita melihat bagaimana keseluruhan teori pengujian hipotesis klasik (frequentist) berjumlah cara tertentu untuk membandingkan fungsi risiko untuk jenis kerugian khusus.

Omong-omong, semua yang disajikan sejauh ini sangat kompatibel dengan semua statistik arus utama, termasuk paradigma Bayesian. Selain itu, Bayesian analisis memperkenalkan sebuah "sebelum" distribusi probabilitas lebih dan menggunakan ini untuk menyederhanakan perbandingan fungsi risiko: berpotensi rumit fungsi dapat diganti dengan nilai yang diharapkan sehubungan dengan distribusi sebelumnya. Dengan demikian semua prosedur ditandai oleh satu nomor ; prosedur Bayes (yang biasanya unik) meminimalkan . Fungsi kerugian masih memainkan peran penting dalam komputasi . $\Omega$ $r_t$ $t$ $r_t$ $r_t$ $r_t$

Ada beberapa kontroversi (yang tidak dapat dihindari) seputar penggunaan fungsi kerugian. Bagaimana cara memilih ? Ini pada dasarnya unik untuk pengujian hipotesis, tetapi di sebagian besar pengaturan statistik lainnya, banyak pilihan dimungkinkan. Mereka mencerminkan nilai-nilai pembuat keputusan. Misalnya, jika data pengukuran fisiologis seorang pasien medis dan keputusannya adalah "mengobati" atau "tidak mengobati," dokter harus mempertimbangkan - dan menimbang dalam keseimbangan - konsekuensi dari kedua tindakan tersebut. Bagaimana konsekuensi ditimbang mungkin tergantung pada keinginan pasien sendiri, usia mereka, kualitas hidup mereka, dan banyak hal lainnya. Pilihan fungsi kerugian bisa penuh dan sangat pribadi. Biasanya itu tidak boleh diserahkan kepada ahli statistik! $W$

Satu hal yang ingin kita ketahui adalah bagaimana pilihan prosedur terbaik akan berubah ketika kerugian diubah? Ternyata dalam banyak situasi umum yang praktis sejumlah variasi dapat ditoleransi tanpa mengubah prosedur mana yang terbaik. Situasi ini ditandai oleh kondisi berikut:

Ruang keputusan adalah himpunan cembung (sering berupa interval angka). Ini berarti bahwa nilai apa pun yang terletak di antara dua keputusan juga merupakan keputusan yang valid.
Kerugian adalah nol ketika keputusan terbaik dibuat dan sebaliknya meningkat (untuk mencerminkan perbedaan antara keputusan yang dibuat dan yang terbaik yang bisa dibuat untuk keadaan alam yang benar - tetapi tidak diketahui).
Kehilangan adalah fungsi keputusan yang dapat dibedakan (setidaknya secara lokal mendekati keputusan terbaik). Ini menyiratkan bahwa ini kontinu - tidak melompat seperti kerugian - tetapi juga menyiratkan bahwa ia berubah relatif sedikit ketika keputusannya dekat dengan yang terbaik. $0-1$

Ketika kondisi ini bertahan, beberapa komplikasi yang terlibat dalam membandingkan fungsi risiko hilang. Perbedaan dan kecemburuan dari memungkinkan kita untuk menerapkan Ketimpangan Jensen untuk menunjukkan hal itu $W$

(1) Kami tidak perlu mempertimbangkan prosedur acak [Lehmann, wajar 6,2].

(2) Jika satu prosedur dianggap memiliki risiko terbaik untuk satu seperti itu, dapat ditingkatkan menjadi prosedur yang hanya bergantung pada statistik yang memadai dan setidaknya memiliki fungsi risiko yang sama baiknya untuk semua [Kiefer , hal. 151]. $t$ $W$ $t^{*}$ $W$

Sebagai contoh, misalkan adalah himpunan distribusi Normal dengan mean (dan varian unit). Ini mengidentifikasi dengan himpunan semua bilangan real, jadi (menyalahgunakan notasi) Saya juga akan menggunakan " " untuk mengidentifikasi distribusi dalam dengan rata-rata . Biarkan menjadi sampel pertama ukuran dari salah satu distribusi ini. Misalkan tujuannya adalah memperkirakan . Ini mengidentifikasi ruang keputusan dengan semua kemungkinan nilai (bilangan real apa pun). Membiarkan menunjuk keputusan sewenang-wenang, kerugian adalah fungsi $\Omega$ $\mu$ $\Omega$ $\mu$ $\Omega$ $\mu$ $X$ $n$ $\mu$ $D$ $\mu$ $\hat\mu$

W (μ, \hat{μ}) \geq 0

$W(\mu, \hat\mu) \ge 0$

dengan jika dan hanya jika . Asumsi sebelumnya menyiratkan (melalui Teorema Taylor) itu $W(\mu, \hat\mu)=0$ $\mu=\hat\mu$

W (μ, \hat{μ}) = w_{2} (\hat{μ} - μ)^{2} + o (\hat{μ} - μ)^{2}

$W(\mu, \hat\mu) = w_2 (\hat\mu - \mu)^2 + o(\hat\mu - \mu)^2$

$w_2$ $o(y)^p$ $f$ $f(y) / y^p$ $0$ $y\to 0$ $W$ $w_2=1$ $\Omega$ $X$ $\bar X$ $\mu$ $n$ $(x_1, \ldots, x_n)$ $W$ $\bar x$ $W$

$n$

$z = |\hat\mu-\mu|$ $2$ $2.1, e,$ $\pi$ $\exp(z)-1-z$

Angka

$2(\exp(|z|)-1-|z|)$ $z^2$ $0$

Hasil ini (walaupun jelas dibatasi oleh kondisi yang diberlakukan) membantu menjelaskan mengapa kerugian kuadrat ada di mana-mana dalam teori dan praktik statistik: sampai batas tertentu, ini adalah proksi yang nyaman secara analitis untuk setiap fungsi kerugian yang dapat dibedakan cembung.

Kehilangan kuadrat sama sekali bukan satu-satunya atau bahkan kerugian terbaik untuk dipertimbangkan. Memang, Lehman menulis itu

$W(F, d)$

... [F] fungsi kehilangan yang berkembang ini menyebabkan estimator yang cenderung peka terhadap asumsi yang dibuat tentang perilaku ekor [dari distribusi yang diasumsikan], dan asumsi ini biasanya didasarkan pada sedikit informasi dan karenanya tidak terlalu dapat diandalkan.

Ternyata penaksir yang dihasilkan oleh hilangnya kesalahan kuadrat sering tidak nyaman sensitif dalam hal ini.

[Lehman, bagian 1.6; dengan beberapa perubahan notasi.]

Mempertimbangkan kerugian alternatif membuka banyak kemungkinan: regresi kuantitatif, M-estimator, statistik yang kuat, dan banyak lagi semuanya dapat dibingkai dengan cara teori-keputusan ini dan dibenarkan menggunakan fungsi kerugian alternatif. Untuk contoh sederhana, lihat Fungsi Kerugian Persentil .

Referensi

Jack Carl Kiefer, Pengantar Inferensi Statistik. Springer-Verlag 1987.

EL Lehmann, Teori Estimasi Titik . Wiley 1983.

— whuber
sumber

Properti geometris untuk metrik jarak ini sedemikian rupa sehingga mudah digunakan.

Dan tentu saja matematika lebih mudah jika Anda memiliki solusi analitis untuk sebagian besar masalah.

— Analis
sumber

Mungkin Anda bisa sedikit lebih rumit?

— Tim

@Tim, ketimpangan segitiga dan sifat matematika bentuk kuadrat muncul di benak saya ...

— Analis

Ketidaksetaraan segitiga ada untuk setiap metrik jarak. Apa yang membuat jarak Euclidean / 2 norma / kuadrat perbedaan / MSE aneh adalah seperangkat besar transformasi yang melestarikannya (semua matriks ortogonal).

— Federico Poloni