Bias terhadap bilangan asli dalam kasus kuadrat terkecil


14

Mengapa kita berusaha meminimalkan x^2bukannya meminimalkan |x|^1.95atau |x|^2.05. Adakah alasan mengapa jumlahnya harus tepat dua atau itu hanya sebuah konvensi yang memiliki keuntungan menyederhanakan matematika?

Jawaban:


5

Pertanyaan ini cukup lama tetapi saya benar-benar memiliki jawaban yang tidak muncul di sini, dan yang memberikan alasan kuat mengapa (berdasarkan beberapa asumsi yang masuk akal) kesalahan kuadrat benar, sedangkan kekuatan lain salah.

Katakanlah kita memiliki beberapa data dan ingin menemukan fungsi linear (atau apa pun) yang paling baik memprediksi data, dalam arti bahwa kepadatan probabilitas untuk mengamati data ini harus maksimal sehubungan dengan (ini disebut estimasi kemungkinan maksimum ). Jika kita mengasumsikan bahwa data diberikan oleh ditambah istilah kesalahan yang terdistribusi normal dengan standar deviasi , maka Ini setara dengan f p f ( D ) f f σ p f ( D ) = n i = 1 1D=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)ffσ

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
Jadi memaksimalkan dicapai dengan meminimalkan , yaitu jumlah dari istilah kesalahan kuadrat.pf(D)i=1n(yif(xi))2

Itu kelihatannya melingkar, mengapa Anda mengasumsikan istilah kesalahan yang terdistribusi normal?
Joe

@ Jo Anda tidak harus selalu, tetapi jika satu-satunya hal yang Anda tahu tentang istilah kesalahan adalah bahwa ia memiliki rata-rata 0 dan nilai absolut yang diharapkan terbatas, maka itulah asumsi maksimum-entropi, sehingga dapat bertahan untuk apa pun yang tidak diketahui fungsi kesalahan yang sebenarnya Anda miliki. Jika Anda memiliki informasi tambahan tentang distribusi kesalahan maka saya kira Anda bisa menggunakannya dan menemukan penduga kemungkinan maksimum yang lebih akurat.

"Jika satu-satunya hal yang Anda ketahui tentang istilah kesalahan adalah bahwa ia memiliki rata-rata 0 dan nilai absolut yang diharapkan terbatas, maka itulah asumsi maksimum-entropi" - setiap derivasi dari distribusi entropi maksimum yang saya lihat berasal dari distribusi Laplace sebagai distribusi maksimum untuk nilai absolut yang diharapkan terbatas (yang diketahui), sedangkan Gaussian adalah maksimum untuk nilai absolut kuadran terbatas (dikenal), lihat sebagai salah satu contoh stats.stackexchange.com/questions/82410/… apakah Anda memiliki kutipan yang tidak setuju ?
Joe

Anda tahu, saya tidak. Saya akan menganggap Anda benar. (Meskipun saya tidak tahu bagaimana cara mengedit komentar saya karena beberapa alasan)

14

Tidak ada alasan Anda tidak dapat mencoba meminimalkan norma selain x ^ 2, ada seluruh buku yang ditulis tentang regresi kuantil, misalnya, yang kurang lebih meminimalkan | x | jika Anda bekerja dengan median. Ini umumnya lebih sulit untuk dilakukan dan, tergantung pada model kesalahan, mungkin tidak memberikan penduga yang baik (tergantung pada apakah itu berarti varians rendah atau tidak bias atau penduga UMK rendah dalam konteks).

Adapun mengapa kita lebih suka momen bilangan bulat daripada momen bernilai bilangan real, alasan utamanya adalah kemungkinan bahwa sementara bilangan bulat bilangan real selalu menghasilkan bilangan real, bilangan non-bilangan bulat bilangan real negatif menciptakan bilangan kompleks, sehingga membutuhkan penggunaan nilai absolut. Dengan kata lain, sementara momen ke-3 dari variabel acak bernilai nyata adalah nyata, momen ke-3.2 tidak selalu nyata, dan karenanya menyebabkan masalah interpretasi.

Selain itu...

  1. Ekspresi analitik untuk momen integer dari variabel acak biasanya lebih mudah ditemukan daripada momen bernilai nyata, baik dengan menghasilkan fungsi atau metode lain. Metode untuk menguranginya dengan demikian lebih mudah untuk ditulis.
  2. Penggunaan momen integer mengarah ke ekspresi yang lebih dapat ditelusuri daripada momen bernilai nyata.
  3. Saya tidak bisa memikirkan alasan kuat bahwa (misalnya) momen ke-1,95 dari nilai absolut X akan memberikan sifat pemasangan yang lebih baik daripada (misalnya) momen ke-2 X, meskipun itu bisa menarik untuk diselidiki
  4. Khusus untuk norma L2 (atau kuadrat kesalahan), dapat ditulis melalui produk titik, yang dapat menyebabkan peningkatan besar dalam kecepatan komputasi. Ini juga satu-satunya ruang Lp yang merupakan ruang Hilbert, yang merupakan fitur bagus untuk dimiliki.

8

Kami mencoba meminimalkan varians yang tersisa di dalam deskriptor. Mengapa varians? Baca pertanyaan ini ; ini juga datang bersama dengan asumsi (kebanyakan diam) bahwa kesalahan terdistribusi secara normal.

Ekstensi:
Dua argumen tambahan:

  1. Untuk varian, kami memiliki "hukum" yang bagus ini bahwa jumlah varians sama dengan varians jumlah, untuk sampel yang tidak berkorelasi. Jika kita mengasumsikan bahwa kesalahan tidak berkorelasi dengan kasus ini, meminimalkan sisa kuadrat akan bekerja langsung untuk memaksimalkan varian yang dijelaskan, apa yang mungkin merupakan ukuran kualitas yang tidak begitu baik tetapi masih populer.

  2. Jika kita mengasumsikan normalitas kesalahan, estimator kesalahan kuadrat terkecil adalah kemungkinan maksimal.


1
Jawaban di utas lainnya tidak benar-benar menjelaskan mengapa 2 adalah nilai yang lebih baik daripada nilai lain yang sangat dekat dengan 2 tetapi tidak ada bilangan alami.
Christian

Saya pikir itu terjadi; masih saya akan mencoba untuk memperpanjang jawabannya.

Jadi, jika kesalahan tidak terdistribusi secara normal, tetapi misalnya menurut distribusi Lévy-stable lainnya, mungkin terbayar jika menggunakan eksponen yang berbeda dari 2?
Raskolnikov

Ingat, distribusi normal adalah yang paling "hati-hati" untuk varian yang diketahui (karena memiliki entropi maksimum di antara semua kepadatan dengan varian tetap). Itu menyisakan sebagian besar yang bisa dikatakan oleh data. Atau dengan kata lain, untuk set data "besar" dengan varian yang sama, "Anda" harus "berusaha" sangat keras untuk mendapatkan distribusi yang berbeda dari normal.
probabilityislogic

8

Dalam kuadrat terkecil biasa, solusi untuk (A'A) ^ (- 1) x = A'b meminimalkan hilangnya kesalahan kuadrat, dan merupakan solusi kemungkinan maksimum.

Jadi, sebagian besar karena matematika itu mudah dalam kasus bersejarah ini.

Tetapi umumnya orang meminimalkan banyak fungsi kerugian yang berbeda , seperti eksponensial, logistik, cauchy, laplace, huber, dll. Fungsi kerugian yang lebih eksotis ini umumnya membutuhkan banyak sumber daya komputasi, dan tidak memiliki solusi bentuk tertutup (secara umum), jadi mereka baru mulai menjadi lebih populer sekarang.


1
+1 untuk memperkenalkan gagasan kehilangan. (Tapi bukankah "eksponensial", dll., Distribusi , bukan fungsi kerugian?) Secara historis, kerugian linear adalah pendekatan pertama yang dikembangkan secara formal, pada tahun 1750, dan ada solusi geometris langsung yang tersedia untuknya. Saya percaya Laplace membangun hubungan antara ini dan distribusi eksponensial ganda dalam publikasi 1809 (di mana MLE akan meminimalkan kesalahan absolut, bukan kesalahan kuadrat). Dengan demikian kerugian kuadrat tidak dibedakan secara unik dengan kriteria memiliki MLE dan secara matematis mudah.
whuber

Keduanya adalah fungsi distribusi dan kehilangan dalam konteks yang berbeda.
Joe

Saya menekan enter terlalu cepat pada jawaban sebelumnya - kerugian eksponensial secara luas dikaitkan dengan peningkatan (lihat Friedman Hastie dan Statistik Tampilan Meningkatkan Tibshirani), di mana itu kerugian daripada distribusi, regresi logistik berkaitan dengan kehilangan log, laplace adalah distribusi tetapi sesuai dengan kehilangan nilai absolut - jadi sebagian besar saya menjadi sangat ceroboh, terima kasih untuk menunjukkannya. Tapi sementara kehilangan L1 memiliki solusi geometris, itu bukan bentuk analitis tertutup, jadi saya tidak akan menyebut solusinya mudah.
Joe

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.