Jawaban:
Pertanyaan ini cukup lama tetapi saya benar-benar memiliki jawaban yang tidak muncul di sini, dan yang memberikan alasan kuat mengapa (berdasarkan beberapa asumsi yang masuk akal) kesalahan kuadrat benar, sedangkan kekuatan lain salah.
Katakanlah kita memiliki beberapa data dan ingin menemukan fungsi linear (atau apa pun) yang paling baik memprediksi data, dalam arti bahwa kepadatan probabilitas untuk mengamati data ini harus maksimal sehubungan dengan (ini disebut estimasi kemungkinan maksimum ). Jika kita mengasumsikan bahwa data diberikan oleh ditambah istilah kesalahan yang terdistribusi normal dengan standar deviasi , maka Ini setara dengan f p f ( D ) f f σ p f ( D ) = n ∏ i = 1 1
Tidak ada alasan Anda tidak dapat mencoba meminimalkan norma selain x ^ 2, ada seluruh buku yang ditulis tentang regresi kuantil, misalnya, yang kurang lebih meminimalkan | x | jika Anda bekerja dengan median. Ini umumnya lebih sulit untuk dilakukan dan, tergantung pada model kesalahan, mungkin tidak memberikan penduga yang baik (tergantung pada apakah itu berarti varians rendah atau tidak bias atau penduga UMK rendah dalam konteks).
Adapun mengapa kita lebih suka momen bilangan bulat daripada momen bernilai bilangan real, alasan utamanya adalah kemungkinan bahwa sementara bilangan bulat bilangan real selalu menghasilkan bilangan real, bilangan non-bilangan bulat bilangan real negatif menciptakan bilangan kompleks, sehingga membutuhkan penggunaan nilai absolut. Dengan kata lain, sementara momen ke-3 dari variabel acak bernilai nyata adalah nyata, momen ke-3.2 tidak selalu nyata, dan karenanya menyebabkan masalah interpretasi.
Selain itu...
Kami mencoba meminimalkan varians yang tersisa di dalam deskriptor. Mengapa varians? Baca pertanyaan ini ; ini juga datang bersama dengan asumsi (kebanyakan diam) bahwa kesalahan terdistribusi secara normal.
Ekstensi:
Dua argumen tambahan:
Untuk varian, kami memiliki "hukum" yang bagus ini bahwa jumlah varians sama dengan varians jumlah, untuk sampel yang tidak berkorelasi. Jika kita mengasumsikan bahwa kesalahan tidak berkorelasi dengan kasus ini, meminimalkan sisa kuadrat akan bekerja langsung untuk memaksimalkan varian yang dijelaskan, apa yang mungkin merupakan ukuran kualitas yang tidak begitu baik tetapi masih populer.
Jika kita mengasumsikan normalitas kesalahan, estimator kesalahan kuadrat terkecil adalah kemungkinan maksimal.
Dalam kuadrat terkecil biasa, solusi untuk (A'A) ^ (- 1) x = A'b meminimalkan hilangnya kesalahan kuadrat, dan merupakan solusi kemungkinan maksimum.
Jadi, sebagian besar karena matematika itu mudah dalam kasus bersejarah ini.
Tetapi umumnya orang meminimalkan banyak fungsi kerugian yang berbeda , seperti eksponensial, logistik, cauchy, laplace, huber, dll. Fungsi kerugian yang lebih eksotis ini umumnya membutuhkan banyak sumber daya komputasi, dan tidak memiliki solusi bentuk tertutup (secara umum), jadi mereka baru mulai menjadi lebih populer sekarang.