Pertanyaannya sangat sederhana: mengapa, ketika kami mencoba menyesuaikan model dengan data kami, linear atau non-linear, apakah kami biasanya mencoba meminimalkan jumlah kuadrat kesalahan untuk mendapatkan estimator kami untuk parameter model? Mengapa tidak memilih beberapa fungsi tujuan lain untuk diminimalkan? Saya mengerti bahwa, karena alasan teknis, fungsi kuadrat lebih bagus daripada beberapa fungsi lainnya, misalnya, jumlah deviasi absolut. Tapi ini masih bukan jawaban yang sangat meyakinkan. Selain alasan teknis ini, mengapa khususnya orang-orang yang mendukung fungsi jarak 'tipe Euclidean' ini? Apakah ada makna atau interpretasi khusus untuk itu?
Logika di balik pemikiran saya adalah sebagai berikut:
Ketika Anda memiliki dataset, Anda pertama-tama mengatur model Anda dengan membuat satu set asumsi fungsional atau distribusi (katakanlah, beberapa kondisi saat tetapi tidak seluruh distribusi). Dalam model Anda, ada beberapa parameter (menganggap itu adalah model parametrik), maka Anda perlu menemukan cara untuk secara konsisten memperkirakan parameter ini dan mudah-mudahan, penaksir Anda akan memiliki varian rendah dan beberapa properti bagus lainnya. Apakah Anda meminimalkan SSE atau LAD atau fungsi objektif lainnya, saya pikir mereka hanya metode yang berbeda untuk mendapatkan penduga yang konsisten. Mengikuti logika ini, saya pikir orang menggunakan kuadrat terkecil harus 1) itu menghasilkan penduga yang konsisten dari model 2) sesuatu yang lain yang saya tidak tahu.
Dalam ekonometrik, kita tahu bahwa dalam model regresi linier, jika Anda mengasumsikan bahwa istilah kesalahan memiliki 0 pengkondisian rata-rata pada prediktor dan homoseksualitas dan kesalahan tidak berkorelasi satu sama lain, maka meminimalkan jumlah kesalahan kuadrat akan memberi Anda penduga KONSISTEN model Anda parameter dan oleh teorema Gauss-Markov, estimator ini BIRU. Jadi ini akan menyarankan bahwa jika Anda memilih untuk meminimalkan beberapa fungsi tujuan lain yang bukan SSE, maka tidak ada jaminan bahwa Anda akan mendapatkan penduga yang konsisten dari parameter model Anda. Apakah pemahaman saya benar? Jika benar, maka meminimalkan SSE daripada beberapa fungsi tujuan lainnya dapat dibenarkan dengan konsistensi, yang dapat diterima, pada kenyataannya, lebih baik daripada mengatakan fungsi kuadrat lebih baik.
Dalam praktiknya, saya benar-benar melihat banyak kasus di mana orang langsung meminimalkan jumlah kesalahan kuadrat tanpa terlebih dahulu menentukan model lengkap, misalnya, asumsi distribusi (asumsi momen) pada istilah kesalahan. Maka menurut saya pengguna metode ini hanya ingin melihat seberapa dekat data sesuai dengan 'model' (saya menggunakan tanda kutip karena asumsi model mungkin tidak lengkap) dalam hal fungsi jarak kuadrat.
Pertanyaan terkait (juga terkait dengan situs web ini) adalah: mengapa, ketika kami mencoba membandingkan model yang berbeda menggunakan validasi silang, apakah kami kembali menggunakan SSE sebagai kriteria penilaian? yaitu, pilih model yang memiliki SSE paling sedikit? Mengapa bukan kriteria lain?