Bagaimana seseorang dapat secara objektif (membaca "algoritmik") memilih model yang tepat untuk melakukan regresi linear kuadrat-sederhana dengan dua variabel?
Sebagai contoh, katakanlah data tampaknya menunjukkan tren kuadratik, dan parabola dihasilkan yang cocok dengan data dengan cukup baik. Bagaimana kita membenarkan membuat regresi ini? Atau bagaimana kita menghilangkan kemungkinan ada model yang lebih baik?
Yang saya benar-benar khawatirkan adalah ini: kita bisa terus menambahkan istilah polinomial sampai kita memiliki kesesuaian yang sempurna untuk kumpulan data (sebuah interpolasi poin), tanpa kesalahan sama sekali. Tapi ini akan sia-sia sejauh memprediksi atau memperkirakan, karena tidak akan ada alasan untuk berpikir bahwa "model" itu sebenarnya sesuai. Jadi bagaimana seseorang menyeimbangkan kebutuhan akurasi dan daya tarik intuitif?
(Juga, tolong beri tahu saya jika ini telah ditanyakan sebelumnya, saya berasumsi itu akan tetapi tidak menemukan apa-apa.)