Untuk menambahkan penjelasan visual ke ini: mari kita pertimbangkan beberapa poin yang Anda rencanakan untuk model.
Mereka terlihat seperti mereka dapat digambarkan dengan baik dengan garis lurus, sehingga Anda cocok dengan regresi linier untuk mereka:
Garis regresi ini memungkinkan Anda melakukan interpolasi (menghasilkan nilai yang diharapkan di antara titik data Anda) dan mengekstrapolasi (menghasilkan nilai yang diharapkan di luar kisaran titik data Anda). Saya telah menyoroti ekstrapolasi dalam warna merah dan wilayah interpolasi terbesar dengan warna biru. Untuk lebih jelasnya, bahkan daerah kecil di antara titik-titik diinterpolasi, tapi saya hanya menyoroti yang besar di sini.
Mengapa ekstrapolasi pada umumnya lebih memprihatinkan? Karena Anda biasanya jauh lebih tidak yakin tentang bentuk hubungan di luar rentang data Anda. Pertimbangkan apa yang mungkin terjadi ketika Anda mengumpulkan beberapa titik data lagi (lingkaran kosong):
Ternyata hubungan itu tidak ditangkap dengan baik dengan hubungan Anda yang dihipotesiskan. Prediksi di wilayah ekstrapolasi sangat jauh. Bahkan jika Anda telah menebak fungsi tepat yang menggambarkan hubungan nonlinier ini dengan benar, data Anda tidak melampaui rentang yang cukup bagi Anda untuk menangkap nonlinier dengan baik, sehingga Anda mungkin masih cukup jauh. Perhatikan bahwa ini adalah masalah tidak hanya untuk regresi linier, tetapi untuk hubungan apa pun - ini sebabnya ekstrapolasi dianggap berbahaya.
Prediksi di wilayah interpolasi juga tidak benar karena kurangnya ketidaklinieran dalam kecocokan, tetapi kesalahan prediksi mereka jauh lebih rendah. Tidak ada jaminan bahwa Anda tidak akan memiliki hubungan yang tidak terduga di antara poin Anda (yaitu wilayah interpolasi), tetapi umumnya lebih kecil kemungkinannya.
Saya akan menambahkan bahwa ekstrapolasi tidak selalu merupakan ide yang buruk - jika Anda memperkirakan sedikit di luar kisaran data Anda, Anda mungkin tidak akan salah (walaupun itu mungkin!). Orang dahulu yang tidak memiliki model ilmiah dunia yang baik tidak akan jauh salah jika mereka meramalkan bahwa matahari akan terbit lagi pada hari berikutnya dan sehari setelah itu (meskipun satu hari jauh di masa depan, bahkan ini akan gagal).
Dan kadang-kadang, ekstrapolasi bahkan bisa informatif - misalnya, ekstrapolasi jangka pendek sederhana dari peningkatan eksponensial CO atmosfer telah cukup akurat selama beberapa dekade terakhir. Jika Anda seorang siswa yang tidak memiliki keahlian ilmiah tetapi menginginkan perkiraan kasar jangka pendek, ini akan memberi Anda hasil yang cukup masuk akal. Tetapi semakin jauh dari data Anda Anda memperkirakan, semakin besar kemungkinan prediksi Anda cenderung gagal, dan gagal bencana, seperti yang dijelaskan dengan sangat baik di utas besar ini: Apa yang salah dengan ekstrapolasi? (terima kasih kepada @JMnotnotastatistician untuk mengingatkan saya akan hal itu).2
Sunting berdasarkan komentar: apakah interpolasi atau ekstrapolasi, selalu lebih baik untuk memiliki beberapa teori untuk mendasarkan harapan. Jika pemodelan bebas teori harus dilakukan, risiko dari interpolasi biasanya kurang dari itu dari ekstrapolasi. Yang mengatakan, ketika kesenjangan antara titik data meningkat besarnya, interpolasi juga menjadi semakin penuh dengan risiko.