Memang benar bahwa asumsi regresi linier tidak realistis. Namun, ini berlaku untuk semua model statistik. "Semua model salah, tetapi beberapa berguna."
Saya kira Anda mendapat kesan bahwa tidak ada alasan untuk menggunakan regresi linier ketika Anda bisa menggunakan model yang lebih kompleks. Ini tidak benar, karena secara umum, model yang lebih kompleks lebih rentan terhadap overfitting, dan mereka menggunakan lebih banyak sumber daya komputasi, yang penting jika, misalnya, Anda mencoba melakukan statistik pada prosesor tertanam atau server web. Model yang lebih sederhana juga lebih mudah dipahami dan diinterpretasikan; Sebaliknya, model pembelajaran mesin yang kompleks seperti jaringan saraf cenderung berakhir sebagai kotak hitam, lebih atau kurang.
Bahkan jika regresi linier suatu hari nanti menjadi tidak lagi berguna secara praktis (yang tampaknya sangat tidak mungkin di masa mendatang), itu masih akan secara teoritis penting, karena model yang lebih kompleks cenderung membangun regresi linier sebagai fondasi. Misalnya, untuk memahami regresi logistik efek campuran yang teregulasi, Anda harus memahami regresi linier lama yang sederhana terlebih dahulu.
Ini bukan untuk mengatakan bahwa model yang lebih kompleks, lebih baru, dan lebih bersinar tidak berguna atau tidak penting. Banyak dari mereka. Tetapi model yang lebih sederhana lebih dapat diterapkan secara luas dan karenanya lebih penting, dan jelas masuk akal untuk hadir terlebih dahulu jika Anda akan menghadirkan berbagai model. Ada banyak analisis data buruk yang dilakukan hari ini oleh orang-orang yang menyebut diri mereka "ilmuwan data" atau sesuatu tetapi bahkan tidak tahu hal-hal mendasar, seperti apa interval kepercayaan sebenarnya. Jangan menjadi statistik!