Dalam Kahneman dan Deaton (2010) , penulis menulis yang berikut:
Regresi ini menjelaskan 37% dari varians, dengan root mean square error (RMSE) dari 0,67852. Untuk menghilangkan pencilan dan laporan pendapatan yang tidak masuk akal, kami menjatuhkan pengamatan di mana nilai absolut dari perbedaan antara pendapatan kayu dan prediksi melebihi 2,5 kali RMSE.
Apakah ini praktik umum? Apa intuisi di balik melakukannya? Tampaknya agak aneh untuk mendefinisikan pencilan yang didasarkan pada model yang mungkin tidak ditentukan dengan baik sejak awal. Tidakkah penentuan outlier didasarkan pada beberapa alasan teoretis untuk apa yang merupakan nilai yang masuk akal, dan bukan seberapa baik model Anda memprediksi nilai sebenarnya?
: Daniel Kahneman, Angus Deaton (2010): Penghasilan tinggi meningkatkan evaluasi kehidupan tetapi tidak kesejahteraan emosional. Prosiding National Academy of Sciences Sep 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107