Itu hampir selalu curang untuk menghapus pengamatan untuk meningkatkan model regresi. Anda harus menghentikan pengamatan hanya ketika Anda benar-benar berpikir bahwa ini sebenarnya outlier.
Misalnya, Anda memiliki deret waktu dari monitor detak jantung yang terhubung ke jam tangan pintar Anda. Jika Anda melihat pada seri, mudah untuk melihat bahwa akan ada pengamatan yang salah dengan bacaan seperti 300bps. Ini harus dihapus, tetapi bukan karena Anda ingin meningkatkan model (apa pun artinya). Itu kesalahan dalam membaca yang tidak ada hubungannya dengan detak jantung Anda.
Satu hal yang perlu diperhatikan adalah korelasi kesalahan dengan data. Dalam contoh saya bisa dikatakan bahwa Anda memiliki kesalahan ketika monitor denyut jantung dipindahkan selama latihan seperti berlari atau melompat. Yang akan membuat kesalahan ini berkorelasi dengan tingkat hart. Dalam hal ini, perawatan harus diambil dalam menghilangkan outlier dan kesalahan ini, karena mereka tidak secara acak
Saya akan memberi Anda contoh yang dibuat-buat tentang kapan tidak menghapus outlier . Katakanlah Anda sedang mengukur pergerakan berat pada pegas. Jika bobotnya relatif kecil dibandingkan dengan kekuatan bobotnya, maka Anda akan melihat bahwa hukum Hooke bekerja dengan sangat baik: mana F adalah gaya, k - koefisien tensi dan Δ x adalah posisi bobot .
F= - k Δ x ,
FkΔ x
Sekarang jika Anda meletakkan beban yang sangat berat atau terlalu berat, Anda akan mulai melihat penyimpangan: pada perpindahan yang cukup besar gerakannya akan tampak menyimpang dari model linier. Jadi, Anda mungkin tergoda untuk menghapus outlier untuk meningkatkan model linier. Ini bukan ide yang baik, karena modelnya tidak berfungsi dengan baik karena hukum Hooke kurang lebih tepat.Δ x
PEMBARUAN Dalam kasus Anda, saya akan menyarankan menarik titik data tersebut dan melihatnya lebih dekat. Mungkinkah itu kegagalan instrumen lab? Gangguan eksternal? Cacat sampel? dll.
Selanjutnya cobalah untuk mengidentifikasi apakah presnece outlier ini dapat dikorelasikan dengan apa yang Anda ukur seperti dalam contoh yang saya berikan. Jika ada korelasi maka tidak ada cara sederhana untuk melakukannya. Jika tidak ada korelasi maka Anda dapat menghapus outlier