Saya mungkin akan pergi dengan model asli Anda dengan dataset lengkap Anda. Saya biasanya menganggap hal-hal ini sebagai memfasilitasi analisis sensitivitas. Artinya, mereka mengarahkan Anda ke hal yang harus diperiksa untuk memastikan bahwa Anda tidak mendapatkan hasil yang diberikan hanya karena sesuatu yang bodoh. Dalam kasus Anda, Anda memiliki beberapa poin yang berpotensi berpengaruh, tetapi jika Anda menjalankan kembali model tanpa mereka, Anda mendapatkan jawaban yang sama secara substantif (setidaknya sehubungan dengan aspek yang mungkin Anda pedulikan). Dengan kata lain, gunakan ambang mana saja yang Anda suka — Anda hanya mencocokkan model sebagai cek, bukan sebagai versi 'benar'. Jika Anda berpikir bahwa orang lain akan cukup khawatir tentang potensi pencilan, Anda dapat melaporkan kedua model yang cocok. Apa yang akan Anda katakan adalah sepanjang garis,
Inilah hasil saya. Orang mungkin khawatir bahwa gambar ini hanya muncul karena pasangan yang tidak biasa, tetapi sangat berpengaruh, pengamatan. Ini adalah hasil dari model yang sama, tetapi tanpa pengamatan itu. Tidak ada perbedaan substantif.
Dimungkinkan juga untuk menghapusnya dan menggunakan model kedua sebagai hasil utama Anda. Setelah semua, tetap dengan set data asli sejumlah asumsi tentang data mana yang termasuk dalam model seperti halnya dengan subset. Tetapi orang-orang cenderung sangat skeptis dengan hasil yang Anda laporkan karena secara psikologis terlalu mudah bagi seseorang untuk meyakinkan diri mereka sendiri, tanpa niat korup yang sebenarnya, untuk mengikuti set tweak post-hoc (seperti menjatuhkan beberapa pengamatan) yang memberi mereka hasil yang paling mereka harapkan untuk dilihat. Dengan selalu menggunakan dataset lengkap, Anda mendahului kemungkinan itu dan meyakinkan orang (katakanlah, pengulas) bahwa itu bukan apa yang terjadi dalam proyek Anda.
Masalah lain di sini adalah bahwa orang akhirnya ' mengejar gelembung '. Ketika Anda menjatuhkan beberapa outlier potensial, dan menjalankan kembali model Anda, Anda berakhir dengan hasil yang menunjukkan pengamatan baru yang berbeda sebagai outlier potensial. Berapa banyak iterasi yang harus Anda lalui? Respons standar untuk ini adalah bahwa Anda harus tetap dengan dataset asli, lengkap, dan menjalankan regresi yang kuat sebagai gantinya. Ini lagi, dapat dipahami sebagai analisis sensitivitas.