Nilai batas jarak Cook

Saya telah membaca tentang jarak juru masak untuk mengidentifikasi outlier yang memiliki pengaruh besar pada regresi saya. Dalam penelitian asli Cook, ia mengatakan bahwa tingkat cut-off 1 harus sebanding dengan mengidentifikasi influencer. Namun, berbagai penelitian lain menggunakan atau $\frac{4}{n}$ sebagai cut-off. $\frac{4}{n-k-1}$

Dalam penelitian saya, tidak ada residu saya yang memiliki D lebih tinggi dari 1. Namun, jika saya menggunakan sebagai penggalan $\frac{4}{n}$ , maka ada berbagai titik data yang dianggap influencer. Saya memutuskan untuk menguji apakah menghapus titik data ini akan membuat perbedaan untuk regresi linier umum saya. Semua infus saya mempertahankan signifikansi dan tidak ada perubahan yang jelas terlihat. $(\frac{4}{149}= .026)$

Haruskah saya menyimpan semua poin data saya dan menggunakan tingkat cut-off 1? Atau hapus?

outliers cooks-distance

— disertasi membantu
sumber

Periksa Baltagi (2011) Ekonometrika, 5e. Dalam Bab 8, bagian 8.1. Dia menyarankan ukuran lain yang berasal dari jarak Cook, dan itu, juga, memeriksa distorsi / pengaruh dari pengaruh berpengaruh dalam matriks Var-Covar, yang mungkin juga Anda butuhkan, karena estimator Anda untuk tidak banyak berubah ...

— SirAlex

Anda tidak boleh menghapus data apa pun berdasarkan diagnostik ini. Tujuannya adalah untuk membantu Anda berpikir tentang mereka dan pengaruhnya terhadap analisis Anda.

— whuber

Saya mungkin akan pergi dengan model asli Anda dengan dataset lengkap Anda. Saya biasanya menganggap hal-hal ini sebagai memfasilitasi analisis sensitivitas. Artinya, mereka mengarahkan Anda ke hal yang harus diperiksa untuk memastikan bahwa Anda tidak mendapatkan hasil yang diberikan hanya karena sesuatu yang bodoh. Dalam kasus Anda, Anda memiliki beberapa poin yang berpotensi berpengaruh, tetapi jika Anda menjalankan kembali model tanpa mereka, Anda mendapatkan jawaban yang sama secara substantif (setidaknya sehubungan dengan aspek yang mungkin Anda pedulikan). Dengan kata lain, gunakan ambang mana saja yang Anda suka — Anda hanya mencocokkan model sebagai cek, bukan sebagai versi 'benar'. Jika Anda berpikir bahwa orang lain akan cukup khawatir tentang potensi pencilan, Anda dapat melaporkan kedua model yang cocok. Apa yang akan Anda katakan adalah sepanjang garis,

Inilah hasil saya. Orang mungkin khawatir bahwa gambar ini hanya muncul karena pasangan yang tidak biasa, tetapi sangat berpengaruh, pengamatan. Ini adalah hasil dari model yang sama, tetapi tanpa pengamatan itu. Tidak ada perbedaan substantif.

Dimungkinkan juga untuk menghapusnya dan menggunakan model kedua sebagai hasil utama Anda. Setelah semua, tetap dengan set data asli sejumlah asumsi tentang data mana yang termasuk dalam model seperti halnya dengan subset. Tetapi orang-orang cenderung sangat skeptis dengan hasil yang Anda laporkan karena secara psikologis terlalu mudah bagi seseorang untuk meyakinkan diri mereka sendiri, tanpa niat korup yang sebenarnya, untuk mengikuti set tweak post-hoc (seperti menjatuhkan beberapa pengamatan) yang memberi mereka hasil yang paling mereka harapkan untuk dilihat. Dengan selalu menggunakan dataset lengkap, Anda mendahului kemungkinan itu dan meyakinkan orang (katakanlah, pengulas) bahwa itu bukan apa yang terjadi dalam proyek Anda.

Masalah lain di sini adalah bahwa orang akhirnya ' mengejar gelembung '. Ketika Anda menjatuhkan beberapa outlier potensial, dan menjalankan kembali model Anda, Anda berakhir dengan hasil yang menunjukkan pengamatan baru yang berbeda sebagai outlier potensial. Berapa banyak iterasi yang harus Anda lalui? Respons standar untuk ini adalah bahwa Anda harus tetap dengan dataset asli, lengkap, dan menjalankan regresi yang kuat sebagai gantinya. Ini lagi, dapat dipahami sebagai analisis sensitivitas.

— gung - Pasang kembali Monica
sumber