Arti dan perbandingan yang tepat antara titik berpengaruh, titik leverage tinggi, dan pencilan?


15

Dari Wikipedia

Pengamatan yang berpengaruh adalah pengamatan yang memiliki efek yang relatif besar pada prediksi model regresi.

Dari Wikipedia

Leverage poin adalah pengamatan tersebut, jika ada, dibuat pada nilai ekstrim atau outlying dari variabel independen sedemikian rupa sehingga kurangnya pengamatan tetangga berarti bahwa model regresi pas akan melewati dekat dengan pengamatan tertentu.

Mengapa perbandingan berikut dari Wikipedia

Meskipun titik yang berpengaruh biasanya akan memiliki leverage yang tinggi , titik leverage yang tinggi belum tentu merupakan titik yang berpengaruh .


2
Jawaban di bawah ini bagus. Mungkin juga membantu untuk membaca jawaban saya di sini: Menafsirkan plot.lm () .
gung - Reinstate Monica

Jawaban:


13

Bayangkan setiap garis regresi dipasang ke beberapa data.

Sekarang bayangkan sebuah titik data tambahan, suatu outlier yang agak jauh dari badan utama data, tetapi titik yang terletak di suatu tempat di sepanjang garis regresi itu.

Jika garis regresi harus dipasang kembali, koefisien tidak akan berubah. Sebaliknya, menghapus pencilan ekstra akan memiliki pengaruh nol pada koefisien.

Jadi, titik outlier atau leverage akan memiliki pengaruh nol jika itu sangat konsisten dengan sisa data dan model yang tersirat.

Untuk "line" baca "plane" atau "hyperplane" jika diinginkan, tetapi contoh paling sederhana dari dua variabel dan plot pencar sudah cukup di sini.

Namun, karena Anda menyukai definisi - sering, tampaknya, cenderung membaca terlalu banyak ke dalamnya - inilah definisi favorit saya tentang outlier:

"Pencilan adalah nilai sampel yang menyebabkan kejutan dalam kaitannya dengan sebagian besar sampel" (WN Venables dan BD Ripley. 2002. Statistik terapan modern dengan S. New York: Springer, hal.119).

Yang terpenting, kejutan ada di benak orang yang melihatnya dan bergantung pada beberapa model data yang diam-diam atau eksplisit. Mungkin ada model lain di mana outlier tidak mengejutkan sama sekali, katakanlah jika data benar-benar lognormal atau gamma daripada normal.

PS Saya tidak berpikir bahwa poin leverage harus kurang pengamatan tetangga. Sebagai contoh, mereka dapat terjadi berpasangan.


Terima kasih! Apakah outlier dan poin leverage tinggi adalah konsep yang sama? Perhatikan bahwa "Leverage biasanya didefinisikan sebagai diagonal dari matriks topi" dari en.wikipedia.org/wiki/Partial_leverage
StackExchange for All

1
Tidak; Anda belum menunjukkan kepada kami definisi "outlier", tetapi mengikuti definisi dari poin leverage yang tidak perlu outlier sensu Venables dan Ripley. (Saya sarankan mencoba menyapih diri dari Wikipedia.) Lihat juga @ Gael's reply.
Nick Cox

1
"Yang terpenting, kejutan ada dalam pikiran yang melihatnya dan tergantung pada beberapa model data yang diam-diam atau eksplisit. Mungkin ada model lain di mana outlier tidak mengejutkan sama sekali, katakan jika data benar-benar lognormal atau gamma daripada normal." Jadi outlier didefinisikan dengan beberapa model, sementara poin leverage tinggi dan poin berpengaruh tidak?
StackExchange untuk Semua

1
Venables dan Ripley, seperti yang saya baca, membuat titik cerdas dengan cara yang jenaka, dan menumbangkan gagasan naif bahwa outlier dapat didefinisikan dengan pernyataan formal yang tepat. Tetapi perawatan lain dapat ditemukan dalam gaya yang berbeda. Sebaliknya, leverage dan pengaruh dapat didefinisikan secara formal dalam hal cara mengukurnya. Dua gaya menggunakan terminologi tidak benar-benar konsisten. Untuk mendapatkan gambaran yang lebih baik tentang outlier dan bukan, pengalaman analisis data aktual mengajarkan lebih dari membaca entri ensiklopedia.
Nick Cox

Gael merujuk pada komentar pada 29 Juli 2013 yang sekarang menggunakan identifier @Gala. Pada saat penulisan ini hanya ada satu jawaban lain, tetapi itu mungkin berubah.
Nick Cox

20

Sangat mudah untuk menggambarkan bagaimana titik leverage yang tinggi mungkin tidak berpengaruh dalam kasus model linier sederhana:

Leverage tinggi tapi tidak terlalu berpengaruh

Garis biru adalah garis regresi berdasarkan semua data, garis merah mengabaikan titik di kanan atas plot.

Poin ini sesuai dengan definisi titik leverage tinggi yang baru saja Anda berikan karena jauh dari data lainnya. Karena itu, garis regresi (yang biru) harus dilewati. Tetapi karena posisinya sebagian besar cocok dengan pola yang diamati pada sisa data, model lain akan memprediksinya dengan sangat baik (yaitu garis merah sudah melewati dekat dalam hal apapun) dan karena itu tidak terlalu berpengaruh.

Bandingkan ini dengan sebar berikut:

Leverage tinggi sangat berpengaruh poin

Di sini, titik di sebelah kanan plot masih merupakan titik leverage yang tinggi tetapi kali ini tidak benar-benar cocok dengan pola yang diamati pada sisa data. Garis biru (kesesuaian linier berdasarkan semua data) melewati sangat dekat tetapi garis merah tidak. Termasuk atau tidak termasuk satu titik ini mengubah estimasi parameter secara dramatis: Ini memiliki banyak pengaruh.

Perhatikan bahwa definisi yang Anda kutip dan contoh-contoh yang baru saja saya berikan mungkin menyiratkan bahwa leverage / poin berpengaruh tinggi, dalam beberapa hal, "outliers" univariat dan bahwa garis regresi yang pas akan melewati dekat dengan titik dengan pengaruh tertinggi tetapi perlu tidak demikian.

Titik tersembunyi yang sangat berpengaruh

Dalam contoh terakhir ini, pengamatan di kanan bawah memiliki efek (relatif) besar pada kesesuaian model (terlihat lagi melalui perbedaan antara garis merah dan biru) tetapi tampaknya masih jauh dari garis regresi. sementara tidak terdeteksi dalam distribusi univariat (diwakili di sini oleh "permadani" di sepanjang sumbu).


Terima kasih! Apakah titik leverage tinggi yang kami gunakan di sini konsisten dengan "leverage biasanya didefinisikan sebagai diagonal dari matriks topi" dari en.wikipedia.org/wiki/Partial_leverage ?
StackExchange for All

Penjelasan yang bagus. Akan sangat menghargai jika Anda juga memberikan data untuk ketiga kasus tersebut. Terima kasih
MYaseen208
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.