Sisa residu vs outlier yang berpengaruh

Pertama, saya harus menyatakan bahwa saya telah mencari jawabannya di situs ini. Saya juga tidak menemukan pertanyaan yang menjawab pertanyaan saya atau tingkat pengetahuan saya sangat rendah sehingga saya tidak menyadari bahwa saya sudah membaca jawabannya.

Saya sedang belajar untuk Ujian Statistik AP. Saya harus belajar regresi linier dan salah satu topiknya adalah residual. Saya memiliki salinan Pengantar Statistik dan Analisis Data pada halaman 253 yang dinyatakannya.

Poin yang tidak biasa dalam kumpulan data bivariat adalah yang jatuh jauh dari sebagian besar titik lain di sebar baik dalam arah atau arah $x$ $y$

Pengamatan berpotensi pengamatan berpengaruh jika memiliki nilai yang jauh dari sisa data (dipisahkan dari sisa data dalam arah ). Untuk menentukan apakah pengamatan itu sebenarnya berpengaruh, kami menilai apakah pemindahan pengamatan ini memiliki dampak besar pada nilai kemiringan atau mencegat garis kuadrat-terkecil. $x$ $x$

Pengamatan adalah pencilan jika memiliki residu yang besar. Pengamatan outlier jauh dari garis kuadrat terkecil di arah . $y$

Stattreck.com menyatakan empat metode untuk menentukan pencilan dari residual:

Poin data yang menyimpang jauh dari pola keseluruhan disebut outlier. Ada empat cara bahwa suatu titik data dapat dianggap sebagai pencilan.

Itu bisa memiliki nilai X ekstrim dibandingkan dengan titik data lainnya.

Itu bisa memiliki nilai Y ekstrim dibandingkan dengan titik data lainnya.

Itu bisa memiliki nilai X dan Y yang ekstrim.

Mungkin jauh dari sisa data, bahkan tanpa nilai X atau Y yang ekstrim.

Kedua sumber ini tampaknya saling bertentangan. Adakah yang bisa membantu menjernihkan kebingungan saya. Juga, bagaimana seseorang mendefinisikan ekstrim. Statistik AP menggunakan aturan jika titik data di luar (Q1-1.5IQR, Q3 + 1.5IQR) itu adalah outlier. Saya tidak tahu bagaimana menerapkannya hanya dari grafik dari residu.

regression outliers residuals

— MaoYiyi
sumber

Jawaban:

Situs stattrek tampaknya memiliki deskripsi yang lebih baik tentang outlier dan poin-poin yang berpengaruh daripada buku teks Anda, tetapi Anda hanya mengutip sebuah bagian pendek yang mungkin menyesatkan. Saya tidak punya buku itu, jadi saya tidak bisa memeriksanya dalam konteks. Perlu diingat, bahwa bagian buku teks yang Anda kutip mengatakan, "berpotensi". Itu juga tidak eksklusif. Mempertahankan poin-poin itu dalam pikiran, stattrek dan buku Anda tidak selalu tidak setuju. Tetapi tampaknya buku Anda menyesatkan dalam arti bahwa buku itu menyiratkan (dari perikop pendek ini) bahwa satu-satunya perbedaan antara pencilan dan titik-titik berpengaruh adalah apakah mereka menyimpang pada sumbu x atau y. Itu tidak benar.

"Aturan" untuk pencilan bervariasi tergantung pada konteks. Aturan yang Anda kutip hanya aturan praktis dan ya, tidak benar-benar dirancang untuk regresi. Ada beberapa cara untuk menggunakannya. Mungkin lebih mudah untuk memvisualisasikan jika Anda membayangkan beberapa nilai-y pada setiap x dan memeriksa residu. Contoh-contoh regresi buku teks yang umum terlalu sederhana untuk melihat bagaimana aturan outlier dapat bekerja, dan dalam kebanyakan kasus nyata itu tidak berguna. Semoga dalam kehidupan nyata, Anda mengumpulkan lebih banyak data. Jika perlu bahwa Anda mungkin menerapkan aturan kuantil untuk outlier untuk masalah regresi maka mereka harus menyediakan data yang sesuai.

— John
sumber

Terima kasih atas jawabannya, itu hanya mengganggu bahwa buku-buku yang berbeda mencoba untuk menyatakan aturan-aturan ini tanpa benar-benar mengatakannya dengan jujur tergantung pada data, seperti yang Anda katakan.

— MaoYiyi

Sebenarnya, saya menyatakan salah juga ... itu tergantung pada teori, metode, dan data ... seluruh penelitian.

— John

$X(X'X)^{-1}X'$

Pengaruh adalah fungsi dari titik desain (nilai X), seperti yang dinyatakan oleh buku teks Anda.

Perhatikan bahwa pengaruhnya adalah kekuatan. Dalam percobaan yang dirancang, Anda ingin nilai X yang berpengaruh, dengan asumsi Anda dapat mengukur nilai Y yang sesuai secara akurat. Anda mendapatkan lebih banyak untuk uang dengan cara itu.

Bagi saya, pencilan pada dasarnya adalah kesalahan - yaitu, pengamatan yang tidak mengikuti model yang sama dengan data lainnya. Ini mungkin terjadi karena kesalahan pengumpulan data, atau karena subjek tertentu itu tidak biasa dalam beberapa cara.

Saya tidak terlalu suka definisi stattrek tentang outlier karena beberapa alasan. Regresi tidak simetris dalam Y dan X. Y dimodelkan sebagai variabel acak dan X diasumsikan diperbaiki dan diketahui. Keanehan pada Y's tidak sama dengan keanehan pada X's. Pengaruh dan outliership memiliki arti yang berbeda. Pengaruh, dalam regresi berganda, tidak terdeteksi dengan melihat plot residual. Deskripsi yang baik tentang outlier dan pengaruh untuk kasus variabel tunggal harus membuat Anda memahami banyak kasus juga.

Saya lebih tidak menyukai buku teks Anda, karena alasan yang diberikan oleh John.

Intinya, outlier berpengaruh berbahaya. Mereka perlu diperiksa dengan cermat dan ditangani.

— Placidia
sumber

Ketidaksukaan Anda terhadap penjelasan regresi stattrek sesuai jika Anda berasal dari latar belakang di mana eksperimen yang sebenarnya adalah norma. Semua alasan Anda berlaku di sana. Tetapi jika Anda berasal dari latar belakang di mana desain kuasi-eksperimental lebih umum maka situs stattrek lebih relevan. Dalam kasus tersebut, nilai x dan y seringkali hanya sampel acak.

— John

@ John bagaimana dengan latar belakang ingin lulus Ujian Statistik AP? Apakah desain kuasi-eksperimental? Apakah itu menggunakan tabel angka acak untuk simulasi?

— MaoYiyi

Saya tidak tahu apa-apa tentang ujian statistik AP. Eksperimen sejati adalah eksperimen di mana Anda memanipulasi variabel prediktor dan membuat grup untuk menguji beberapa hipotesis atau grup kontrol dan eksperimental, dll. Desain kuasi-eksperimental adalah hal lain yang mirip eksperimen. Jadi, bayangkan regresi di mana nilai x adalah berat dan nilai y adalah beberapa keterampilan olahraga. Anda tidak memanipulasi kedua variabel, Anda secara acak sampel keduanya. Jadi, kritik Placidia terhadap stattrek cukup valid untuk eksperimen sejati tetapi tidak sebanyak kuasi.

— John

@ John ... Saya berasal dari latar belakang di mana eksperimen yang dirancang dipandang sebagai standar emas. Dalam praktiknya, saya tahu bahwa X dan Y sering merupakan sampel acak, yang menimbulkan pertanyaan mengapa regresi digunakan, dan bukan suatu bentuk analisis variabel laten.

— Placidia

Ketika Anda hanya punya dua variabel ... :) Kadang-kadang Anda memiliki teori yang bagus untuk menyarankan satu hal memprediksi yang lain, misalnya, tinggi dan kemungkinan masuk ke NBA ... keduanya sampel acak. Dalam kasus dengan satu, atau beberapa (terutama tidak berkorelasi) regresi hubungan linier adalah baik.

— John