Pertanyaan yang diberi tag «outliers»

Pencilan adalah pengamatan yang tampaknya tidak biasa atau tidak dijelaskan dengan baik relatif terhadap karakterisasi sederhana suatu dataset. Kemungkinan yang mengecewakan adalah bahwa data ini berasal dari populasi yang berbeda dari yang dimaksudkan untuk dipelajari.




3
Deteksi outlier yang kuat dalam jangka waktu keuangan
Saya sedang mencari beberapa teknik yang kuat untuk menghapus outlier dan kesalahan (apa pun penyebabnya) dari data time-series keuangan (yaitu tickdata). Tick-by-tick data time-series keuangan sangat berantakan. Ini berisi kesenjangan (waktu) yang sangat besar ketika pertukaran ditutup, dan membuat lompatan besar ketika pertukaran dibuka kembali. Ketika pertukaran terbuka, semua jenis …

5
Apakah curang untuk menjatuhkan outlier berdasarkan pada boxplot Mean Absolute Error untuk meningkatkan model regresi
Saya memiliki model prediksi yang diuji dengan empat metode seperti yang Anda lihat pada gambar boxplot di bawah ini. Atribut yang diprediksi model berada dalam kisaran 0-8. Anda mungkin memperhatikan bahwa ada satu outlier batas atas dan tiga outlier batas bawah yang ditunjukkan oleh semua metode. Saya ingin tahu apakah …

2
Arti dan perbandingan yang tepat antara titik berpengaruh, titik leverage tinggi, dan pencilan?
Dari Wikipedia Pengamatan yang berpengaruh adalah pengamatan yang memiliki efek yang relatif besar pada prediksi model regresi. Dari Wikipedia Leverage poin adalah pengamatan tersebut, jika ada, dibuat pada nilai ekstrim atau outlying dari variabel independen sedemikian rupa sehingga kurangnya pengamatan tetangga berarti bahwa model regresi pas akan melewati dekat dengan …

2
Memperkirakan parameter distribusi normal: median, bukan rata-rata?
Pendekatan umum untuk memperkirakan parameter distribusi normal adalah dengan menggunakan mean dan sampel standar deviasi / varians. Namun, jika ada beberapa outlier, median dan deviasi median dari median harus jauh lebih kuat, bukan? Pada beberapa set data saya mencoba, distribusi normal diperkirakan oleh tampaknya menghasilkan lebih cocok banyak daripada klasik …

3
Crash course dalam estimasi rata-rata yang kuat
Saya memiliki banyak perkiraan (sekitar 1000) dan semuanya seharusnya merupakan perkiraan elastisitas jangka panjang. Sedikit lebih dari setengahnya diperkirakan menggunakan metode A dan sisanya menggunakan metode B. Di suatu tempat saya membaca sesuatu seperti "Saya pikir metode B memperkirakan sesuatu yang sangat berbeda dari metode A, karena perkiraannya jauh (50-60%) …

3
Memahami pita kepercayaan dari regresi polinomial
Saya mencoba memahami hasil yang saya lihat pada grafik saya di bawah ini. Biasanya, saya cenderung menggunakan Excel dan mendapatkan garis regresi linier tetapi dalam kasus di bawah ini saya menggunakan R dan saya mendapatkan regresi polinomial dengan perintah: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Jadi pertanyaan saya sampai pada …

5
Apakah ada cara sederhana untuk mendeteksi outlier?
Saya bertanya-tanya apakah ada cara sederhana untuk mendeteksi outlier. Untuk salah satu proyek saya, yang pada dasarnya merupakan korelasi antara berapa kali responden berpartisipasi dalam aktivitas fisik dalam seminggu dan berapa kali mereka makan di luar rumah (makanan cepat saji) dalam seminggu, saya menggambar sebar dan benar-benar menghapus titik data …

1
Drop outlier berdasarkan “2,5 kali RMSE”
Dalam Kahneman dan Deaton (2010) , penulis menulis yang berikut:††^\dagger Regresi ini menjelaskan 37% dari varians, dengan root mean square error (RMSE) dari 0,67852. Untuk menghilangkan pencilan dan laporan pendapatan yang tidak masuk akal, kami menjatuhkan pengamatan di mana nilai absolut dari perbedaan antara pendapatan kayu dan prediksi melebihi 2,5 …


2
menggunakan informasi tetangga dalam memasukkan data atau mencari off-data (dalam R)
Saya memiliki dataset dengan asumsi bahwa tetangga terdekat adalah prediktor terbaik. Hanya contoh sempurna dari gradien dua arah divisualisasikan- Misalkan kita memiliki kasus di mana beberapa nilai hilang, kita dapat dengan mudah memprediksi berdasarkan tetangga dan tren. Matriks data yang sesuai dalam R (contoh boneka untuk latihan): miss.mat <- matrix …

1
LARS vs koordinate descent untuk laso
Apa pro dan kontra dari menggunakan LARS [1] dibandingkan menggunakan penurunan koordinat untuk menyesuaikan regresi linier yang diatur L1? Saya terutama tertarik pada aspek kinerja (masalah saya cenderung ada Ndalam ratusan ribu dan p<20.) Namun, wawasan lainnya juga akan dihargai. sunting: Karena saya telah memposting pertanyaan, chl telah dengan ramah …

4
Memisahkan dua populasi dari sampel
Saya mencoba memisahkan dua kelompok nilai dari satu set data. Saya dapat berasumsi bahwa salah satu populasi terdistribusi secara normal dan setidaknya setengah dari ukuran sampel. Nilai yang kedua sama-sama lebih rendah atau lebih tinggi dari nilai dari yang pertama (distribusi tidak diketahui). Yang saya coba lakukan adalah menemukan batas …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.