Statistik dan Big Data outliers

5

Bisakah pembersihan data memperburuk hasil analisis statistik?

Peningkatan jumlah kasus dan kematian terjadi selama epidemi (peningkatan mendadak dalam jumlah) karena sirkulasi virus (seperti Virus West Nile di AS pada tahun 2002) atau penurunan resistensi orang atau kontaminasi makanan atau air atau peningkatan jumlah nyamuk. Epidemi ini akan muncul sebagai outlier yang dapat terjadi setiap 1 hingga 5 …

17 time-series forecasting epidemiology outliers

1

Jarak PCA yang kuat vs Mahalanobis yang kuat untuk deteksi outlier

PCA yang kuat (seperti yang dikembangkan oleh Candes et al 2009 atau lebih baik dari Netrepalli et al 2014 ) adalah metode yang populer untuk deteksi outlier multivarian , tetapi jarak Mahalanobis juga dapat digunakan untuk deteksi outlier dengan memberikan estimasi yang kuat dan teratur dari matriks kovarians . Saya …

17 pca outliers covariance-matrix robust anomaly-detection

2

Bagaimana cara melakukan peramalan dengan deteksi outlier di R? - Prosedur dan Metode analisis deret waktu

Saya memiliki data deret waktu bulanan, dan ingin melakukan peramalan dengan deteksi pencilan. Ini adalah contoh kumpulan data saya: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 …

16 r time-series forecasting arima outliers

3

Deteksi outlier yang kuat dalam jangka waktu keuangan

Saya sedang mencari beberapa teknik yang kuat untuk menghapus outlier dan kesalahan (apa pun penyebabnya) dari data time-series keuangan (yaitu tickdata). Tick-by-tick data time-series keuangan sangat berantakan. Ini berisi kesenjangan (waktu) yang sangat besar ketika pertukaran ditutup, dan membuat lompatan besar ketika pertukaran dibuka kembali. Ketika pertukaran terbuka, semua jenis …

16 time-series outliers

5

Apakah curang untuk menjatuhkan outlier berdasarkan pada boxplot Mean Absolute Error untuk meningkatkan model regresi

Saya memiliki model prediksi yang diuji dengan empat metode seperti yang Anda lihat pada gambar boxplot di bawah ini. Atribut yang diprediksi model berada dalam kisaran 0-8. Anda mungkin memperhatikan bahwa ada satu outlier batas atas dan tiga outlier batas bawah yang ditunjukkan oleh semua metode. Saya ingin tahu apakah …

15 regression machine-learning multiple-regression predictive-models outliers

2

Arti dan perbandingan yang tepat antara titik berpengaruh, titik leverage tinggi, dan pencilan?

Dari Wikipedia Pengamatan yang berpengaruh adalah pengamatan yang memiliki efek yang relatif besar pada prediksi model regresi. Dari Wikipedia Leverage poin adalah pengamatan tersebut, jika ada, dibuat pada nilai ekstrim atau outlying dari variabel independen sedemikian rupa sehingga kurangnya pengamatan tetangga berarti bahwa model regresi pas akan melewati dekat dengan …

15 regression outliers leverage

2

Memperkirakan parameter distribusi normal: median, bukan rata-rata?

Pendekatan umum untuk memperkirakan parameter distribusi normal adalah dengan menggunakan mean dan sampel standar deviasi / varians. Namun, jika ada beberapa outlier, median dan deviasi median dari median harus jauh lebih kuat, bukan? Pada beberapa set data saya mencoba, distribusi normal diperkirakan oleh tampaknya menghasilkan lebih cocok banyak daripada klasik …

15 normal-distribution estimation outliers robust unbiased-estimator

3

Crash course dalam estimasi rata-rata yang kuat

Saya memiliki banyak perkiraan (sekitar 1000) dan semuanya seharusnya merupakan perkiraan elastisitas jangka panjang. Sedikit lebih dari setengahnya diperkirakan menggunakan metode A dan sisanya menggunakan metode B. Di suatu tempat saya membaca sesuatu seperti "Saya pikir metode B memperkirakan sesuatu yang sangat berbeda dari metode A, karena perkiraannya jauh (50-60%) …

15 mean outliers robust references

3

Memahami pita kepercayaan dari regresi polinomial

Saya mencoba memahami hasil yang saya lihat pada grafik saya di bawah ini. Biasanya, saya cenderung menggunakan Excel dan mendapatkan garis regresi linier tetapi dalam kasus di bawah ini saya menggunakan R dan saya mendapatkan regresi polinomial dengan perintah: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Jadi pertanyaan saya sampai pada …

14 r regression data-visualization outliers

5

Apakah ada cara sederhana untuk mendeteksi outlier?

Saya bertanya-tanya apakah ada cara sederhana untuk mendeteksi outlier. Untuk salah satu proyek saya, yang pada dasarnya merupakan korelasi antara berapa kali responden berpartisipasi dalam aktivitas fisik dalam seminggu dan berapa kali mereka makan di luar rumah (makanan cepat saji) dalam seminggu, saya menggambar sebar dan benar-benar menghapus titik data …

14 correlation outliers

1

Drop outlier berdasarkan “2,5 kali RMSE”

Dalam Kahneman dan Deaton (2010) , penulis menulis yang berikut:††^\dagger Regresi ini menjelaskan 37% dari varians, dengan root mean square error (RMSE) dari 0,67852. Untuk menghilangkan pencilan dan laporan pendapatan yang tidak masuk akal, kami menjatuhkan pengamatan di mana nilai absolut dari perbedaan antara pendapatan kayu dan prediksi melebihi 2,5 …

13 regression outliers

7

Perbedaan antara Anomali dan Pencilan

Apa perbedaan antara Outlier dan Anomaly dalam konteks pembelajaran mesin. Pemahaman saya adalah keduanya merujuk pada hal yang sama.

13 outliers terminology anomaly-detection

2

menggunakan informasi tetangga dalam memasukkan data atau mencari off-data (dalam R)

Saya memiliki dataset dengan asumsi bahwa tetangga terdekat adalah prediktor terbaik. Hanya contoh sempurna dari gradien dua arah divisualisasikan- Misalkan kita memiliki kasus di mana beberapa nilai hilang, kita dapat dengan mudah memprediksi berdasarkan tetangga dan tren. Matriks data yang sesuai dalam R (contoh boneka untuk latihan): miss.mat <- matrix …

13 r prediction outliers data-imputation multiple-imputation

1

LARS vs koordinate descent untuk laso

Apa pro dan kontra dari menggunakan LARS [1] dibandingkan menggunakan penurunan koordinat untuk menyesuaikan regresi linier yang diatur L1? Saya terutama tertarik pada aspek kinerja (masalah saya cenderung ada Ndalam ratusan ribu dan p<20.) Namun, wawasan lainnya juga akan dihargai. sunting: Karena saya telah memposting pertanyaan, chl telah dengan ramah …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

Memisahkan dua populasi dari sampel

Saya mencoba memisahkan dua kelompok nilai dari satu set data. Saya dapat berasumsi bahwa salah satu populasi terdistribusi secara normal dan setidaknya setengah dari ukuran sampel. Nilai yang kedua sama-sama lebih rendah atau lebih tinggi dari nilai dari yang pertama (distribusi tidak diketahui). Yang saya coba lakukan adalah menemukan batas …

13 dataset outliers expectation-maximization

Pertanyaan yang diberi tag «outliers»