Pertanyaan yang diberi tag «outliers»

Pencilan adalah pengamatan yang tampaknya tidak biasa atau tidak dijelaskan dengan baik relatif terhadap karakterisasi sederhana suatu dataset. Kemungkinan yang mengecewakan adalah bahwa data ini berasal dari populasi yang berbeda dari yang dimaksudkan untuk dipelajari.


6
Tes pemeriksaan data penting
Dalam peran pekerjaan saya, saya sering bekerja dengan kumpulan data orang lain, non-pakar membawakan saya data klinis dan saya membantu mereka untuk meringkasnya dan melakukan tes statistik. Masalah yang saya miliki adalah bahwa dataset yang saya bawa hampir selalu penuh dengan kesalahan ketik, inkonsistensi, dan segala macam masalah lainnya. Saya …

1
Menafsirkan plot.lm ()
Saya punya pertanyaan tentang menafsirkan grafik yang dihasilkan oleh plot (lm) dalam R. Saya bertanya-tanya apakah kalian bisa memberi tahu saya bagaimana menafsirkan lokasi skala dan plot leverage-residual? Setiap komentar akan dihargai. Asumsikan pengetahuan dasar tentang statistik, regresi dan ekonometrika.

14
Algoritma sederhana untuk deteksi outlier online dari deret waktu umum
Saya bekerja dengan sejumlah besar deret waktu. Rangkaian waktu ini pada dasarnya adalah pengukuran jaringan yang datang setiap 10 menit, dan beberapa di antaranya periodik (yaitu bandwidth), sementara beberapa lainnya tidak (yaitu jumlah lalu lintas perutean). Saya ingin algoritma sederhana untuk melakukan "deteksi outlier" online. Pada dasarnya, saya ingin menyimpan …

14
Mengapa statistik yang kuat (dan tahan) tidak menggantikan teknik klasik?
Saat memecahkan masalah bisnis menggunakan data, sudah umum bahwa setidaknya satu asumsi utama bahwa statistik klasik under-pin tidak valid. Sebagian besar waktu, tidak ada yang mengganggu untuk memeriksa asumsi-asumsi itu sehingga Anda tidak pernah benar-benar tahu. Misalnya, bahwa begitu banyak metrik web umum "berekor panjang" (relatif terhadap distribusi normal), saat …

3
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner
Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
Bagaimana seharusnya outlier ditangani dalam analisis regresi linier?
Sering kali seorang analis statistik menyerahkan set dataset dan diminta untuk mencocokkan suatu model menggunakan teknik seperti regresi linier. Seringkali dataset disertai dengan penafian yang mirip dengan "Oh yeah, kami mengacaukan mengumpulkan beberapa poin data ini - lakukan apa yang Anda bisa". Situasi ini mengarah pada kecocokan regresi yang sangat …

8
Hasilkan variabel acak dengan korelasi yang ditentukan dengan variabel yang ada
Untuk studi simulasi saya harus membuat variabel acak yang menunjukkan korelasi (populasi) prefined ke variabel .YYY Saya melihat ke dalam Rpaket copuladan CDVineyang dapat menghasilkan distribusi multivarian acak dengan struktur ketergantungan yang diberikan. Namun, tidak mungkin untuk memperbaiki salah satu variabel yang dihasilkan ke variabel yang ada. Setiap ide dan …

4
Regresi linier yang cepat kuat untuk pencilan
Saya berurusan dengan data linear dengan outlier, beberapa di antaranya berada pada 5 standar deviasi dari garis regresi yang diperkirakan. Saya mencari teknik regresi linier yang mengurangi pengaruh poin-poin ini. Sejauh ini yang saya lakukan adalah memperkirakan garis regresi dengan semua data, kemudian membuang titik data dengan residu kuadrat yang …

8
Definisi outlier yang keras?
Orang sering membicarakan tentang berurusan dengan pencilan dalam statistik. Hal yang menggangguku tentang hal ini adalah, sejauh yang bisa saya katakan, definisi pencilan adalah sepenuhnya subjektif. Misalnya, jika distribusi sebenarnya dari beberapa variabel acak sangat berekor atau bimodal, visualisasi standar atau statistik ringkasan untuk mendeteksi pencilan akan salah menghapus bagian …

1
Mendeteksi Pencilan dalam Time Series (LS / AO / TC) menggunakan paket tsoutliers di R. Bagaimana cara mewakili pencilan dalam format persamaan?
Komentar: Pertama saya ingin mengatakan besar terima kasih kepada penulis yang baru tsoutliers paket yang menerapkan Chen dan Liu deteksi time series outlier yang diterbitkan dalam Journal of American Association statistik pada tahun 1993 dalam perangkat lunak Open Source .RRR Paket mendeteksi 5 jenis pencilan yang berbeda secara iteratif dalam …

8
Apakah saya boleh menghapus outlier dari data?
Saya mencari cara untuk menghapus outlier dari dataset dan saya menemukan pertanyaan ini . Namun, dalam beberapa komentar dan jawaban untuk pertanyaan ini, orang-orang menyebutkan bahwa itu adalah praktik yang buruk untuk menghapus pencilan dari data. Dalam dataset saya, saya memiliki beberapa outlier yang sangat mungkin hanya karena kesalahan pengukuran. …
33 outliers 

3
Bagaimana Random Forests tidak peka terhadap outlier?
Saya telah membaca di beberapa sumber, termasuk yang satu ini , bahwa Random Forests tidak sensitif terhadap pencilan (dalam cara Regresi Logistik dan metode ML lainnya, misalnya). Namun, dua intuisi mengatakan sebaliknya: Setiap kali pohon keputusan dibangun, semua poin harus diklasifikasikan. Ini berarti bahwa outlier akan diklasifikasikan, dan karenanya akan …


8
Mengganti outlier dengan mean
Pertanyaan ini diajukan oleh teman saya yang tidak mengerti internet. Saya tidak memiliki latar belakang statistik dan saya telah mencari di internet untuk pertanyaan ini. Pertanyaannya adalah: apakah mungkin untuk mengganti outlier dengan nilai rata-rata? jika memungkinkan, apakah ada referensi buku / jurnal untuk mendukung pernyataan ini?

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.