'Pencilan' adalah istilah yang mudah untuk mengumpulkan data yang tidak sesuai dengan yang Anda harapkan dari proses Anda, untuk menghapus dari analisis.
Saya akan menyarankan tidak pernah (peringatan kemudian) menghapus outlier. Latar belakang saya adalah kontrol proses statistik, sehingga sering berurusan dengan volume besar dari data time-series yang dihasilkan secara otomatis yang diproses menggunakan run chart / petak kotak bergerak / dll. Tergantung pada data dan distribusi.
Masalahnya dengan outlier adalah bahwa mereka akan selalu memberikan informasi tentang 'proses' Anda. Seringkali apa yang Anda pikirkan sebagai satu proses sebenarnya banyak proses dan jauh lebih kompleks daripada yang Anda berikan penghargaan.
Menggunakan contoh dalam pertanyaan Anda, saya akan menyarankan mungkin ada sejumlah 'proses'. akan ada variasi karena ...
- sampel diambil oleh satu perangkat konduktansi
- sampel diambil antara perangkat konduktansi
- saat subjek menghapus probe
- saat subjek bergerak
- perbedaan dalam satu kulit subjek di seluruh tubuh mereka atau antara hari-hari pengambilan sampel yang berbeda (rambut, kelembaban, minyak, dll)
- perbedaan antar subjek
- pelatihan orang yang melakukan pengukuran dan variasi antar staf
Semua proses ini akan menghasilkan variasi ekstra dalam data dan mungkin akan memindahkan mean dan mengubah bentuk distribusi. Banyak dari ini Anda tidak akan dapat dipisahkan ke dalam proses yang berbeda.
Jadi pergi ke gagasan untuk menghapus poin data sebagai 'outlier' ... Saya hanya akan menghapus poin data, ketika saya pasti dapat menghubungkannya dengan 'proses' tertentu yang ingin saya tidak sertakan dalam analisis saya. Anda kemudian perlu memastikan bahwa alasan untuk tidak disertakan dicatat sebagai bagian dari analisis Anda, jadi itu sudah jelas. Jangan menganggap atribusi, itu hal utama tentang membuat catatan tambahan melalui pengamatan selama pengumpulan data Anda.
Saya akan menantang pernyataan Anda 'karena toh sebagian besar dari mereka adalah kesalahan', karena mereka bukan kesalahan, tetapi hanya bagian dari proses berbeda yang telah Anda identifikasi dalam pengukuran Anda sebagai berbeda.
Dalam contoh Anda, saya pikir masuk akal untuk mengecualikan poin data yang dapat Anda atributkan ke proses terpisah yang tidak ingin Anda analisis.