Saya memiliki beberapa pencilan dalam data saya dan saya ingin mengecualikan mereka untuk melihat apakah ini mengubah hasil. Menurut Anda, berapa outlier maksimum yang harus dibatasi oleh seseorang?
Terima kasih!
Saya memiliki beberapa pencilan dalam data saya dan saya ingin mengecualikan mereka untuk melihat apakah ini mengubah hasil. Menurut Anda, berapa outlier maksimum yang harus dibatasi oleh seseorang?
Terima kasih!
Jawaban:
Tidak ada maksimum atau minimum. Pencilan harus dihapus jika itu adalah data yang buruk atau jika ada alasan substantif lain untuk menghapusnya. Jika tidak ada alasan substantif, maka saya sarankan menggunakan metode yang kuat untuk outlier. Saya tidak akan menghapus outlier hanya karena mereka agak jauh dari poin lain.
Saya akan menekankan pada sesuatu yang dikatakan dalam jawaban dan komentar lain (saya pikir bahwa jawaban @Peter Flom akurat dan bahwa EdM benar tentang pengukuran, di antara semuanya).
Menganalisis data adalah sesuatu yang harus dilakukan dengan hati-hati. Anda harus sangat menyadari arti outlier dalam kontak Anda. Misalnya, dengan asumsi bahwa prosedur pengukuran Anda dilakukan "dengan benar" (maksud saya, Anda belum memperkenalkan bias, peralatan Anda dikalibrasi, orang yang membaca instrumen melakukannya dengan benar, dll.), Beberapa pencilan mungkin mengatakan sesuatu yang menarik dan terkadang sangat penting.
Berikut ini adalah contoh yang dibuat, harap memanjakan (tunjukkan dalam komentar) jika tidak 100% benar di semua aspek. ;)
Katakanlah seseorang sedang menguji pengaruh pemberian sejumlah zat pada beberapa kultur (populasi) bakteri. Sekarang, "secara umum", efeknya adalah menstabilkan jumlah bakteri dalam populasi, tetapi ada beberapa pencilan di antara kultur yang berbeda.
Bayangkan semua pencilan menunjukkan situasi di mana semua bakteri mati. Atau bahwa semua pencilan mewakili kultur di mana populasi bakteri telah tumbuh di luar kendali.
Yang ingin saya tunjukkan adalah bahwa sifat outlier yang Anda rasakan mungkin bermakna dan konsekuensinya masing-masing berbeda. Anda mungkin berada dalam situasi di mana tidak dapat ditoleransi bahwa jumlah bakteri meningkat, atau berkurang.
Tentu saja, jika Anda memperhatikan bahwa beberapa populasi di mana terhapus oleh zat tersebut, Anda mungkin akan menyelidiki masalah ini karena itu adalah situasi yang mudah dikenali. Namun tidak semua fenomena mudah dideteksi.
Singkatnya, gagasan outlier agak sewenang-wenang, tetapi maknanya beragam dan penting berbeda. Semoga itu akan membuat Anda berpikir tentang masalah ini ... :)