Apa manfaat relatif data Winsorizing vs. Trimming?


31

Data Winsorizing berarti mengganti nilai ekstrem dari kumpulan data dengan nilai persentil tertentu dari masing-masing ujung, sementara Pemangkasan atau Pemotongan melibatkan penghapusan nilai ekstrem tersebut.

Saya selalu melihat kedua metode yang dibahas sebagai opsi yang layak untuk mengurangi efek pencilan ketika menghitung statistik seperti mean atau standar deviasi, tetapi saya belum melihat mengapa satu dapat memilih satu dari yang lain.

Apakah ada keuntungan atau kerugian relatif untuk menggunakan Winsorizing atau Trimming? Adakah situasi tertentu di mana satu metode lebih disukai? Apakah salah satu lebih sering digunakan dalam praktik atau pada dasarnya mereka dapat dipertukarkan?


2
Terminologi di sini menyesatkan. Pemangkasan berarti mengabaikan nilai ekstrim, sebagian kecil di setiap ekor. Itu tidak menyiratkan penghapusan atau penurunan nilai di bagian ekor, paling tidak karena Anda mungkin, dan biasanya harus, memasukkannya ke dalam analisis lain. Istilah pemotongan paling baik disediakan untuk arti lain. Lihat mis. En.wikipedia.org/wiki/Truncation_(statistics)
Nick Cox

Jawaban:


11

Dalam pertanyaan yang berbeda, namun terkait pada pemangkasan yang baru saja saya temui, satu jawaban memiliki wawasan bermanfaat berikut mengapa seseorang dapat menggunakan winorizing atau pemangkasan:

Jika Anda mengambil distribusi yang dipangkas, Anda menyatakan secara eksplisit: Saya tidak tertarik pada outlier / ekor dari distribusi. Jika Anda percaya bahwa "outlier" benar-benar outlier (yaitu, mereka tidak termasuk dalam distribusi, tetapi dari "jenis lain") maka lakukan pemotongan. Jika Anda berpikir mereka termasuk dalam distribusi, tetapi Anda ingin memiliki distribusi yang kurang miring, Anda dapat berpikir tentang winorising.

Saya ingin tahu apakah ada pendekatan yang lebih pasti, tetapi logika di atas terdengar masuk akal.


4

Sebuah pertanyaan bagus yang sangat sering dihadapi di semua bidang! Dalam kedua kasus Anda secara teknis menghapusnya dari kumpulan data.

Saya tahu ini adalah praktik umum ketika mencoba menemukan tren secara grafis untuk menggunakan bentuk pemotongan: gunakan seluruh kumpulan data untuk tujuan merencanakan, tetapi kemudian mengecualikan nilai ekstrem untuk interpretasi.

Masalah dengan 'winorizing' adalah bahwa bagian-bagian yang Anda tambahkan adalah pemenuhan diri, yaitu mereka berasal dari kumpulan data itu sendiri dan karenanya hanya mendukungnya. Ada masalah simlar jika Anda melihat pekerjaan validasi silang / klasifikasi dalam pembelajaran mesin, saat memutuskan bagaimana menggunakan pelatihan dan menguji kumpulan data.

Saya belum menemukan pendekatan standar dalam hal apa pun - itu selalu spesifik data. Anda dapat mencoba mencari tahu persentil mana data Anda (pencilan) yang menyebabkan persentase tertentu dari volatilitas / st. penyimpangan, dan menemukan keseimbangan antara mengurangi volatilitas itu tetapi mempertahankan sebanyak mungkin data.


6
Seperti dalam komentar saya di atas, "menghapusnya dari kumpulan data" terlalu kuat di sini. Trimming atau Winsorizing hanya berarti apa yang dilakukannya, mengabaikan atau mengganti apa pun, untuk perhitungan tertentu. Anda tidak diwajibkan untuk menghapus nilai ekor dari dataset, seolah-olah Anda membuang buah busuk. Misalnya, dihadapkan dengan outlier yang mungkin, Anda dapat melakukan analisis data saat mereka datang dan analisis berdasarkan pemangkasan dan melihat apa bedanya.
Nick Cox

-1

Ini adalah pertanyaan yang bagus, dan saya pernah berhadapan dengannya. Dalam kasus di mana Anda memiliki dataset besar atau lebih tepatnya dataset yang bervariasi, di mana minoritas nilai data bervariasi dalam skala yang luas (namun demikian harus ditunjukkan), dan sebagian besar dataset berada dalam pita sempit, sehingga jika data diplot sebagaimana adanya, rincian di mana sebagian besar data hilang, dan normalisasi atau standardisasi tidak menunjukkan diferensiasi yang memadai (setidaknya secara visual), atau, data mentah diperlukan sebagai gantinya, kemudian memotong atau memenangkan data nilai data ekstrem membantu visualisasi data yang lebih baik.


Ini pertanyaan yang bagus, tetapi Anda tidak menjawabnya. Anda hanya mengatakan bahwa pemotongan atau Winsorizing dapat membantu visualisasi.
Nick Cox

-2

O ( n )O(nlogn)O(n)(1,2,3,4,4)(2+2+3+4+4)/5(2+3+4)/3(2+3+4+4)/4


1
O(nlogn)O(n)

Anda benar. Saya salah mengetik posting asli saya. Terkadang jari dan otak yang mengetik tidak sinkron. Saya bermaksud mengatakan untuk menghitung dengan benar mean terpotong yang benar , Anda perlu mengurutkan semua elemen data. Saya percaya ini masih benar. Saya sudah memperbarui dengan jawaban.
Mark Lakata

2
Ini tampaknya menyiratkan bahwa Winsorizing berarti Winsorizing 25% di setiap ekor. Anda dapat Winsorize sebanyak atau sesedikit mungkin sesuai.
Nick Cox
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.