Pertimbangkan apa yang dipangkas artinya: Dalam kasus prototipe, pertama-tama Anda mengurutkan data dalam urutan yang meningkat. Kemudian Anda menghitung hingga persentase pemangkasan dari bawah dan membuang nilai-nilai itu. Misalnya rata-rata terpangkas 10% adalah umum; dalam hal ini Anda menghitung dari nilai terendah sampai Anda telah melewati 10% dari semua data di set Anda. Nilai-nilai di bawah tanda itu dikesampingkan. Demikian juga, Anda menghitung mundur dari nilai tertinggi hingga Anda melewati persentase pemangkasan Anda, dan mengesampingkan semua nilai lebih dari itu. Anda sekarang berada di tengah 80%. Anda mengambil rata-rata itu, dan itu adalah rata-rata terpangkas 10% Anda. (Perhatikan bahwa Anda dapat memotong proporsi yang tidak sama dari kedua ekor, atau hanya memotong satu ekor, tetapi pendekatan ini kurang umum dan tampaknya tidak berlaku untuk situasi Anda.)
Sekarang pikirkan apa yang akan terjadi jika Anda menghitung rata-rata yang dipangkas 50%. Setengah bagian bawah akan disisihkan, seperti halnya bagian atas. Anda hanya akan dibiarkan dengan nilai tunggal di tengah (biasanya). Anda akan mengambil rata-rata dari itu (artinya, Anda hanya akan mengambil nilai itu) sebagai rata-rata terpangkas. Namun perlu dicatat, bahwa nilai itu adalah median. Dengan kata lain, median adalah rata-rata yang dipangkas (itu adalah rata-rata yang dipangkas 50%). Itu hanya yang sangat agresif. Ini mengasumsikan, pada dasarnya, bahwa 99% dari data Anda terkontaminasi. Ini memberi Anda perlindungan terbaik terhadap pencilan dengan mengorbankan hilangnya daya / efisiensi .
Dugaan saya adalah rata-rata / rata-rata terpangkas 50% jauh lebih agresif daripada yang diperlukan untuk data Anda, dan terlalu boros informasi yang tersedia untuk Anda. Jika Anda memiliki kepekaan proporsi outlier yang ada, saya akan menggunakan informasi itu untuk mengatur persentase pemangkasan dan menggunakan mean terpangkas yang sesuai. Jika Anda tidak memiliki dasar untuk memilih persentase pemangkasan, Anda dapat memilih satu dengan validasi silang, atau menggunakan analisis regresi yang kuat dengan hanya intersep.