Bagaimana saya bisa menghitung rerata terpotong atau terpangkas? Katakanlah terpotong 10%?
Saya bisa membayangkan bagaimana melakukannya jika Anda memiliki 10 entri atau lebih, tetapi bagaimana saya bisa melakukannya untuk banyak entri?
Bagaimana saya bisa menghitung rerata terpotong atau terpangkas? Katakanlah terpotong 10%?
Saya bisa membayangkan bagaimana melakukannya jika Anda memiliki 10 entri atau lebih, tetapi bagaimana saya bisa melakukannya untuk banyak entri?
Jawaban:
Mean dipangkas melibatkan pemangkasan pengamatan persen dari kedua ujungnya.
Misalnya: Jika Anda diminta untuk menghitung rata-rata terpangkas 10%, .
Diberikan banyak pengamatan, :
Jika adalah bilangan bulat, gunakan dan trim observasi di kedua ujungnya.
= pengamatan tersisa = .
Mean terpangkas =
Contoh : Temukan 10% rata-rata terpangkas dari
2, 4, 6, 7, 11, 21, 81, 90, 105, 121
Di sini, yang merupakan bilangan bulat jadi potong tepat satu pengamatan di setiap ujung, karena . Jadi potong 2 dan 121. Kita dibiarkan dengan pengamatan.
10% rata-rata yang dipangkas = (1/8) * (4 + 6 + 7 + 11 + 21 + 81 + 90 + 105) = 40,625
Jika memiliki bagian fraksional, mean yang dipangkas sedikit lebih rumit. Dalam contoh di atas, jika kita ingin rata-rata terpangkas 15%, . Ini memiliki bilangan bulat bagian 1 dan bagian pecahan 0,5 hadir. . Jadi pengamatan dipertahankan.
Tambahan pada komentar @ whuber: Agar tetap tidak bias (setelah menghapus 2 dan 121), tampaknya kita harus menghapus setengah dari 4 dan setengah dari 105 untuk rata-rata yang dipangkas
$X_i$
Selain jawaban di atas, jika ada banyak entri (katakanlah n), maka pertama menyortirnya membutuhkan waktu O (n log n). Namun, ada solusi linear-waktu.
Hitunglah P-quantile L dan (1-P) -quantile U. Ada algoritma sederhana (quicksort-like) untuk ini yang berjalan dalam waktu linear yang diharapkan. Ada juga algoritma yang lebih rumit yang berjalan dalam waktu linear kasus terburuk. Keduanya dapat ditemukan, misalnya, di: Cormen, Leiserson, Rivest, Stein: Pengantar Algortithms.
Memindai semua nilai dan menambahkannya antara L dan U. Ini jelas membutuhkan waktu linier.
Jika ada ikatan dan kuantil yang dihitung ada beberapa kali di antara nilai-nilai tersebut, kami mungkin telah menambahkan terlalu banyak atau terlalu sedikit nilai dan mungkin perlu mengoreksi hal ini dengan tepat. Karena kita tahu berapa banyak angka yang kita tambahkan pada langkah 2, dan juga berapa kali kita telah melihat L dan U, ini dapat dilakukan dalam waktu yang konstan.
Bagilah jumlah total dengan jumlah puncak.
Perhatikan bahwa resep di atas hanya bermanfaat jika n benar-benar besar dan mengurutkan semuanya akan menjadi hit kinerja, mungkin beberapa juta.