Proposal itu memiliki banyak kekurangan di dalamnya. Ini mungkin yang terbesar.
Misalkan Anda sedang mengumpulkan data, dan Anda melihat nilai-nilai ini:
2 , 3 , 1
6 / 3 = 2
Kemudian muncul pencilan:
2 , 3 , 1 , 1000
Jadi Anda menggantinya dengan mean:
2 , 3 , 1 , 2
Angka selanjutnya baik:
2 , 3 , 1 , 2 , 7
Sekarang rata-rata adalah 3. Tunggu sebentar, rata-rata sekarang 3, tapi kami mengganti 1000 dengan rata-rata 2, hanya karena itu terjadi sebagai nilai keempat. Bagaimana jika kita mengubah urutan sampel?
2 , 3 , 1 , 7 , 1000
( 2 + 3 + 1 + 7 ) / 4 = 13 / 4
Masalahnya adalah bahwa datum palsu yang kami gantikan di tempat 1000 tergantung pada data lainnya. Itu masalah epistemologis jika sampel seharusnya mewakili pengukuran independen.
nnnnn
Pada dasarnya, memangkas hasil yang tidak sesuai adalah satu hal (dan dapat dibenarkan jika dilakukan secara konsisten berdasarkan suatu algoritma, daripada menurut perubahan suasana hati dari eksperimen).
Hasil pemalsuan langsung ditolak atas dasar filosofis, epistemologis dan etika.
Mungkin ada beberapa keadaan khusus, yang harus dilakukan dengan bagaimana hasilnya digunakan. Seperti misalnya, katakan bahwa penggantian outlier dengan rata-rata saat ini adalah bagian dari beberapa algoritma komputer tertanam, yang memungkinkannya untuk mengimplementasikan sistem kontrol loop tertutup. (Ini sampel beberapa output sistem, kemudian menyesuaikan input untuk mencapai kontrol.) Semuanya real time, dan karena itu sesuatu harus disediakan untuk periode waktu tertentu di tempat data yang hilang. Jika pemalsuan ini membantu mengatasi gangguan, dan memastikan operasi lancar, maka semuanya baik-baik saja.
Berikut adalah contoh lain, dari telepon digital: PLC (packet loss menyembunyikan). Omong kosong terjadi, dan paket hilang, namun komunikasi adalah waktu nyata. PLC mensintesis potongan suara palsu berdasarkan informasi nada terbaru dari paket yang diterima dengan benar. Jadi, jika seorang pembicara mengatakan vokal "aaa" dan kemudian sebuah paket hilang, PLC dapat mengisi paket yang hilang dengan mengekstrapolasi "aaa" untuk durasi bingkai (katakanlah 5 atau 10 milidetik atau apa pun). "Aaa" sedemikian rupa sehingga menyerupai suara pembicara. Ini analog dengan menggunakan "rata-rata" untuk menggantikan nilai yang dianggap buruk. Itu hal yang baik; itu lebih baik daripada suara yang masuk dan keluar, dan membantu kejelasan.
Jika pemalsuan data adalah bagian dari program berbohong kepada orang-orang untuk menutupi pekerjaan yang gagal, itu adalah hal lain.
Jadi, kita tidak bisa memikirkannya secara independen dari aplikasi: bagaimana statistik digunakan? Apakah pergantian pemain akan menghasilkan kesimpulan yang tidak valid? Apakah ada implikasi etis?