Mana yang lebih baik, penggantian dengan rata-rata dan penggantian dengan median?


9

Saya sedang melakukan proyek yang melibatkan penggantian nilai yang hilang dalam satu set data (pertama kali melakukan ini). Ini melibatkan menggunakan dua metode replacement by meandan replacement by medianuntuk mengisi nilai-nilai yang hilang. Tidak ada banyak perbedaan antara hasil minimum, median, maksimum, rata-rata dan standar deviasi data menggunakan kedua metode dan saya bertanya-tanya metode mana yang lebih baik dan bagaimana saya bisa membuat keputusan mana yang lebih baik menggunakan hasil yang dihasilkan?


2
Jika Anda mengganti kesalahan dengan cara, rata-rata berarti dipertahankan. Ditto median. Ekstrem juga tidak akan berubah. SD biasanya akan berkurang sedikit, tetapi akan sangat berkurang jika Anda sering melakukan ini. Ini adalah konsekuensi yang dapat diprediksi dari apa yang Anda lakukan dan bukan indikasi ipso facto bahwa metode ini baik.
Nick Cox

Analis memasukkan nilai yang hilang (MV) dengan "solusi" otomatis seperti ini tidak memikirkan konsekuensi. Itu hanya pendekatan yang mudah diimplementasikan. "Solusi" ini menimbulkan banyak masalah yang diselesaikan karena pdf yang biasanya biasanya mulus berakhir dengan lonjakan besar pada nilai yang dicolokkan, sebagai fungsi dari jumlah MV, tentu saja. Imputasi berbasis model terbukti lebih unggul dan kurang bias dibandingkan pendekatan otomatis apa pun. @NickCox tidak bisa mengabaikan hal ini, terlepas dari apa sarannya.
Mike Hunter

1
: @DJohnson ... bukan indikasi ipso facto bahwa metode ini baik. Tidak cukup jelas?
Nick Cox

Nilai kategorikal umumnya diperhitungkan dengan mode karena mewakili nilai yang paling umum untuk kolom yang diberikan.
Sandeep Kar

Jawaban:


9

Itu selalu tergantung pada data Anda dan tugas Anda.

Jika ada dataset yang memiliki outlier hebat, saya lebih suka median. Mis: 99% pendapatan rumah tangga di bawah 100, dan 1% di atas 500.

Di sisi lain, jika kita bekerja dengan memakai pakaian yang pelanggan berikan untuk dry-cleaner (dengan asumsi operator dry-cleaner mengisi bidang ini secara intuitif), saya akan mengisi barang yang hilang dengan nilai rata-rata pemakaian.

Lebih baik mulai dari pemahaman data dan kemudian artikel ini akan membantu titik awal.


Data yang saya gunakan dapat berkisar dari 0 hingga 1 dan saya telah membuat histogram dengan batas 0,1,0,2,0,3 ... hingga 1. Karena saya memiliki banyak batas dan outliner yang berbeda, dapatkah Anda mengatakan bahwa rata-rata adalah yang terbaik?
Jake MB

@ JakeM-B, sulit memberikan saran yang baik, ketika saya tidak memiliki akses langsung dan riwayat data. Seringkali nilai yang hilang dalam data berarti bahwa nilai tersebut harus nol (atau sesuatu yang lain sebagai standar). Di tempat Anda (jika tidak ada perbedaan besar antara mean dan median), saya akan mencoba keduanya dan memeriksa bagaimana itu mempengaruhi hasil hasil.
Aleksandro M Granda

6

Imputasi adalah sarana untuk mencapai tujuan, bukan tujuan itu sendiri. Dalam beberapa keadaan, mengganti data yang hilang mungkin merupakan hal yang salah untuk dilakukan. Pastikan bahwa Anda pertama-tama memperhatikan mengapa data Anda tidak ada, seperti yang dijelaskan misalnya di halaman Wikipedia data Hilang , dan imputasi itu sebenarnya sesuai untuk menjawab pertanyaan yang ingin dijawab oleh proyek Anda.

Jika beberapa asumsi terpenuhi (misalnya, jika probabilitas variabel memiliki nilai yang hilang tidak tergantung pada nilai itu sendiri, secara teknis disebut "hilang secara acak") dan penelitian Anda melibatkan beberapa variabel, Anda mungkin lebih baik menggunakan beberapa imputasi alih-alih penggantian dengan cara atau median. Dalam beberapa imputasi, nilai-nilai yang diketahui dari semua variabel digunakan untuk menyediakan beberapa set estimasi data yang hilang. Pendekatan ini dapat memberikan taksiran yang lebih baik baik dari hubungan yang mendasar di antara variabel-variabel dan dari keandalan estimasi Anda. Lihat pertanyaan di situs ini yang memiliki multiple-imputationtag untuk informasi lebih lanjut.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.