Bootstrapping - apakah saya harus menghapus outlier terlebih dahulu?

Kami telah menjalankan uji coba fitur produk baru dan ingin mengukur apakah peningkatan pada pendapatan signifikan. Pengamatan kami jelas tidak terdistribusi normal (sebagian besar pengguna kami tidak membelanjakan, dan di antara mereka yang melakukannya, sangat condong ke banyak pembelanja kecil dan beberapa pembelanja sangat besar).

Kami telah memutuskan untuk menggunakan bootstrap untuk membandingkan cara, untuk menyelesaikan masalah data yang tidak terdistribusi secara normal (pertanyaan tambahan: apakah ini penggunaan bootstrap yang sah?)

Pertanyaan saya adalah, apakah saya perlu memangkas outliers dari kumpulan data (mis. Beberapa pembelanja sangat besar) sebelum saya menjalankan bootstrap, atau apakah itu tidak masalah?

bootstrap outliers

— pengguna31228
sumber

Pertanyaan bagus: Saya mungkin bisa berdebat pro dan menentang penghapusan outlier. Mengapa tidak menggunakan median jika Anda khawatir tentang outlier dan apa yang Anda cari hanyalah "kecenderungan utama"? Mengingat bahwa variabel terkait uang sering memiliki distribusi yang sangat miring (mis. Pareto) yang mungkin tidak masuk akal pada awalnya.

— usεr11852 mengatakan Reinstate Monic

@ user11852 Median sedikit memberi tahu Anda tentang mean, yang merupakan apa yang relevan dengan pendapatan. Akan menarik untuk melihat argumen Anda yang mendukung penghapusan "outlier," terutama ketika ini kemungkinan merupakan kontributor utama terhadap total pendapatan.

— whuber

Sayangnya median akan selalu nol, karena <10% dari pengguna membelanjakan semuanya

— user31228

@ user11852 Argumen umum Anda bahwa pencilan itu sah adalah membantu. Tetapi, berkenaan dengan kemungkinan amplifikasi, menurut saya yang terjadi adalah sebaliknya: bootstrap memiliki peluang untuk bekerja hanya jika sampel lengkap digunakan. Kalau tidak, itu menyajikan dongeng, memberi tahu kita bagaimana jadinya jika outlier tidak ada - tapi jelas mereka tahu. Masalah yang lebih besar adalah bahwa bootstrap memiliki sedikit pembenaran teoretis ketika diterapkan pada sampel kecil: teorinya adalah teori asimptotik .

— whuber

Ini adalah pertanyaan penting (+1). Bisakah Anda menambahkan sampel kecil dataset Anda atau sampel simulasi yang mirip dengan pertanyaan? Saya pikir memberikan ilustrasi akan lebih bermanfaat dalam kasus ini.

— user603

Jawaban:

Sebelum membahas ini, penting untuk mengakui bahwa malpraktek statistik "menghapus pencilan" telah secara salah diumumkan dalam banyak pedagogi statistik yang diterapkan. Secara tradisional, outlier didefinisikan sebagai leverage tinggi, pengamatan pengaruh tinggi. Seseorang dapat dan harus mengidentifikasi pengamatan tersebut dalam analisis data, tetapi kondisi-kondisi itu saja tidak menjamin menghilangkan pengamatan tersebut. "Pencilan sejati" adalah pengamatan pengaruh tinggi / pengaruh tinggi yang tidak konsisten dengan replikasi desain eksperimental. Untuk menganggap pengamatan seperti itu membutuhkan pengetahuan khusus tentang populasi itu dan ilmu di balik "mekanisme menghasilkan data". Aspek yang paling penting adalah Anda harus dapat mengidentifikasi apriori outlier potensial .

Sedangkan untuk aspek bootstrap, bootstrap dimaksudkan untuk mensimulasikan penarikan yang independen dan berulang dari populasi sampel. Jika Anda menentukan kriteria pengecualian dalam rencana analisis Anda , Anda masih harus meninggalkan nilai-nilai yang dikecualikan dalam distribusi sampling bootstrap referensi . Ini karena Anda akan memperhitungkan hilangnya daya karena menerapkan pengecualian setelah mengambil sampel data Anda. Namun, jika tidak ada kriteria eksklusi yang ditentukan sebelumnya dan outlier dihapus menggunakan ajudikasi post hoc , karena saya jelas menentang, menghapus nilai-nilai ini akan menyebarkan kesalahan yang sama dalam inferensi yang disebabkan oleh menghapus outlier.

Pertimbangkan studi tentang kekayaan dan kebahagiaan dalam sampel acak sederhana yang tidak terstratifikasi yang terdiri dari 100 orang. Jika kita mengambil pernyataan, "1% dari populasi memiliki 90% dari kekayaan dunia" secara harfiah, maka kita akan mengamati, secara rata-rata, satu nilai yang sangat berpengaruh. Anggap lebih jauh bahwa, di luar memberikan kualitas hidup yang mendasar, tidak ada kebahagiaan berlebih yang disebabkan oleh pendapatan yang lebih besar (tren linear yang tidak konstan). Jadi individu ini juga leverage yang tinggi.

Koefisien regresi kuadrat terkecil yang cocok pada data yang tidak dicacah memperkirakan tren rata-rata populasi urutan pertama dalam data ini. Ini sangat dilemahkan oleh 1 individu kami dalam sampel yang kebahagiaannya konsisten dengan orang-orang yang berada di dekat tingkat pendapatan rata-rata. Jika kita menghapus individu ini, kemiringan regresi kuadrat terkecil jauh lebih besar, tetapi varians dari regressor berkurang, maka kesimpulan tentang asosiasi kira-kira sama. Kesulitan melakukan ini adalah bahwa saya tidak menentukan kondisi di mana individu akan dikeluarkan. Jika peneliti lain meniru desain penelitian ini, mereka akan mengambil sampel rata-rata satu orang berpenghasilan tinggi, cukup senang, dan mendapatkan hasil yang tidak sesuai dengan hasil "pangkas" saya.

Jika kita apriori tertarik pada asosiasi kebahagiaan penghasilan moderat, maka kita seharusnya sudah menentukan sebelumnya bahwa kita akan, misalnya "membandingkan individu yang berpenghasilan kurang dari $ 100.000 per tahun pendapatan rumah tangga". Jadi menghapus outlier menyebabkan kita memperkirakan asosiasi yang tidak bisa kita gambarkan, maka nilai-p tidak ada artinya.

Di sisi lain, peralatan medis yang salah perhitungan dan kebohongan survei yang dilaporkan sendiri dapat dihilangkan. Semakin akurat kriteria eksklusi tersebut dapat dijelaskan sebelum analisis yang sebenarnya terjadi, semakin valid dan konsisten hasil yang dihasilkan oleh analisis tersebut.

— AdamO
sumber

Saya tidak yakin saya mengerti mengapa " jika Anda menentukan kriteria pengecualian dalam rencana analisis Anda, Anda masih harus meninggalkan nilai-nilai yang dikecualikan dalam distribusi sampling bootstrap referensi. " Anda menyebutkan bahwa ini adalah " karena Anda akan memperhitungkan hilangnya daya karena menerapkan pengecualian setelah pengambilan sampel data Anda. "Saya tidak melihat mengapa diasumsikan bahwa menerapkan kriteria pengecualian setelah pengambilan sampel menyebabkan hilangnya daya, atau bagaimana / mengapa meninggalkan kasus yang dikecualikan dalam sampel bootstrap" akun untuk "(?) ini, tidak lebih jauh mengapa ini adalah sesuatu yang jelas harus "diperhitungkan." Mungkin saya menjadi padat di sini.

— Jake Westfall

p

$p$

Hmm, pemikiran saya adalah bahwa jika seseorang memang menentukan kriteria eksklusi di muka - sehingga kami secara eksplisit tidak tertarik pada jenis kasus tertentu, dan mungkin replikasi penelitian di masa depan akan menggunakan kriteria eksklusi yang sama ini - maka masuk akal untuk meninggalkan case-case tersebut keluar dari sampel bootstrap, karena merupakan segmen populasi yang tidak ingin kami simpulkan. Saya melihat bagaimana ulangan masa depan mungkin berakhir tidak termasuk proporsi yang berbeda dari kasus, tapi aku tidak bisa cukup membuat koneksi ke mengapa hal ini untuk kasus-kasus yang kita secara eksplisit yang tertarik ..

— Jake Westfall

p

$p$

H_{0}

$\mathcal{H}_0$

Memandang hal ini sebagai masalah pencilan tampaknya salah bagi saya. Jika "<10% dari pengguna menghabiskan sama sekali", Anda perlu memodelkan aspek itu. Regresi Tobit atau Heckman akan menjadi dua kemungkinan.

— JKP
sumber

Saat ini, ini lebih merupakan komentar daripada jawaban. Maukah Anda memperluas sedikit untuk membuatnya lebih jawaban-ish?

— gung - Reinstate Monica