Pengujian hipotesis pada data kontinu nol-meningkat


10

Saya akan sangat menghargai saran Anda tentang masalah berikut:

Saya punya set data kontinu besar dengan banyak nol (~ 95%) dan saya perlu menemukan cara terbaik untuk menguji apakah himpunan bagian tertentu dari itu "menarik", yaitu sepertinya tidak diambil dari distribusi yang sama dengan sisanya. Nol inflasi berasal dari fakta bahwa setiap titik data didasarkan pada pengukuran jumlah dengan nol benar dan sampel, tetapi hasilnya kontinu karena memperhitungkan beberapa parameter lain yang ditimbang oleh hitungan (dan jadi jika hitungannya nol, hasilnya juga nol).

apa jalan terbaik melakukan ini? Saya merasa bahwa Wilcoxon dan bahkan tes permutasi brute-force tidak memadai ketika mereka condong oleh nol ini. Memfokuskan pada pengukuran non-nol juga menghilangkan nol sebenarnya yang sangat penting. Model yang dikembangkan nol untuk data jumlah dikembangkan dengan baik, tetapi tidak cocok untuk kasus saya.

Saya dianggap pas distribusi Tweedie ke data dan kemudian pas glm pada response = f (subset_label). Secara teoritis, ini tampaknya layak, tetapi saya bertanya-tanya apakah (a) ini berlebihan dan (b) masih akan secara implisit menganggap bahwa semua nol adalah nol sampel, yaitu akan bias dengan cara yang sama (paling baik) sebagai permutasi?

Secara intuitif, kedengarannya seperti memiliki semacam desain hirarkis yang menggabungkan statistik binomial berdasarkan proporsi nol dan, katakanlah, statistik Wilcoxon dihitung berdasarkan nilai-nilai yang tidak nol (atau, lebih baik lagi, nilai-nilai yang tidak nol ditambah dengan sebagian kecil dari nol berdasarkan beberapa sebelumnya). Kedengarannya seperti jaringan Bayesian ...

Mudah-mudahan saya bukan orang pertama yang memiliki masalah ini, jadi akan sangat berterima kasih jika Anda bisa mengarahkan saya ke teknik yang sesuai yang ada ...

Terimakasih banyak!


Memperbarui. Sejauh ini, saya menemukan makalah ini membahas masalah yang mirip dengan masalah saya: maths.otago.ac.nz/home/downloads/david_fletcher/…
a11msp

Saya bertanya-tanya apakah perkiraan yang sangat sederhana ini masuk akal, mengingat bahwa nol membentuk mayoritas absolut: 1) menemukan proporsi nol di setiap subset. 2) berasumsi bahwa dalam himpunan bagian dengan jumlah terkecil nol semua nol adalah benar. 3) dari setiap himpunan bagian, hapus proporsi nol sama dengan proporsi nol dalam dataset paling "kaya nol". 4) menjalankan statistik non-parametrik standar pada dataset yang dimodifikasi ini.
a11msp

Tautan ke kertas di komentar pertama Anda tampaknya sudah mati. Bisakah Anda memberikan kutipan?
gabungkan

1
Terima kasih telah menunjukkan ini: doi.org/10.1007/s10651-005-6817-1
a11msp

Jawaban:


9

@ msp, saya pikir Anda sedang melihat model dua tahap dalam lampiran itu (saya tidak punya waktu untuk membacanya), tetapi nol data terus menerus meningkat adalah tipe saya bekerja dengan banyak. Untuk menyesuaikan model parametrik dengan data ini (untuk memungkinkan tes hipotesis) Anda dapat memuat dua tahap tetapi kemudian Anda memiliki dua model (Y adalah target dan X adalah kovariat): P (Y = 0 | X) dan P (Y | X; Y> 0). Anda harus menggunakan simulasi untuk "menyatukan" ini. Buku Gelmans (dan paket lengan dalam R) menunjukkan proses ini untuk model yang tepat ini (menggunakan regresi logistik dan regresi linier biasa dengan tautan log).

Pilihan lain yang saya lihat dan sukai lebih baik adalah mencocokkan regresi gamma nol yang meningkat, yang sama seperti di atas (tetapi gamma sebagai kesalahan, bukan guassian) dan Anda dapat menyatukannya untuk pengujian hipotesis pada P (Y | X) . Saya tidak tahu bagaimana melakukan ini di R, tetapi Anda bisa di SAS NLMIXED. Lihat posting ini , ini berfungsi dengan baik.


@ B_Miner, terima kasih banyak atas jawaban Anda, maaf tidak memiliki peringkat yang cukup untuk memilih Anda ... Saya akan melihat tautannya! Satu-satunya kekhawatiran saya tentang model kondisional adalah bahwa mereka mendalilkan bahwa nol tidak dapat menjadi bagian dari komponen kedua (berkelanjutan), apakah saya benar? Apakah pengaturan saya tidak terasa sedikit seperti model campuran? Bagaimana menurut anda?
a11msp

Saya sekarang telah meniru pendekatan dua tahap yang diusulkan dalam buku Gelman. Jika subset_factor (dengan 25 level) berfungsi sebagai label subset, langkah pertama adalah fit1 = glm (response ~ subset_factor, family = binomial); dan langkah kedua adalah fit2 = lm (response ~ subset_factor, subset = response> 0). Saya kemudian dapat menjalankan simulasi saat mereka menggambarkan untuk mendapatkan distribusi nilai respons yang dipasang untuk setiap tingkat faktor. Namun, saya masih tidak yakin bagaimana menerjemahkan ini ke apa yang saya butuhkan, yaitu (a) probabilitas bahwa koefisien tidak nol dan (b) signifikansi perbedaan antara koefisien pada tingkat faktor yang berbeda.
a11msp

Pendekatan dua tahap (metode Gelman dari dua model terpisah) mengasumsikan dua populasi, mereka yang nol dan yang di atas.
B_Miner

... jadi apakah pantas untuk mengatakan bahwa jika dampak dari beberapa tingkat faktor signifikan (dan berbeda secara signifikan dari beberapa tingkat faktor lainnya) di salah satu dari dua model dalam metode Gelman maka signifikan secara keseluruhan?
a11msp

1
Ya, pendekatan dua tahap (metode Gelman dari dua model terpisah) mengasumsikan dua populasi, mereka yang nol dan yang> 0. Mengenai tes hipotesis, dapatkah Anda membingkai mereka dalam hal nilai prediksi untuk berbagai tingkat input dan membangun empiris interval kepercayaan terkait dengan simulasi untuk masing-masing? Untuk pengujian hipotesis untuk koefisien! = 0, Anda perlu menguji ini secara terpisah untuk kedua model.
B_Miner

2

Pendekatan yang mirip dengan makalah Fletcher digunakan dalam pengujian pemasaran, di mana kita dapat secara sewenang-wenang memisahkan efek intervensi (seperti iklan) menjadi (a) perubahan jumlah pembelian merek (yaitu proporsi nol) dan (b) a perubahan frekuensi membeli band (penjualan yang diberikan terjadi sama sekali). Ini adalah pendekatan yang solid dan bermakna secara konseptual dalam konteks pemasaran dan dalam konteks ekologi yang dibahas Fletcher. Bahkan, ini dapat diperluas ke (c) perubahan ukuran setiap pembelian.


Terima kasih! Saya ingin tahu apakah Anda mengetahui implementasi r yang ada saat ini?
a11msp

1

Anda bisa memperlakukan jumlah persis nol yang tidak diketahui, tetapi dibatasi antara 0 dan jumlah nol yang diamati. Ini pasti dapat ditangani menggunakan formulasi model Bayesian. Mungkin metode imputasi ganda juga dapat disesuaikan untuk memvariasikan bobot dengan tepat (antara 0 dan 1) dari nol pengamatan ...

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.