Saya akan sangat menghargai saran Anda tentang masalah berikut:
Saya punya set data kontinu besar dengan banyak nol (~ 95%) dan saya perlu menemukan cara terbaik untuk menguji apakah himpunan bagian tertentu dari itu "menarik", yaitu sepertinya tidak diambil dari distribusi yang sama dengan sisanya. Nol inflasi berasal dari fakta bahwa setiap titik data didasarkan pada pengukuran jumlah dengan nol benar dan sampel, tetapi hasilnya kontinu karena memperhitungkan beberapa parameter lain yang ditimbang oleh hitungan (dan jadi jika hitungannya nol, hasilnya juga nol).
apa jalan terbaik melakukan ini? Saya merasa bahwa Wilcoxon dan bahkan tes permutasi brute-force tidak memadai ketika mereka condong oleh nol ini. Memfokuskan pada pengukuran non-nol juga menghilangkan nol sebenarnya yang sangat penting. Model yang dikembangkan nol untuk data jumlah dikembangkan dengan baik, tetapi tidak cocok untuk kasus saya.
Saya dianggap pas distribusi Tweedie ke data dan kemudian pas glm pada response = f (subset_label). Secara teoritis, ini tampaknya layak, tetapi saya bertanya-tanya apakah (a) ini berlebihan dan (b) masih akan secara implisit menganggap bahwa semua nol adalah nol sampel, yaitu akan bias dengan cara yang sama (paling baik) sebagai permutasi?
Secara intuitif, kedengarannya seperti memiliki semacam desain hirarkis yang menggabungkan statistik binomial berdasarkan proporsi nol dan, katakanlah, statistik Wilcoxon dihitung berdasarkan nilai-nilai yang tidak nol (atau, lebih baik lagi, nilai-nilai yang tidak nol ditambah dengan sebagian kecil dari nol berdasarkan beberapa sebelumnya). Kedengarannya seperti jaringan Bayesian ...
Mudah-mudahan saya bukan orang pertama yang memiliki masalah ini, jadi akan sangat berterima kasih jika Anda bisa mengarahkan saya ke teknik yang sesuai yang ada ...
Terimakasih banyak!