Saya punya masalah yang saya pikir seharusnya sederhana tetapi tidak bisa mengatasinya. Saya melihat penyerbukan benih, saya memiliki tanaman (n = 36) yang berbunga dalam kelompok, saya mencicipi 3 kelompok bunga dari setiap tanaman, dan 6 polong biji dari setiap kluster (total 18 polong biji dari masing-masing tanaman). Satu polong dapat memiliki antara 0 hingga paling banyak 4 biji yang diserbuki. Jadi, data dihitung, dengan batas atas. Saya menemukan rata-rata ~ 10% benih diserbuki, tetapi di mana saja antara 1 - 30% pada tanaman tertentu, sehingga lebih dari data yang tersebar, dan tentu saja, ada 4 ulangan klaster yang hilang pada 3 tanaman, jadi tidak simetris sempurna .
Pertanyaan saya adalah apakah data ini mendukung gagasan bahwa tanaman ini membutuhkan penyerbuk untuk set benih.
Saya menemukan bahwa distribusi jumlah benih dalam polong terlihat seperti ada lebih banyak 0 polong benih yang diserbuki (6-9 polong dari 16) dan lebih banyak 3 dan 4 polong benih yang diserbuki (2-4 untuk masing-masing) daripada diharapkan jika benih dalam populasi hanya diserbuki secara acak. Pada dasarnya, saya pikir ini adalah contoh klasik untuk data nol yang digelembungkan, pertama-tama seekor serangga tidak atau tidak mengunjungi bunga sama sekali (satu generator nol) dan jika ya, maka penyerbukan 0-4 benih dalam distribusi lain. Hipotesis alternatifnya adalah sebagian tanaman mementingkan diri sendiri, dan kemudian diharapkan setiap benih akan memiliki kemungkinan yang sama untuk diserbuki (data ini menunjukkan peluang sekitar 0,1, yang berarti 0,01 peluang untuk dua biji dalam polong yang sama, dll) .
Tapi saya hanya ingin menunjukkan data yang paling sesuai dengan satu atau distribusi lainnya, tidak benar-benar MELAKUKAN ZIP atau ZINB pada data. Saya pikir metode apa pun yang saya gunakan harus memperhitungkan jumlah aktual benih yang diserbuki dan jumlah polong yang diambil sampelnya di setiap tanaman. Hal terbaik yang saya dapatkan adalah melakukan semacam tali boot di mana saya hanya secara acak menetapkan jumlah benih yang diserbuki untuk tanaman tertentu ke dalam jumlah polong biji yang saya sampel, lakukan 10.000 kali dan lihat seberapa besar kemungkinannya. data eksperimental untuk pabrik yang diberikan keluar dari distribusi acak.
Saya hanya merasa ada sesuatu tentang ini yang seharusnya jauh lebih mudah daripada brute force bootstrapping, tetapi setelah beberapa hari berpikir dan mencari, saya menyerah. Saya tidak bisa begitu saja dibandingkan dengan distribusi Poisson karena itu batas atas, bukan binomial karena saya perlu menghasilkan distribusi yang diharapkan entah bagaimana 1. Adakah pikiran? Dan saya menggunakan R jadi saran di sana (terutama bagaimana cara paling elegan menghasilkan 10.000 distribusi n bola acak menjadi 16 kotak yang masing-masing dapat berisi paling banyak 4 bola) akan sangat disambut.
TAMBAH 9/07/2012 Pertama, terima kasih untuk semua perhatian dan bantuannya. Membaca jawaban telah membuat saya berpikir untuk menulis ulang pertanyaan saya sedikit. Apa yang saya katakan adalah bahwa saya memiliki satu hipotesis (yang untuk saat ini saya pikir sebagai nol) bahwa benih diserbuki secara acak di seluruh polong, dan hipotesis alternatif saya adalah bahwa polong biji dengan setidaknya 1 benih yang diserbuki lebih cenderung memiliki banyak benih yang diserbuki daripada yang diharapkan dengan proses acak. Saya telah memberikan data nyata dari tiga pabrik sebagai contoh untuk menggambarkan apa yang saya bicarakan. Kolom pertama adalah # biji yang diserbuki dalam polong, kolom kedua adalah frekuensi polong dengan jumlah biji tersebut.
tanaman 1 (total 3 biji: 4% penyerbukan)
num.seeds :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
tanaman 2 (total 19 biji: penyerbukan 26%)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
tanaman 3 (total 16 biji: 22% penyerbukan)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
Pada tanaman nomor 1, hanya 3 biji yang diserbuki dalam 18 polong, satu polong memiliki satu biji, dan satu polong memiliki dua biji. Berpikir tentang proses menambahkan satu biji ke polong secara acak, dua biji pertama masing-masing masuk ke polongnya sendiri, tetapi untuk benih ke-3, ada 6 tempat yang tersedia di polong yang sudah memiliki satu biji tetapi 64 bintik di 16 polong tanpa biji, jadi probabilitas tertinggi dari polong dengan 2 biji di sini adalah 6/64 = 0,094. Itu agak rendah, tetapi tidak terlalu ekstrem, jadi saya akan mengatakan bahwa tanaman ini cocok dengan hipotesis penyerbukan acak di semua benih dengan ~ 4% kemungkinan penyerbukan terjadi. Tetapi tanaman 2 terlihat jauh lebih ekstrem bagi saya, dengan 4 polong sepenuhnya diserbuki, namun 12 polong tanpa apa-apa. Saya tidak yakin bagaimana cara menghitung peluang distribusi ini secara langsung (maka ide bootstrap saya) tapi saya kira peluang distribusi ini terjadi secara acak jika setiap biji memiliki ~ 25% kemungkinan penyerbukan cukup rendah. Tanaman # 3 Saya benar-benar tidak tahu, saya pikir ada lebih banyak 0 dan 3 daripada yang seharusnya diharapkan untuk distribusi acak tetapi perasaan saya adalah bahwa distribusi untuk jumlah benih ini jauh lebih mungkin daripada distribusi untuk tanaman # 2, dan mungkin itu tidak mungkin. Tapi jelas saya ingin tahu pasti, dan di semua tanaman. Saya pikir ada lebih banyak 0 dan 3 daripada yang seharusnya diharapkan untuk distribusi acak tetapi firasat saya adalah bahwa distribusi untuk jumlah benih ini jauh lebih besar daripada distribusi untuk tanaman # 2, dan mungkin bukan yang tidak mungkin. Tapi jelas saya ingin tahu pasti, dan di semua tanaman. Saya pikir ada lebih banyak 0 dan 3 daripada yang seharusnya diharapkan untuk distribusi acak tetapi firasat saya adalah bahwa distribusi untuk jumlah benih ini jauh lebih besar daripada distribusi untuk tanaman # 2, dan mungkin bukan yang tidak mungkin. Tapi jelas saya ingin tahu pasti, dan di semua tanaman.
Pada akhirnya saya ingin menulis pernyataan seperti “Distribusi benih yang diserbuki dalam polong biji cocok dengan (atau tidak cocok) hipotesis bahwa tanaman tidak hanya kompatibel secara parsial, tetapi memerlukan kunjungan seorang penyerbuk untuk mempengaruhi set benih. (hasil uji statistik). " Ini benar-benar hanya bagian dari bagian depan saya, di mana saya berbicara tentang percobaan apa yang harus dilakukan selanjutnya, jadi saya tidak putus asa untuk ini menjadi satu hal atau yang lain, tetapi saya ingin tahu sendiri, jika mungkin. Jika saya tidak bisa melakukan apa yang saya coba lakukan dengan data ini, saya juga ingin tahu itu!
Saya memang mengajukan pertanyaan yang agak luas pada awalnya, karena saya ingin tahu apakah ada tes yang baik untuk menunjukkan apakah data harus masuk ke model nol meningkat di tempat pertama. Semua contoh yang saya lihat sepertinya mengatakan - “lihat, ada banyak nol di sini, dan ada penjelasan yang masuk akal untuk itu, jadi mari kita gunakan model nol inflasi”. Itulah yang saya lakukan saat ini di forum ini, tapi saya punya pengalaman di bab terakhir saya di mana saya menggunakan Poisson glm untuk menghitung data dan salah satu pengawas saya berkata, “Tidak, glms terlalu kompleks dan tidak perlu, data ini seharusnya pergilah ke tabel kontingensi ”dan kemudian kirimi saya data dump dari tabel kontingensi besar yang dihasilkan oleh paket statistik mahal mereka yang memberikan nilai p yang sama untuk semua faktor + interaksi saya menjadi tiga digit signifikan !! Jadi, saya mencoba untuk menjaga statistik tetap jelas dan sederhana, dan pastikan saya memahaminya dengan cukup baik untuk mempertahankan pilihan saya, yang saya rasa tidak bisa saya lakukan untuk model nol inflasi sekarang. Saya telah menggunakan quasibinomial (untuk seluruh pabrik untuk menghilangkan pesudoreplicaiton) dan model campuran untuk data di atas untuk membandingkan perawatan dan menjawab pertanyaan eksperimental utama saya, baik tampaknya melakukan pekerjaan yang sama, tetapi saya juga akan melakukan bermain-main dengan ZINB malam ini, untuk melihat seberapa baik kinerjanya. Saya berpikir jika saya dapat secara eksplisit menunjukkan bahwa data ini sangat berkerumun (atau nol meningkat) pada awalnya, kemudian memberikan alasan biologis yang baik untuk itu terjadi, saya akan jauh lebih baik mengatur untuk kemudian mengeluarkan ZINB, daripada hanya membandingkan satu dengan model quasibinomial / campuran dan berdebat karena memberikan hasil yang lebih baik, itulah yang harus saya gunakan. yang saya tidak merasa bisa saya lakukan untuk model nol meningkat sekarang. Saya telah menggunakan quasibinomial (untuk seluruh pabrik untuk menghilangkan pesudoreplicaiton) dan model campuran untuk data di atas untuk membandingkan perawatan dan menjawab pertanyaan eksperimental utama saya, baik tampaknya melakukan pekerjaan yang sama, tetapi saya juga akan melakukan bermain-main dengan ZINB malam ini, untuk melihat seberapa baik kinerjanya. Saya berpikir jika saya dapat secara eksplisit menunjukkan bahwa data ini sangat berkerumun (atau nol meningkat) pada awalnya, kemudian memberikan alasan biologis yang baik untuk itu terjadi, saya akan jauh lebih baik mengatur untuk kemudian mengeluarkan ZINB, daripada hanya membandingkan satu dengan model quasibinomial / campuran dan berdebat karena memberikan hasil yang lebih baik, itulah yang harus saya gunakan. yang saya tidak merasa bisa saya lakukan untuk model nol meningkat sekarang. Saya telah menggunakan quasibinomial (untuk seluruh pabrik untuk menghilangkan pesudoreplicaiton) dan model campuran untuk data di atas untuk membandingkan perawatan dan menjawab pertanyaan eksperimental utama saya, baik tampaknya melakukan pekerjaan yang sama, tetapi saya juga akan melakukan bermain-main dengan ZINB malam ini, untuk melihat seberapa baik kinerjanya. Saya berpikir jika saya dapat secara eksplisit menunjukkan bahwa data ini sangat berkerumun (atau nol meningkat) pada awalnya, kemudian memberikan alasan biologis yang baik untuk itu terjadi, saya akan jauh lebih baik mengatur untuk kemudian mengeluarkan ZINB, daripada hanya membandingkan satu dengan model quasibinomial / campuran dan berdebat karena memberikan hasil yang lebih baik, itulah yang harus saya gunakan. Saya telah menggunakan quasibinomial (untuk seluruh pabrik untuk menghilangkan pesudoreplicaiton) dan model campuran untuk data di atas untuk membandingkan perawatan dan menjawab pertanyaan eksperimental utama saya, baik tampaknya melakukan pekerjaan yang sama, tetapi saya juga akan melakukan bermain-main dengan ZINB malam ini, untuk melihat seberapa baik kinerjanya. Saya berpikir jika saya dapat secara eksplisit menunjukkan bahwa data ini sangat berkerumun (atau nol meningkat) pada awalnya, kemudian memberikan alasan biologis yang baik untuk itu terjadi, saya akan jauh lebih baik mengatur untuk kemudian mengeluarkan ZINB, daripada hanya membandingkan satu dengan model quasibinomial / campuran dan berdebat karena memberikan hasil yang lebih baik, itulah yang harus saya gunakan. Saya telah menggunakan quasibinomial (untuk seluruh pabrik untuk menghilangkan pesudoreplicaiton) dan model campuran untuk data di atas untuk membandingkan perawatan dan menjawab pertanyaan eksperimental utama saya, baik tampaknya melakukan pekerjaan yang sama, tetapi saya juga akan melakukan bermain-main dengan ZINB malam ini, untuk melihat seberapa baik kinerjanya. Saya berpikir jika saya dapat secara eksplisit menunjukkan bahwa data ini sangat berkerumun (atau nol meningkat) pada awalnya, kemudian memberikan alasan biologis yang baik untuk itu terjadi, saya akan jauh lebih baik mengatur untuk kemudian mengeluarkan ZINB, daripada hanya membandingkan satu dengan model quasibinomial / campuran dan berdebat karena memberikan hasil yang lebih baik, itulah yang harus saya gunakan.
Tetapi saya tidak ingin terlalu banyak mengalihkan perhatian dari pertanyaan utama saya, bagaimana saya bisa menentukan apakah data saya benar-benar lebih besar dari yang diharapkan dari distribusi acak? Dalam kasus saya, jawabannya adalah apa yang benar-benar menarik bagi saya, dengan kemungkinan manfaat untuk justifikasi model menjadi bonus.
Sekali lagi terima kasih atas waktu dan bantuan Anda!
Cheers, BWGIA