Saya punya pertanyaan tentang distribusi yang benar untuk digunakan untuk membuat model dengan data saya. Saya melakukan inventarisasi hutan dengan 50 plot, masing-masing plot berukuran 20m × 50m. Untuk setiap plot, saya memperkirakan persentase kanopi pohon yang menaungi tanah. Setiap plot memiliki satu nilai, dalam persen, untuk tutupan kanopi. Persentase berkisar dari 0 hingga 0,95. Saya membuat model persen tutupan kanopi pohon ( variabel Y ), dengan matriks variabel X independen berdasarkan citra satelit dan data lingkungan.
Saya tidak yakin apakah saya harus menggunakan distribusi binomial, karena variabel acak binomial adalah jumlah dari n percobaan independen (yaitu, variabel acak Bernoulli). Nilai persentase bukan jumlah percobaan; mereka adalah persentase sebenarnya. Haruskah saya menggunakan gamma, meskipun tidak memiliki batas atas? Haruskah saya mengubah persentase menjadi bilangan bulat dan menggunakan Poisson sebagai jumlah? Haruskah saya tetap dengan Gaussian? Saya belum menemukan banyak contoh dalam literatur atau buku teks yang mencoba memodelkan persentase dengan cara ini. Petunjuk atau wawasan apa pun dihargai.
Terima kasih atas jawaban anda Faktanya, distribusi beta persis seperti yang saya butuhkan dan dibahas secara menyeluruh dalam artikel ini:
Eskelson, BN, Madsen, L., Hagar, JC, & Temesgen, H. (2011). Memperkirakan tutupan vegetasi tumbuhan bawah Riparian dengan regresi Beta dan model kopula. Ilmu Hutan, 57 (3), 212-221.
Para penulis ini menggunakan paket betareg dalam R oleh Cribari-Neto dan Zeileis.
Artikel berikut membahas cara yang baik untuk mengubah variabel respon terdistribusi beta ketika termasuk 0 benar dan / atau 1 dalam kisaran persentase:
- Smithson, M., dan J. Verkuilen, 2006. Pemeras lemon yang lebih baik? Regresi kemungkinan maksimum dengan variabel dependen yang didistribusikan-beta , Metode Psikologis, 11 (1): 54-71.