Regresi beta (yaitu GLM dengan distribusi beta dan biasanya fungsi tautan log) sering direkomendasikan untuk menangani respons alias variabel dependen yang mengambil nilai antara 0 dan 1, seperti fraksi, rasio, atau probabilitas: Regresi untuk hasil (rasio atau fraksi) antara 0 dan 1 .
Namun, selalu dinyatakan bahwa regresi beta tidak dapat digunakan segera setelah variabel respons sama dengan 0 atau 1 setidaknya satu kali. Jika ya, kita perlu menggunakan model beta nol / satu inflasi, atau membuat beberapa transformasi respons, dll.: Regresi beta dari data proporsi termasuk 1 dan 0 .
Pertanyaan saya adalah: properti distribusi beta mana yang mencegah regresi beta dari berurusan dengan 0s dan 1s yang tepat, dan mengapa?
Saya menduga itu adalah bahwa dan 1 tidak mendukung distribusi beta. Tapi untuk semua parameter bentuk α > 1 dan β > 1 , baik nol dan satu yang di support distribusi beta, itu hanya untuk parameter bentuk yang lebih kecil yang distribusi pergi ke infinity pada satu atau kedua sisi. Dan mungkin data sampel sedemikian rupa sehingga α dan β yang memberikan kecocokan terbaik akan berubah menjadi di atas 1 .
Apakah ini berarti bahwa dalam beberapa kasus satu bisa pada kenyataannya penggunaan beta regresi bahkan dengan nol / orang?
Tentu saja bahkan ketika 0 dan 1 mendukung distribusi beta, probabilitas untuk mengamati dengan tepat 0 atau 1 adalah nol. Tapi begitu juga probabilitas untuk mengamati serangkaian nilai yang diberikan yang dapat dihitung lainnya, jadi ini bukan masalah, bukan? (Lihat komentar ini oleh @Glen_b).
Dalam konteks regresi beta, distribusi beta parameternya berbeda, tetapi dengan itu harus tetap didefinisikan dengan baik pada [ 0 , 1 ] untuk semua μ .