Mengapa tepatnya regresi beta tidak dapat menangani 0s dan 1s dalam variabel respon?


17

Regresi beta (yaitu GLM dengan distribusi beta dan biasanya fungsi tautan log) sering direkomendasikan untuk menangani respons alias variabel dependen yang mengambil nilai antara 0 dan 1, seperti fraksi, rasio, atau probabilitas: Regresi untuk hasil (rasio atau fraksi) antara 0 dan 1 .

Namun, selalu dinyatakan bahwa regresi beta tidak dapat digunakan segera setelah variabel respons sama dengan 0 atau 1 setidaknya satu kali. Jika ya, kita perlu menggunakan model beta nol / satu inflasi, atau membuat beberapa transformasi respons, dll.: Regresi beta dari data proporsi termasuk 1 dan 0 .

Pertanyaan saya adalah: properti distribusi beta mana yang mencegah regresi beta dari berurusan dengan 0s dan 1s yang tepat, dan mengapa?

Saya menduga itu adalah bahwa dan 1 tidak mendukung distribusi beta. Tapi untuk semua parameter bentuk α > 1 dan β > 1 , baik nol dan satu yang di support distribusi beta, itu hanya untuk parameter bentuk yang lebih kecil yang distribusi pergi ke infinity pada satu atau kedua sisi. Dan mungkin data sampel sedemikian rupa sehingga α dan β yang memberikan kecocokan terbaik akan berubah menjadi di atas 1 .01α>1β>1αβ1

Apakah ini berarti bahwa dalam beberapa kasus satu bisa pada kenyataannya penggunaan beta regresi bahkan dengan nol / orang?

Tentu saja bahkan ketika 0 dan 1 mendukung distribusi beta, probabilitas untuk mengamati dengan tepat 0 atau 1 adalah nol. Tapi begitu juga probabilitas untuk mengamati serangkaian nilai yang diberikan yang dapat dihitung lainnya, jadi ini bukan masalah, bukan? (Lihat komentar ini oleh @Glen_b).

beta distribution

Dalam konteks regresi beta, distribusi beta parameternya berbeda, tetapi dengan itu harus tetap didefinisikan dengan baik pada [ 0 , 1 ] untuk semua μ .ϕ=α+β>2[0,1]μ

enter image description here


2
Pertanyaan menarik! Saya tidak punya jawaban selain poin yang sudah dibuat oleh Kevin Wright. Saya kira nol yang tepat dan yang dalam probabilitas adalah kasus patologis (seperti dalam regresi logistik) sehingga tidak begitu menarik karena seharusnya tidak terjadi.
Tim

1
@Tim Yah, saya tidak tahu apakah mereka harus atau tidak seharusnya terjadi, tetapi mereka memang cukup sering terjadi, kalau tidak orang tidak akan bertanya tentang cara menangani 0s dan 1s dalam regresi beta, tidak akan menulis makalah tentang 0- dan-1 model beta yang digelembungkan, dll. Lagi pula, saya masih berharap jawaban yang lebih rinci daripada Kevin. Seseorang setidaknya harus menjelaskan bagaimana istilah-istilah ini dalam log-kemungkinan muncul.
Amoeba berkata Reinstate Monica

1
Pembaruan: mungkin karena jika 0 dan 1 ada dalam dukungan maka PDF pada titik-titik ini sama dengan nol, artinya kemungkinan mengamati nilai-nilai ini adalah nol. Saya masih ingin melihat jawaban yang menjelaskan hal ini dengan cermat.
Amoeba berkata Reinstate Monica

Jadi, distribusi apa yang harus digunakan seseorang ketika variabel respon mengasumsikan nilai dalam, katakanlah, ? [0,)
Bingung

Jawaban:


16

Karena loglikelihood berisi dan log ( 1 - x ) , yang tidak terikat ketika x = 0 atau x = 1 . Lihat persamaan (4) dari Smithson & Verkuilen, "Pemeras Lemon yang Lebih Baik? Regresi Maksimum-Kemungkinan dengan Variabel Ketergantungan Terdistribusi Beta " (tautan langsung ke PDF ).log(x)log(1x)x=0x=1


3
Terima kasih. Berikut adalah tautan PDF langsung ke kertas . Saya bisa melihat Persamaan itu. (4) akan rusak segera setelah atau y i = 1 , tetapi saya masih tidak mengerti mengapa ini terjadi dalam skema umum. yi=0yi=1
Amoeba berkata Reinstate Monica

3
(+1) Amuba, lihat saja pdf: untuk setiap distribusi Beta, densitas pada dan 1 adalah 0 atau + . Dalam kedua kasus tersebut, kemungkinan log tidak akan ditentukan. Secara ekuivalen, begitu ada satu respons 0 atau 1 , semua nilai kemungkinan hanya nol, tak terbatas, atau tak tentu dan akan ada seperangkat parameter Beta nontrivial di mana nilai minimum kemungkinan direalisasikan. Jadi perhitungan praktis dihalangi dan model tidak dapat diidentifikasi (dalam arti yang parah). 010+01
whuber

1
Bersama dengan komentar @ whuber (yang saya tidak perhatikan sampai sekarang), ini menjawab pertanyaan. Poin utama adalah bahwa untuk nilai parameter yang saya tanyakan, dan 1 memiliki kemungkinan nol. 01
Amuba mengatakan Reinstate Monica

1
@whuber Alasan saya bingung, adalah bahwa ada probabilitas nol untuk mengamati tetapi ada juga probabilitas nol untuk mengamati, katakanlah, 0,5 (mari kita ambil beta dengan α = β = 2 untuk konkretitas). Namun demikian, 0,5 konsisten dengan model, tetapi 0 tidak, dan itu karena kemungkinan mengamati 0,5 bukan nol tetapi kemungkinan mengamati 0 adalah ...00.5α=β=20.500.50
amoeba mengatakan Reinstate Monica

3
@amoeba Kemungkinannya tergantung pada kepadatan probabilitas , bukan probabilitas itu sendiri. Kadang-kadang, seseorang dapat menghindari masalah ini dengan mempertimbangkan setiap pengamatan untuk memasukkan probabilitas interval yang kecil tapi terbatas (tidak sangat kecil) (ditentukan, misalnya , dengan presisi pengukuran) atau dengan menggabungkan distribusi Beta dengan Gaussian yang sangat sempit ( yang menghilangkan kepadatan nol dan tak terbatas).
whuber

2

log(x)log(1x)

pN

Akibatnya, dalam pemahaman saya tentang regresi beta, 0s dan 1s akan secara intuitif sesuai dengan hasil pasti (tak terbatas).

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.