Regresi beta dari data proporsi termasuk 1 dan 0


19

Saya mencoba untuk menghasilkan model yang saya punya variabel respon yang merupakan proporsi antara 0 dan 1, ini mencakup beberapa 0s dan 1s tetapi juga banyak nilai di antaranya. Saya sedang berpikir tentang mencoba regresi beta. Paket yang saya temukan untuk R (betareg) hanya memungkinkan nilai antara 0 dan 1 tetapi tidak termasuk 0 atau 1. Saya telah membaca di tempat lain bahwa secara teoritis distribusi beta harus dapat menangani nilai 0 atau 1 tetapi saya tidak tahu bagaimana menangani hal ini di RI telah melihat beberapa orang menambahkan 0,001 ke nol dan mengambil 0,001 dari yang, tapi saya tidak yakin ini ide yang bagus?

Atau saya bisa logit mengubah variabel respons dan menggunakan regresi linier. Dalam hal ini saya memiliki masalah yang sama dengan 0 dan 1 yang tidak dapat diubah log.


Mengetahui jumlah - bukan hanya proporsi - sangat penting tidak peduli apa yang Anda lakukan. Tetapi begitu Anda memiliki hitungan, model pertama yang harus dipertimbangkan, bahkan jika itu hanyalah titik tolak, adalah regresi logistik.
Whuber

Ya, beta adalah antara 0 dan 1 ( hampir pasti ). Jika Anda mengamati mereka, Anda harus menggunakan model yang memberikan kesempatan untuk mengamati sampel Anda. Beberapa jawaban tampaknya mencakup pendekatan semacam itu; Saya akan mulai dengan mereka.
Glen_b -Reinstate Monica

Jawaban:


18

Anda bisa menggunakan nol dan / atau satu model regresi beta yang digelembungkan yang menggabungkan distribusi beta dengan distribusi merosot untuk menetapkan beberapa probabilitas masing-masing ke 0 dan 1. Untuk detail lihat referensi berikut:

Ospina, R., & Ferrari, SLP (2010). Distribusi beta meningkat. Makalah Statistik, 51 (1), 111-126. Ospina, R., & Ferrari, SLP (2012). Kelas umum model regresi beta nol-atau-satu meningkat. Statistik Komputasi dan Analisis Data, 56 (6), 1609 - 1623.

Model-model ini mudah diimplementasikan dengan paket gamlss untuk R.


Apakah Anda memiliki contoh cara menerapkannya pada R?
Ouistiti

2
@Ouistiti zoibpaket ini melakukannya dengan mudah.
Mark White

11

Dokumentasi untuk betaregpaket R menyebutkan itu

jika y juga mengasumsikan ekstrem 0 dan 1, transformasi yang berguna dalam praktiknya adalah (y * (n − 1) + 0,5) / n di mana n adalah ukuran sampel.

http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf

Mereka memberikan referensi Smithson M, Verkuilen J (2006). "Pemeras Lemon yang Lebih Baik? Regresi Maksimum-Kemungkinan dengan Variabel Ketergantungan Terdistribusi Beta." Metode Psikologis, 11 (1), 54-71.


1

Tidakkah Anda melakukan transformasi logit untuk membuat variabel mulai dari minus hingga tak terhingga? Saya tidak yakin apakah data yang memiliki 0 dan 1 seharusnya menjadi masalah. Apakah itu menunjukkan pesan kesalahan? Omong-omong, jika Anda hanya memiliki proporsi, analisis Anda akan selalu salah. Anda perlu menggunakan weight=argumentuntuk glmdengan jumlah kasus.

Jika tidak ada yang berhasil, Anda dapat menggunakan split median atau split kuartil atau titik potong apa pun yang menurut Anda tepat untuk membagi DV menjadi beberapa kategori dan kemudian menjalankan regresi logistik Ordinal. Itu mungkin berhasil. Cobalah hal-hal ini.

Saya tidak berpikir secara pribadi bahwa menambahkan 0,001 ke nol dan mengambil 0,001 dari yang merupakan ide yang terlalu buruk, tetapi memiliki beberapa masalah yang akan dibahas nanti. Bayangkan saja, mengapa Anda tidak menambahkan dan mengurangi 0,000000001 (atau bahkan lebih banyak desimal)? Itu akan lebih baik mewakili 0 dan 1 !! Bagi Anda mungkin hal itu tidak membuat banyak perbedaan. Tetapi sebenarnya itu terjadi.

Mari kita simak yang berikut ini:

> #odds when 0 is replaced by 0.00000001

> 0.00000001/(1-0.00000001)
[1] 1e-08
> log(0.00000001/(1-0.00000001))
[1] -18.42068

> #odds when 1 is replaced by (1-0.00000001):

> (1-0.00000001)/(1-(1-0.00000001))
[1] 1e+08
> log((1-0.00000001)/(1-(1-0.00000001)))
[1] 18.42068

> #odds when 0 is replaced by 0.001

> 0.001/(1-0.001)
[1] 0.001001001
> log(0.001/(1-0.001))
[1] -6.906755

> #odds when 1 is replaced by (1-0.001):

> (1-0.001)/(1-(1-0.001))
[1] 999
> log((1-0.001)/(1-(1-0.001)))
[1] 6.906755

Jadi, Anda tahu, Anda harus menjaga peluang sedekat (0/1) dan (1/0). Anda mengharapkan peluang log mulai dari minus tak terhingga hingga plus tak terhingga. Jadi, untuk menambah atau mengurangi, Anda harus memilih hingga tempat desimal yang sangat panjang, sehingga peluang log menjadi mendekati tak terhingga (atau sangat besar) !! Sejauh mana Anda akan mempertimbangkan cukup besar, semata-mata tergantung pada Anda.


1

Lihat yang berikut ini, di mana transformasi ad hoc disebutkan maartenbuis.nl/presentations/berlin10.pdf pada slide 17. Anda juga dapat memodelkan 0 dan 1 dengan dua regresi logistik terpisah dan kemudian menggunakan regresi Beta untuk mereka yang tidak berada di perbatasan.


1
Ini juga disebutkan dalam sketsa betareg sebagai metode pilihan, lihat paragraf pertama di bagian 2, halaman 3 : " mana adalah ukuran sampel"n(y(n1)+0.5)/nn
Max Gordon

0

Model beta adalah untuk variabel biner yang dimodelkan sebagai Bernoulli-didistribusikan dengan probabilitas tidak diketahui . Model beta menghitung kemungkinan lebih dari , yang didistribusikan secara beta.ppp

Variabel Anda adalah proporsi. Anda bisa memodelkan proporsinya sebagai yang didistribusikan secara beta dengan parameter yang tidak diketahui . Model yang Anda inginkan adalah konjugat sebelum distribusi beta, yang kemudian akan menghitung kemungkinan lebih dari .a , ba,ba,b

Saya harus menurunkan model lagi, tetapi jika saya ingat dengan benar, untuk proporsi Anda mengembalikan tiga parameter ekspektasi: , jumlah titik, dan jika ingatan saya benar dan . Ini adalah parameter distribusi di atas parameter distribusi beta Anda, yang menjadi model proporsi Anda. n j [ ψ ( i x i ) - ψ ( x j ) ] j [ ψ ( i 1 - x i ) - ψ ( 1 - x j ) ]x1,,xnnj[ψ(ixi)ψ(xj)]j[ψ(i1xi)ψ(1xj)]


1
Anda mungkin ingin berpartisipasi di utas Meta ini. stats.meta.stackexchange.com/questions/5814/…
Sycorax mengatakan
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.