Saya menyarankan Anda melihat buku-buku tentang analisis data kategorikal (lih. Analisis Data Kategorikal Alan Agresti, 2002) untuk penjelasan dan pemahaman yang lebih baik tentang regresi logistik yang dipesan . Semua pertanyaan yang Anda ajukan pada dasarnya dijawab oleh beberapa bab dalam buku-buku tersebut. Jika Anda hanya tertarik pada R
contoh terkait, Memperluas Model Linier dalam R oleh Julian Faraway (CRC Press, 2008) adalah referensi yang bagus.
Sebelum saya menjawab pertanyaan Anda, regresi logistik berurutan adalah kasus model multinomial logit di mana kategori dipesan. Misalkan kita memiliki memerintahkan kategori dan bahwa untuk individu i , dengan respon ordinal Y i ,
p i j = P ( Y i = j ) untuk j = 1 , . . . , J . Dengan respons yang dipesan, seringkali lebih mudah untuk bekerja dengan probabilitas kumulatif, γ i j = PJiYipij=P(Yi=j)j=1,...,J . Probabilitas kumulatif meningkat dan tidak berubah untuk menggabungkan kategori yang berdekatan. Selanjutnya, γ i J = 1 , jadi kita hanya perlu memodelkanprobabilitas.γij=P(Yi≤j)γiJ=1J- 1
Sekarang kami ingin menautkan s ke covariates . Dalam kasus Anda, memiliki 3 tingkat memerintahkan: , , . Lebih masuk akal memperlakukan mereka seperti yang diperintahkan daripada tidak teratur. Variabel yang tersisa adalah kovariat Anda. Model spesifik yang Anda pertimbangkan adalah model odds proporsional dan secara matematis setara dengan: xγsaya jxSat
low
medium
high
mana γ j ( x i ) = P ( Y i ≤ j | x i )
logit γj( xsaya) = θj- βTxsaya, j = 1 ... J- 1
dimana γj( xsaya) = P( Ysaya≤ j | xsaya)
Disebut demikian karena peluang relatif untuk membandingkan dan adalah:x 1 x 2Y≤ jx1x2
( γj( x1)1 - γj( x1)) / ( γj( x2)1 - γj( x2)) =exp( - βT( x1- x2) )
Perhatikan, ungkapan di atas tidak tergantung pada . Tentu saja, asumsi odds proporsional perlu diperiksa untuk dataset yang diberikan.j
Sekarang, saya akan menjawab beberapa (1, 2, 4) pertanyaan.
Bagaimana orang bisa mengerti jika modelnya cocok? ringkasan (house.plr) menunjukkan Penyimpangan Residual 3479.149 dan AIC (Akaike Information Criterion?) dari 3495.149. Apakah itu bagus? Dalam hal ini hanya berguna sebagai ukuran relatif (yaitu membandingkan dengan kecocokan model lain), apakah ukuran absolut yang baik? Apakah penyimpangan residual sekitar chi-kuadrat didistribusikan? Bisakah seseorang menggunakan "% diprediksi dengan benar" pada data asli atau validasi silang? Apa cara termudah untuk melakukan itu?
Model yang cocok polr
adalah yang spesial glm
, jadi semua asumsi yang berlaku untuk glm
pegangan tradisional di sini. Jika Anda merawat parameter dengan benar, Anda dapat mengetahui distribusinya. Khususnya, untuk menguji apakah modelnya bagus atau tidak, Anda mungkin ingin melakukan uji goodness of fit , yang menguji nol berikut (perhatikan ini halus, kebanyakan Anda ingin menolak nol, tetapi di sini Anda tidak ingin tolak untuk mendapatkan kecocokan yang baik):
HHai: model saat ini cukup baik
Anda akan menggunakan tes chi-square untuk ini. Nilai p diperoleh sebagai:
1-pchisq(deviance(house.plr),df.residual(house.plr))
Sebagian besar waktu Anda berharap untuk mendapatkan nilai p lebih besar dari 0,05 sehingga Anda tidak menolak nol untuk menyimpulkan bahwa model tersebut cocok (kebenaran filosofis diabaikan di sini).
AIC harusnya tinggi agar pas pada saat yang sama Anda tidak ingin memiliki sejumlah besar parameter. stepAIC
adalah cara yang baik untuk memeriksa ini.
Ya, Anda pasti dapat menggunakan validasi silang untuk melihat apakah prediksi tersebut berlaku. Lihat predict
fungsi (opsi:) type = "probs"
di ?polr
. Yang perlu Anda urus adalah kovariat.
Informasi apa yang terkandung dalam pr? Halaman bantuan pada profil bersifat umum, dan tidak memberikan panduan untuk polr
Seperti yang ditunjukkan oleh @chl dan lainnya, pr
berisi semua informasi yang diperlukan untuk mendapatkan CI dan informasi terkait lainnya yang mungkin dari polr fit
. Semua glm
s cocok menggunakan metode estimasi kuadrat terkecil tertimbang iteratif untuk kemungkinan log. Dalam optimasi ini Anda mendapatkan banyak informasi (silakan lihat referensi) yang akan diperlukan untuk menghitung Variance Covariance Matrix, CI, t-value, dll. Ini mencakup semuanya.
Bagaimana cara seseorang mengartikan nilai t untuk setiap koefisien? Tidak seperti beberapa model> cocok, tidak ada nilai P di sini.
Tidak seperti model linear normal (khusus glm
), yang lain glm
tidak memiliki distribusi t yang baik untuk koefisien regresi. Oleh karena itu yang bisa Anda dapatkan hanyalah estimasi parameter dan matriks kovarians varians asimptotiknya menggunakan teori max-likelihood. Karena itu:
Varians ( β^) = ( XTWX)- 1ϕ^
Perkirakan dibagi dengan kesalahan standarnya adalah apa yang disebut BDR dan WV nilai-t (saya mengasumsikan MASS
konvensi di sini). Ini setara dengan nilai-t dari regresi linier normal tetapi tidak mengikuti distribusi-t. Menggunakan CLT, secara asimptotik terdistribusi normal. Tetapi mereka memilih untuk tidak menggunakan kira-kira ini (kurasa), karenanya tidak ada nilai-p. (Saya harap saya tidak salah, dan jika saya salah, saya harap BDR tidak ada di forum ini. Saya berharap lebih jauh, seseorang akan memperbaiki saya jika saya salah.)
methods("profile")
akan memberi Anda (S3 dalam kasus ini) metode yang terkait denganprofile
objek R , maka Anda akan melihat daripada ada metode khusus untukpolr
hasil, yang dapat Anda telusuri on-line dengan mengetikgetAnywhere("profile.polr")
di prompt R.