Model linear standar (misalnya, model regresi sederhana) dapat dianggap memiliki dua 'bagian'. Ini disebut komponen struktural dan komponen acak . Contohnya:
Dua istilah pertama (yaitu, ) merupakan komponen struktural, dan (yang menunjukkan istilah kesalahan yang terdistribusi normal) adalah komponen acak. Ketika variabel respons tidak terdistribusi secara normal (misalnya, jika variabel respons Anda adalah biner) pendekatan ini mungkin tidak lagi valid. The model linier umum
β 0 + β 1 X ε g ( μ ) = β 0 + β 1 X β 0 + β 1 X g ( ) μ
Y= β0+ β1X+ εdimana ε ∼ N( 0 , σ2)
β0+ β1Xε(GLiM) dikembangkan untuk mengatasi kasus-kasus seperti itu, dan model logit dan probit adalah kasus khusus GLiM yang sesuai untuk variabel biner (atau variabel respons multi-kategori dengan beberapa adaptasi pada proses). GLiM memiliki tiga bagian,
komponen struktural ,
fungsi tautan , dan
distribusi respons . Sebagai contoh:
Di sini lagi-lagi komponen struktural, adalah fungsi tautan, dan
g( μ ) = β0+ β1X
β0+ β1Xg( )μadalah rata-rata dari distribusi respon bersyarat pada titik tertentu dalam ruang kovariat. Cara kita berpikir tentang komponen struktural di sini tidak benar-benar berbeda dari bagaimana kita memikirkannya dengan model linier standar; pada kenyataannya, itulah salah satu keuntungan besar GLIM. Karena untuk banyak distribusi, varians adalah fungsi dari mean, yang sesuai dengan mean bersyarat (dan mengingat Anda menetapkan distribusi respons), Anda telah secara otomatis menghitung analog dari komponen acak dalam model linier (NB: ini dapat lebih rumit dalam praktiknya).
Fungsi tautan adalah kunci untuk GLiMs: karena distribusi variabel respons tidak normal, itu yang memungkinkan kita menghubungkan komponen struktural ke respons - itu 'menghubungkan' mereka (maka namanya). Ini juga merupakan kunci untuk pertanyaan Anda, karena logit dan probit adalah tautan (seperti yang dijelaskan @vinux), dan memahami fungsi tautan akan memungkinkan kami untuk secara cerdas memilih kapan akan menggunakan yang mana. Meskipun ada banyak fungsi tautan yang dapat diterima, seringkali ada satu yang istimewa. Tanpa ingin terlalu jauh ke dalam gulma (ini bisa menjadi sangat teknis) rata-rata yang diprediksi, , tidak harus secara matematis sama dengan parameter lokasi kanonik distribusi respons ;β ( 0 , 1 ) ln ( - ln ( 1 - μ ) )μ. Keuntungan dari ini "adalah bahwa statistik minimum yang memadai untuk ada" ( German Rodriguez ). Tautan kanonik untuk data respons biner (lebih khusus lagi, distribusi binomial) adalah logit. Namun, ada banyak fungsi yang dapat memetakan komponen struktural ke interval , dan dengan demikian dapat diterima; probit juga populer, tetapi masih ada opsi lain yang kadang-kadang digunakan (seperti log log komplementer, , sering disebut 'cloglog'). Dengan demikian, ada banyak fungsi tautan yang memungkinkan dan pemilihan fungsi tautan bisa sangat penting. Pilihan harus dibuat berdasarkan beberapa kombinasi dari: β(0,1)ln(−ln(1−μ))
- Pengetahuan tentang distribusi respons,
- Pertimbangan teoretis, dan
- Empiris cocok dengan data.
Setelah membahas sedikit latar belakang konseptual yang diperlukan untuk memahami ide-ide ini dengan lebih jelas (maafkan saya), saya akan menjelaskan bagaimana pertimbangan ini dapat digunakan untuk memandu pilihan tautan Anda. (Biarkan saya perhatikan bahwa menurut saya komentar @ David secara akurat menangkap mengapa berbagai tautan dipilih dalam praktik .) Untuk memulainya, jika variabel respons Anda adalah hasil dari percobaan Bernoulli (yaitu, atau ), distribusi respons Anda akan menjadi binomial, dan apa yang sebenarnya Anda modelkan adalah probabilitas pengamatan menjadi (yaitu, ). Akibatnya, fungsi apa pun yang memetakan garis bilangan real, , hingga interval1 1 π ( Y = 1 ) ( - ∞ , + ∞ ) ( 0 , 1 )011π(Y=1)(−∞,+∞)(0,1)akan bekerja.
Dari sudut pandang teori substantif Anda, jika Anda berpikir tentang kovariat Anda terhubung langsung dengan probabilitas keberhasilan, maka Anda biasanya akan memilih regresi logistik karena itu adalah tautan kanonik. Namun, pertimbangkan contoh berikut: Anda diminta untuk membuat model high_Blood_Pressure
sebagai fungsi dari beberapa kovariat. Tekanan darah itu sendiri secara normal terdistribusi dalam populasi (saya tidak benar-benar tahu itu, tetapi tampaknya masuk akal prima facie), meskipun demikian, dokter mendikotomasinya selama penelitian (yaitu, mereka hanya mencatat 'BP tinggi' atau 'normal' ). Dalam hal ini, probit akan lebih disukai a-priori karena alasan teoretis. Inilah yang @Elvis maksud dengan "hasil biner Anda bergantung pada variabel Gaussian tersembunyi".simetris , jika Anda percaya bahwa probabilitas keberhasilan meningkat perlahan dari nol, tetapi kemudian berkurang dengan cepat ketika mendekati satu, cloglog diperlukan, dll.
Terakhir, perhatikan bahwa kesesuaian empiris model terhadap data tidak mungkin membantu dalam memilih tautan, kecuali jika bentuk fungsi tautan tersebut berbeda secara substansial (di mana, logit dan probit tidak). Misalnya, perhatikan simulasi berikut:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
Bahkan ketika kita tahu data dihasilkan oleh model probit, dan kami memiliki 1000 poin data, model probit hanya menghasilkan kecocokan yang lebih baik 70% dari waktu, dan bahkan kemudian, sering kali hanya dengan jumlah yang sepele. Pertimbangkan iterasi terakhir:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
Alasannya adalah fungsi logit dan link probit menghasilkan output yang sangat mirip ketika diberi input yang sama.
Fungsi logit dan probit praktis identik, kecuali bahwa logit sedikit lebih jauh dari batas ketika mereka 'berbelok', seperti yang dinyatakan @vinux. (Perhatikan bahwa untuk mendapatkan logit dan probit untuk menyelaraskan secara optimal, logit harus kali nilai kemiringan yang sesuai untuk probit. Selain itu, saya bisa menggeser cloglog sedikit sehingga mereka akan berada di atas satu sama lain lebih banyak, tetapi saya meninggalkannya ke samping untuk menjaga angka lebih mudah dibaca.) Perhatikan bahwa cloglog asimetris sedangkan yang lain tidak; itu mulai menjauh dari 0 sebelumnya, tetapi lebih lambat, dan mendekati mendekati 1 dan kemudian berbelok tajam. ≈ 1.7β1≈1.7
Beberapa hal lagi dapat dikatakan tentang fungsi tautan. Pertama, mempertimbangkan fungsi identitas ( ) sebagai fungsi tautan memungkinkan kita untuk memahami model linier standar sebagai kasus khusus dari model linier umum (yaitu, distribusi respons normal, dan tautan adalah fungsi identitas). Penting juga untuk mengenali bahwa transformasi apa pun yang digunakan instantiate tautan diterapkan dengan benar ke parameter yang mengatur distribusi respons (yaitu, ), bukan data respons aktualμ μ = g - 1 ( β 0 + β 1 X ) π ( Y ) = exp ( β 0 + β 1 X )g(η)=ημ. Akhirnya, karena dalam praktiknya kita tidak pernah memiliki parameter mendasar untuk ditransformasikan, dalam diskusi model-model ini, seringkali apa yang dianggap sebagai tautan aktual dibiarkan tersirat dan model diwakili oleh kebalikan dari fungsi tautan yang diterapkan pada komponen struktural. . Yaitu:
Misalnya, regresi logistik biasanya diwakili:
alih-alih:
μ=g−1(β0+β1X)
ln(π(Y)π(Y)=exp(β0+β1X)1+exp(β0+β1X)
ln(π(Y)1−π(Y))=β0+β1X
Untuk tinjauan singkat dan jelas, tetapi solid, dari model linier umum, lihat bab 10 dari Fitzmaurice, Laird, & Ware (2004) , (di mana saya bersandar pada bagian dari jawaban ini, meskipun karena ini adalah adaptasi saya sendiri untuk itu --dan lainnya - materi, kesalahan akan menjadi milik saya). Untuk bagaimana agar sesuai dengan model-model ini di R, periksa dokumentasi untuk fungsi ? Glm dalam paket dasar.
(Satu catatan terakhir ditambahkan kemudian :) Saya kadang-kadang mendengar orang mengatakan bahwa Anda tidak boleh menggunakan probit, karena tidak dapat diartikan. Ini tidak benar, meskipun interpretasi dari beta kurang intuitif. Dengan regresi logistik, satu unit perubahan dalam dikaitkan dengan perubahan dalam peluang log 'sukses' (atau, perubahan dalam odds), semuanya sama. Dengan probit, ini akan menjadi perubahan dari 's. (Pikirkan dua pengamatan dalam dataset dengan nilai 1 dan 2, misalnya.) Untuk mengubahnya menjadi probabilitas yang diprediksi , Anda dapat meneruskannya melalui CDF normal.β 1 exp ( β 1 ) β 1 z z zX1β1exp(β1)β1 zz, atau cari di -tabel. z
(+1 ke @vinux dan @Elvis. Di sini saya telah mencoba memberikan kerangka kerja yang lebih luas untuk memikirkan hal-hal ini dan kemudian menggunakannya untuk membahas pilihan antara logit dan probit.)