Apa yang telah Anda lakukan adalah regresi logistik . Hal ini pada dasarnya dapat dilakukan dalam perangkat lunak statistik apa pun, dan hasilnya akan sama (setidaknya dalam konten, walaupun presentasi mungkin berbeda). Ada panduan untuk regresi logistik dengan R di situs web bantuan statistik UCLA yang sangat baik. Jika Anda tidak terbiasa dengan hal ini, jawaban saya di sini: perbedaan antara model logit dan probit , dapat membantu Anda memahami apa itu LR (walaupun ditulis dalam konteks yang berbeda).
Anda tampaknya memiliki dua model yang disajikan, saya terutama akan fokus pada yang teratas. Selain itu, tampaknya ada kesalahan dalam menyalin dan menempelkan model atau output, jadi saya akan menukar leaves.presence
dengan Area
output untuk membuatnya konsisten dengan model. Berikut adalah model yang saya maksudkan (perhatikan bahwa saya menambahkan (link="logit")
, yang tersirat oleh family=binomial
; lihat ? Glm dan ? Keluarga ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Mari kita berjalan melalui output ini (perhatikan bahwa saya mengubah nama variabel di baris kedua di bawah Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Sama seperti ada residu dalam regresi linier (OLS), ada juga residu dalam regresi logistik dan model linier umum lainnya. Mereka lebih rumit ketika variabel respon tidak kontinu. GLiM dapat memiliki lima jenis residu yang berbeda, tetapi yang muncul standar adalah residu penyimpangan. ( Penyimpangan dan residu penyimpangan lebih maju, jadi saya akan singkat di sini; jika diskusi ini agak sulit untuk diikuti, saya tidak akan terlalu khawatir, Anda dapat melewatkannya):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Untuk setiap titik data yang digunakan dalam model Anda, penyimpangan yang terkait dengan titik itu dihitung. Setelah melakukan ini untuk setiap titik, Anda memiliki satu set residu seperti itu, dan output di atas hanyalah deskripsi non-parametrik distribusi mereka.
Selanjutnya kita melihat informasi tentang kovariat, yang biasanya menjadi tujuan utama orang:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Untuk model regresi logistik sederhana seperti ini, hanya ada satu kovariat (di Area
sini) dan intersep (juga kadang-kadang disebut 'konstan'). Jika Anda memiliki regresi logistik berganda, akan ada kovariat tambahan yang tercantum di bawah ini, tetapi interpretasi hasilnya akan sama. Di bawah Estimate
di baris kedua adalah koefisien yang terkait dengan variabel yang tercantum di sebelah kiri. Ini adalah jumlah perkiraan dimana peluang log leaves.presence
akan meningkat jika Area
satu unit lebih tinggi. Peluang log leaves.presence
when Area
is .) Di kolom berikutnya, kita melihat kesalahan standar0terkait dengan estimasi ini. Artinya, mereka adalah perkiraan berapa banyak, rata-rata, perkiraan ini akan melambung jika studi dijalankan kembali secara identik, tetapi dengan data baru, berulang-ulang. (Jika Anda tidak terlalu terbiasa dengan gagasan tentang kesalahan standar, mungkin membantu Anda untuk membaca jawaban saya di sini: bagaimana menafsirkan koefisien kesalahan standar dalam regresi linier .) Jika kami membagi perkiraan dengan kesalahan standar, kami akan dapatkan hasil bagi yang diasumsikan terdistribusi normal dengan sampel yang cukup besar. Nilai ini tercantum di bawah z value
. Di bawah Pr(>|z|)
ini tercantum nilai- p dua sisiyang sesuai dengan nilai-z tersebut dalam distribusi normal standar. Terakhir, ada bintang signifikansi tradisional (dan catat kunci di bawah tabel koefisien).
The Dispersion
garis dicetak secara default dengan Glims, tetapi tidak menambahkan banyak informasi di sini (itu lebih penting dengan model count, misalnya). Kita bisa mengabaikan ini.
Terakhir, kami mendapatkan informasi tentang model dan kebaikannya:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Garis tentang missingness
sering, um, hilang. Ini menunjukkan di sini karena Anda memiliki 314 pengamatan yang baik leaves.presence
, Area
atau keduanya hilang. Pengamatan parsial tidak digunakan dalam pemasangan model.
Ini Residual deviance
adalah ukuran dari kurangnya kesesuaian model Anda yang diambil secara keseluruhan, sedangkan itu Null deviance
adalah ukuran untuk model yang dikurangi yang hanya mencakup intersep. Perhatikan bahwa derajat kebebasan yang terkait dengan keduanya berbeda hanya dengan satu. Karena model Anda hanya memiliki satu kovariat, hanya satu parameter tambahan yang telah diestimasi ( Estimate
untuk Area
), dan dengan demikian hanya satu derajat tambahan kebebasan yang telah dikonsumsi. Kedua nilai ini dapat digunakan dalam melakukan pengujian model secara keseluruhan, yang akan dianalogikan dengan globalF uji- yang hadir dengan model regresi linier berganda. Karena Anda hanya memiliki satu kovariat, tes semacam itu tidak menarik untuk kasus ini.
The AIC adalah ukuran lain goodness of fit yang memperhitungkan kemampuan model agar sesuai dengan data. Ini sangat berguna ketika membandingkan dua model di mana seseorang mungkin lebih cocok tetapi mungkin hanya karena menjadi lebih fleksibel dan dengan demikian lebih mampu menyesuaikan data apa pun. Karena Anda hanya memiliki satu model, ini tidak informatif.
Referensi Fisher scoring iterations
berkaitan dengan bagaimana model diperkirakan. Model linier dapat disesuaikan dengan menyelesaikan persamaan bentuk tertutup. Sayangnya, itu tidak dapat dilakukan dengan sebagian besar GLiM termasuk regresi logistik. Alih-alih, pendekatan iteratif ( algoritma Newton-Raphson secara default) digunakan. Secara longgar, model ini sesuai berdasarkan pada perkiraan tentang perkiraannya. Algoritma kemudian melihat sekeliling untuk melihat apakah kecocokan akan ditingkatkan dengan menggunakan perkiraan yang berbeda sebagai gantinya. Jika demikian, ia bergerak ke arah itu (katakanlah, menggunakan nilai yang lebih tinggi untuk perkiraan) dan kemudian cocok dengan model itu lagi. Algoritma berhenti ketika tidak merasakan bahwa bergerak lagi akan menghasilkan banyak peningkatan tambahan. Baris ini memberi tahu Anda berapa banyak iterasi yang ada sebelum proses berhenti dan output hasilnya.
Mengenai model dan output kedua yang Anda daftarkan, ini hanya cara berbeda untuk menampilkan hasil. Secara khusus, ini
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
adalah jenis perkiraan yang sama yang dibahas di atas (meskipun dari model yang berbeda dan disajikan dengan informasi tambahan).