Saya mengerti bahwa untuk kumpulan data tertentu seperti pemungutan suara, kinerjanya lebih baik. Mengapa regresi Poisson digunakan daripada regresi linier biasa atau regresi logistik? Apa motivasi matematika untuk itu?
Saya mengerti bahwa untuk kumpulan data tertentu seperti pemungutan suara, kinerjanya lebih baik. Mengapa regresi Poisson digunakan daripada regresi linier biasa atau regresi logistik? Apa motivasi matematika untuk itu?
Jawaban:
Data terdistribusi Poisson secara intrinsik bernilai integer, yang masuk akal untuk menghitung data. Kuadrat Terkecil Biasa (OLS, yang Anda sebut "regresi linier") mengasumsikan bahwa nilai sebenarnya terdistribusi normal di sekitar nilai yang diharapkan dan dapat mengambil nilai nyata, positif atau negatif, bilangan bulat atau fraksional, apa pun. Akhirnya, regresi logistik hanya berfungsi untuk data yang bernilai 0-1 (bernilai TRUE-FALSE), seperti "memiliki penyakit" versus "tidak memiliki penyakit". Dengan demikian, distribusi Poisson paling masuk akal untuk menghitung data.
Yang mengatakan, distribusi normal sering merupakan pendekatan yang agak baik untuk yang Poisson untuk data dengan rata-rata di atas 30 atau lebih. Dan dalam kerangka kerja regresi, di mana Anda memiliki prediktor yang memengaruhi penghitungan, OLS dengan distribusi normalnya mungkin lebih mudah dipasangkan dan sebenarnya akan lebih umum, karena distribusi dan regresi Poisson mengasumsikan bahwa mean dan variansnya sama, sedangkan OLS dapat berurusan dengan cara dan varians yang tidak sama - untuk model data hitungan dengan berbagai cara dan varians, orang dapat menggunakan distribusi binomial negatif , misalnya.
Pada dasarnya, itu karena regresi linier dan logistik membuat asumsi yang keliru tentang seperti apa hasil akhir. Bayangkan model Anda sebagai robot yang sangat bodoh yang tanpa henti akan mengikuti pesanan Anda, tidak peduli seberapa tidak masuk akal perintah itu; itu benar-benar tidak memiliki kemampuan untuk mengevaluasi apa yang Anda katakan. Jika Anda memberi tahu robot Anda bahwa sesuatu seperti suara didistribusikan secara terus-menerus dari tak terhingga negatif ke tak terhingga, itulah yang diyakini suara itu, dan itu mungkin memberi Anda prediksi yang tidak masuk akal (Ross Perot akan menerima -10,469 suara dalam pemilihan mendatang).
Sebaliknya, distribusi Poisson adalah diskrit dan positif (atau nol ... nol dianggap positif, ya?). Paling tidak, ini akan memaksa robot Anda untuk memberikan jawaban yang sebenarnya bisa terjadi dalam kehidupan nyata. Mereka mungkin atau mungkin tidak jawaban yang baik , tetapi mereka setidaknya akan diambil dari set kemungkinan "jumlah suara".
Tentu saja, Poisson memiliki masalah sendiri: ia mengasumsikan bahwa rata-rata variabel penghitungan suara juga akan sama dengan variansnya. Saya tidak tahu apakah saya pernah benar-benar melihat contoh yang tidak dibuat-buat di mana ini benar. Untungnya, orang-orang pintar telah menemukan distribusi lain yang juga positif dan diskrit, tetapi itu menambahkan parameter untuk memungkinkan varians, eh, bervariasi (misalnya, regresi binomial negatif).
Melalui ini dan metode kemungkinan maksimum & model linier umum (atau metode lain) Anda sampai pada regresi Poisson .
Secara sederhana Regresi Poisson adalah model yang sesuai dengan asumsi proses acak yang mendasari menghasilkan sejumlah kecil peristiwa pada tingkat (yaitu jumlah per unit waktu) yang ditentukan oleh variabel lain dalam model.
Orang lain pada dasarnya mengatakan hal yang sama dengan yang saya akan tetapi saya pikir saya akan menambahkan pendapat saya tentang itu. Itu tergantung pada apa yang Anda lakukan persis tetapi sering kali kami ingin mengonseptualisasikan masalah / data yang ada. Ini adalah pendekatan yang sedikit berbeda dibandingkan dengan hanya membangun model yang memprediksi dengan cukup baik. Jika kita mencoba membuat konsep apa yang terjadi, masuk akal untuk memodelkan data penghitungan menggunakan distribusi non-negatif yang hanya menempatkan massa pada nilai integer. Kami juga memiliki banyak hasil yang intinya mendidih ke mengatakan bahwa dalam kondisi tertentu menghitung data yang benar-benar adalahdidistribusikan sebagai poisson. Jadi, jika tujuan kita adalah membuat konsep masalah, masuk akal untuk menggunakan poisson sebagai variabel respon. Orang lain telah menunjukkan alasan lain mengapa itu ide yang baik tetapi jika Anda benar-benar mencoba untuk membuat konsep masalah dan benar-benar memahami bagaimana data yang Anda lihat dapat dihasilkan kemudian menggunakan regresi poisson sangat masuk akal dalam beberapa situasi.
Pemahaman saya terutama karena jumlah selalu positif dan diskrit, Poisson dapat meringkas data tersebut dengan satu parameter. Tangkapan utama adalah bahwa varians sama dengan mean.