Paling penting adalah logika di balik model. Variabel "jumlah paten Anda per tahun" adalah variabel jumlah, jadi ditunjukkan regresi Poisson. Itu adalah GLM (model linier umum) dengan (biasanya) fungsi log link, sedangkan regresi linier yang biasa adalah GLM Gaussian dengan link identitas. Di sini, ini benar-benar fungsi tautan log yang paling penting, lebih penting daripada distribusi kesalahan (Poisson atau Gaussian).
Variabel "Paten" adalah variabel luas : lihat properti intensif dan ekstensif . Untuk variabel intensif , seperti suhu, model linier (dengan tautan identitas) seringkali sesuai. Tetapi dengan variabel yang luas itu berbeda. Pikirkan bahwa salah satu perusahaan farmasi Anda terbagi menjadi dua perusahaan yang berbeda. Kemudian paten harus dibagi di antara dua perusahaan baru. Apa yang terjadi dengan kovariabel, dalam regresi Anda? Variabel seperti jumlah karyawan dan anggaran RD harus dipisah juga.x
Secara luas, dalam konteks ini, variabel intensif adalah variabel yang independen terhadap ukuran perusahaan, sedangkan variabel luas tergantung (biasanya, linier) pada ukuran perusahaan. Jadi, dalam arti tertentu, jika kita memiliki banyak variabel luas yang berbeda dalam persamaan regresi, kita mengukur efek ukuran berulang kali . Itu tampak berlebihan, jadi kita harus mencoba, jika mungkin, mengekspresikan variabel dalam bentuk intensif , seperti anggaran RD per karyawan (atau dalam persen dari total anggaran), demikian juga pendapatan, dll. Variabel seperti jumlah karyawan harus dibiarkan sebagai luas. Lihat jawaban @ onestop untuk Berurusan dengan regresi berkorelasi untuk diskusi lain tentang masalah variabel ekstensif / intensif ini.
Mari kita lihat ini secara aljabar:
adalah Paten, Anggaran (per karyawan), Karyawan di perusahaan asli, sementara
dan adalah variabel yang sesuai setelah pemisahan. Asumsikan, seperti di atas, bahwa adalah satu-satunya kovariabel yang luas (dengan , tentu saja, juga luas).P,B,EP1,B1,E1P2,B2,E2EP
Kemudian, sebelum pemisahan, kita memiliki model, tautan identitas, dengan bagian acak yang ditinggalkan:
Biarkan pecahan pecahan menjadi jadi untuk perusahaan 1 setelah pemisahan kita mendapatkan
sejak tapi . Demikian juga untuk perusahaan dua. Jadi model tergantung pada cara yang cukup rumit pada ukuran perusahaan, hanya koefisien regresi pada
P=μ+β1E+β2B
α,1−ααPP1=αμ+αβ1E+αβ2B=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEindependen dari ukuran perusahaan, ukuran mempengaruhi semua parameter lainnya. Itu membuat interpretasi hasil menjadi sulit, terutama jika dalam data Anda, Anda memiliki perusahaan dengan ukuran yang berbeda-beda, lalu bagaimana Anda akan menafsirkan koefisien tersebut? Perbandingan dengan penelitian lain berdasarkan data lain, dll., Menjadi sangat rumit.
Sekarang, mari kita lihat apakah menggunakan fungsi tautan log dapat membantu. Sekali lagi, kami menulis model ideal tanpa syarat gangguan. Variabelnya seperti di atas.
Pertama, model sebelum pemisahan:
Setelah pemisahan, untuk perusahaan satu, kita mendapatkan:
Ini terlihat hampir benar, kecuali untuk satu masalah, bagian dari ketergantungan pada tidak cukup berhasil. Jadi kita melihat bahwa jumlah karyawan, yang kovariabel dalam bentuk luas, harus digunakan pada skala log. Lalu, coba lagi, kita dapatkan:
P=exp(μ+β1E+β2B)
P1P1=exp(logα)exp(μ+β1E+β2B)=exp(logα+μ+β1E+β2B1)
E
Model sebelum pemisahan:
Setelah pemisahan:
mana adalah intersep baru. Sekarang, kami telah menempatkan model dalam bentuk di mana semua parameter (kecuali intersep) memiliki interpretasi yang independen dari ukuran perusahaan.
P=exp(μ+β1logE+β2B)
μ′P1P1P1P1=exp(logα)exp(μ+β1logE+β2B)=exp(logα+μ+β1logE+β2B1)=exp((1−β)logα+μ+β1logE1+β2B1)=exp(μ′+β1logE1+β2B1)
μ′
Itu membuat interpretasi hasil jauh lebih mudah, dan juga perbandingan dengan studi menggunakan data lain, tren dengan waktu, dan sebagainya. Anda tidak dapat mencapai formulir ini dengan parameter dengan interpretasi independen ukuran dengan tautan identitas.
Kesimpulan: Gunakan GLM dengan fungsi tautan log, mungkin regresi Poisson, atau negatif-binomial, atau ... Fungsi tautan adalah urutan yang lebih penting!
Singkatnya, ketika membangun model regresi untuk variabel respon yang luas , seperti variabel jumlah.
Cobalah untuk mengekspresikan kovariabel dalam bentuk intensif.
Kovariabel yang harus dibiarkan luas: catat (aljabar di atas tergantung pada paling tidak ada satu kovariabel yang luas).
Gunakan fungsi tautan log.
Kemudian, kriteria lain, seperti yang didasarkan pada kesesuaian, dapat digunakan untuk keputusan sekunder, seperti distribusi istilah gangguan.