Jawaban ini menjelaskan tiga cara untuk menangani ukuran sampel yang bervariasi secara tepat: Model Linear Umum dan dua regresi Ordinary Least Squares tertimbang. Dalam hal ini ketiganya bekerja dengan baik. Secara umum, ketika beberapa proporsi sudah dekat0 atau 1, GLM lebih baik.
Karena ukuran sampel sangat kecil dibandingkan dengan populasi (kurang dari sepuluh persen dari mereka), untuk perkiraan yang sangat baik distribusi hasil mata-biru dan mata-biru menghasilkan sampel ukuran nadalah Binomial (karena sampelnya acak). Parameter Binomial lainnya,hal, adalah proporsi benar (tetapi tidak diketahui) dari subyek mata biru dalam populasi. Dengan demikian, kesempatan untuk mengamatik orang bermata biru adalah
(nk)halk( 1 - hal)n - k.(1)
Setiap dekade kita tahu dan --mereka diberikan oleh data - tetapi kita tidak tahu . Kami dapat memperkirakannya dengan mengasumsikan bahwa peluang log yang terkait dengan bervariasi menurut tahun secara linier (setidaknya untuk perkiraan yang baik). Ini berarti kami menganggap ada angka dan sedemikian rupankhalhalβ0β1
catatan( p ) - log( 1 - p ) =β0+β1× Tahun .
Setara,
p =11 +e-β0-β1Tahun; 1 - p =e-β0-β1Tahun1+e-β0-β1Tahun.
Memasukkan ini ke (1) memberikan kesempatan mengamati dari selama tahun tertentu sebagaiknt
(nk)e- (β0+β1t ) ( n - k )( 1 +e- (β0+β1t ))n.(2)
Dengan asumsi sampel independen diperoleh pada tahun dll dan menulis ukuran sampel yang sesuai dan jumlah mata pelajaran bermata biru sebagai dan , kemungkinan data adalah produk dari probabilitas hasil individu. Produk ini (dengan definisi) yang kemungkinan dari . Kami dapat memperkirakan parameter ini sebagai nilai yang memaksimalkan kemungkinan; setara, mereka memaksimalkan kemungkinan logt1,t2, nsayaksaya(β0,β1)(β^0,β^1)
Λ (β0,β1) =∑tcatatan( (nk)e- (β0+β1t ) ( n - k )( 1 +e- (β0+β1t ))n)(3)
diperoleh dari .( 2 )
(Ini sangat menyederhanakan, menggunakan aturan logaritma, yang merupakan salah satu alasan untuk mengungkapkan hubungan proporsi waktu dalam hal peluang log. Ketika semua proporsi antara dan , kira-kira, ada sedikit perbedaan kualitatif antara menggunakan probabilitas atau log mereka. odds: kurva yang dipasang akan linier atau mendekati linier, masing-masing.)0,20.8hal
( 3 ) adalah Model Linier Binomial Generalized . Itu harus dipasang dengan meminimalkan numerik . The prosedur (ditampilkan pada akhir posting ini) memberikan solusiΛglm
R
(β^0,β^1)GLM= ( 31.498711 , - 0,0163568 ) .
Data dalam gambar ini diplot dengan disk yang wilayahnya sebanding dengan ukuran sampel. Kesesuaian GLM adalah lengkung. Ditampilkan untuk perbandingan, dalam warna abu-abu, adalah baris yang akan kita dapatkan hanya dengan membuang data ditunjukkan dalam pertanyaan ke dalam pemecah Ordinary Least Squares. Keduanya cocok dipengaruhi oleh proporsi yang lebih besar di tahun-tahun sebelumnya, meskipun ukuran sampelnya kecil. Namun, kesesuaian GLM melakukan pekerjaan yang lebih baik untuk memperkirakan proporsi dalam sampel terbesar yang diperoleh pada tahun 1970 dan 1980. Garis biru putus-putus dijelaskan di bawah ini.( Tahun , Proporsi )
Dengan menambahkan istilah kuadrat, kita dapat menguji kebaikan yang sesuai. Ini secara signifikan meningkatkan kecocokan GLM (walaupun secara visual perbedaannya tidak besar), memberikan bukti bahwa model ini tidak menggambarkan variasi dalam hasil dengan baik. Melihat plot menunjukkan hasil pada tahun 1990 jauh lebih rendah daripada prediksi model.
Alternatif, tetapi sebanding, pendekatannya adalah untuk memperkirakan individual untuk setiap tahun , mungkin sebagai (meskipun estimator lain dimungkinkan). Regresi linear dari peluang log estimasi ini terhadap tahun, ditimbang dengan ukuran sampel , atau regresi Weighted Least Squares, menghasilkanhaltsayaksaya/nsayansaya
(β^0,β^1)WLS= ( 36.12744 , - 0,018706 ) .
Standar error estimasi ini dan , masing-masing, yang menunjukkan bahwa WLS perkiraan tidak berbeda secara signifikan dari Binomial GLM. (Kesalahan standar GLM jauh lebih kecil, meskipun: ia "tahu" ukuran sampel ini cukup besar sedangkan regresi linier "tidak tahu" tentang ukuran sampel sama sekali: ia hanya memiliki urutan sepuluh pengamatan terpisah.) Perhatikan bahwa ini alternatif mungkin tidak tersedia jika atau , kecuali estimator probabilitas yang berbeda digunakan (yang tidak menghasilkan nilai atau ).15.550,00787ksaya=nsayaksaya= 001
Akhirnya, kita mungkin hanya melakukan regresi kuadrat terkecil tertimbang dari perkiraan probabilitas mentah terhadap tahun, berbanding terbalik dengan estimasi varians sampel. Varian dari variabel Binomial , dinyatakan kembali sebagai proporsi adalah . Itu dapat diperkirakan dari sampel sebagaik / n( n , p )XX/ np ( 1 - p ) / n
p ( 1 - p ) n ≈knn - kn/ n=k ( n - k )n3.
Hasilnya muncul pada gambar sebagai garis biru putus-putus. Dalam hal ini tampaknya kompromi antara GLM dan OLS cocok.
R
Kode berikut melakukan analisis dan menghasilkan gambar.
year <- seq(1910, 2000, by=10)
total <- c(40, 200, 7, 3, 1, 14, 5000, 7000, 150, 500) * 10
blue <- c(250, 1000, 40, 14, 4, 52, 15400, 22000, 80, 800)
X <- data.frame(Year=year, Success=blue, Failure=total-blue,
Proportion=blue/total, Total=total)
#
# GLM
#
fit <- glm(cbind(Success, Failure) ~ Year, X, family="binomial")
summary(fit)
#
# WLS of the log odds (an alternative)
#
fit.WLS <- lm(log(Success/Failure) ~ Year, X, weights=Total)
summary(fit.WLS)
#
# Plot the results.
#
X.more <- data.frame(Year=1901:2010)
X.more$Prediction <- predict(fit, X.more, type="response")
plot(X$Year, X$Proportion, ylim=0:1,
type="p", pch=21, bg="Red", cex=sqrt(X$Total/2000),
xlab="Year", ylab="Proportion",
main="GLM and OLS Fits", sub="GLM: solid line; OLS: dotted line")
lines(X.more, lwd=2)
abline(lm(Proportion ~ Year, X),
lty=3, lwd=3, col="Gray") #The OLS fit
abline(lm(Proportion ~ Year, X, weights=Total^3/(Success*Failure)),
lty=3, lwd=3, col="Blue") #The weighted OLS fit to the proportions