Apakah populasi orang Mars bermata biru menurun?


8

Misalkan kita ingin menguji hipotesis bahwa proporsi orang-orang Mars bermata biru telah menurun sepanjang abad ke-20. Sayangnya, populasi Mars berfluktuasi sangat tinggi, sehingga setiap dekade ada perbedaan besar dalam total populasi [pembaruan: anggap populasi Mars konstan pada satu miliar penduduk Mars. Data di bawah ini adalah sampel acak pada setiap tahun]. Kumpulan data (dibuat saat saya menulis ini) dapat terlihat seperti ini:

Year | Total martian population | Blue-eyed martians | Proportion
1910 | 400                      | 250                | 0.625
1920 | 2000                     | 1000               | 0.500
1930 | 70                       | 40                 | 0.571
1940 | 30                       | 14                 | 0.467
1950 | 10                       | 4                  | 0.400
1960 | 140                      | 52                 | 0.371
1970 | 50 000                   | 15 400             | 0.308
1980 | 70 000                   | 22 000             | 0.314
1990 | 1500                     | 80                 | 0.053
2000 | 5000                     | 800                | 0.160

Menganalisis tahun ketika populasi Mars di bawah 100 jelas tidak bermakna secara statistik seperti ketika populasi lebih dari 10.000, karena dalam kasus terakhir kami memiliki kumpulan data yang lebih besar. Namun, kami ingin menggunakan semua data yang tersedia untuk memverifikasi hipotesis kami dengan tingkat signifikansi 95% konvensional.

Bagaimana kita melanjutkan? Apakah kita menimbang pentingnya setiap tahun sesuai dengan ukuran sampel pada saat itu?

Lebih banyak pengeditan agar sesuai dengan keprihatinan: kekhawatiran di sini adalah bagaimana kami cukup mempertimbangkan setiap dataset dengan mengingat bahwa mereka memiliki ukuran yang berbeda. Tidak ada bias sampel karena data dipilih secara acak.


Anda harus memilih model temporal seperti model binomial, di mana kemungkinan menjadi mata biru adalah fungsi waktu, seperti penurunan eksponensial dengan konstanta waktu T. Maka dengan teori pengujian hipotesis, Anda harus memperoleh kriteria untuk mengatakan hipotesis "T terbatas "terhadap hipotesis nol"T is infinite ". Anda juga dapat memperoleh estimator dari T.
Yves Daoust

Ini agak luar biasa. Saya ( mod Matematika ) memigrasikan ini di sini, ditolak karena terlalu luas (karena awalnya ada dua pertanyaan). Penolakan memantul kembali ke Matematika , di mana ia dibuka kembali. OP menyuntingnya. Saya bermigrasi di sini lagi. Jika saya salah, tolong beri tahu saya.
davidlowryduda

"menurun sepanjang abad ke-20" adalah ungkapan yang terlalu samar untuk memungkinkan dilakukannya uji hipotesis. Orang bisa menafsirkannya dengan berbagai cara. 1) sebagai "setiap proporsi harus kurang dari yang sebelumnya," suatu kondisi yang jelas tidak terpenuhi di sini. 2) sebagai "nilai 2000 harus kurang dari nilai 1910," yang terpenuhi. 3) sebagai "akan ada koefisien negatif untuk variabel waktu dalam regresi logistik (di mana ada 250 mata biru dan 150 lainnya pada tahun 1910, 1000 dan 1000 pada tahun 1920, dll.)"
rolando2

Jawaban:


4

Jawaban ini menjelaskan tiga cara untuk menangani ukuran sampel yang bervariasi secara tepat: Model Linear Umum dan dua regresi Ordinary Least Squares tertimbang. Dalam hal ini ketiganya bekerja dengan baik. Secara umum, ketika beberapa proporsi sudah dekat0 atau 1, GLM lebih baik.


Karena ukuran sampel sangat kecil dibandingkan dengan populasi (kurang dari sepuluh persen dari mereka), untuk perkiraan yang sangat baik distribusi hasil mata-biru dan mata-biru menghasilkan sampel ukuran nadalah Binomial (karena sampelnya acak). Parameter Binomial lainnya,p, adalah proporsi benar (tetapi tidak diketahui) dari subyek mata biru dalam populasi. Dengan demikian, kesempatan untuk mengamatik orang bermata biru adalah

(1)(nk)halk(1-hal)n-k.

Setiap dekade kita tahu dan --mereka diberikan oleh data - tetapi kita tidak tahu . Kami dapat memperkirakannya dengan mengasumsikan bahwa peluang log yang terkait dengan bervariasi menurut tahun secara linier (setidaknya untuk perkiraan yang baik). Ini berarti kami menganggap ada angka dan sedemikian rupankhalhalβ0β1

catatan(hal)-catatan(1-hal)=β0+β1×Tahun.

Setara,

hal=11+e-β0-β1Tahun; 1-hal=e-β0-β1Tahun1+e-β0-β1Tahun.

Memasukkan ini ke (1) memberikan kesempatan mengamati dari selama tahun tertentu sebagaiknt

(2)(nk)e-(β0+β1t)(n-k)(1+e-(β0+β1t))n.

Dengan asumsi sampel independen diperoleh pada tahun dll dan menulis ukuran sampel yang sesuai dan jumlah mata pelajaran bermata biru sebagai dan , kemungkinan data adalah produk dari probabilitas hasil individu. Produk ini (dengan definisi) yang kemungkinan dari . Kami dapat memperkirakan parameter ini sebagai nilai yang memaksimalkan kemungkinan; setara, mereka memaksimalkan kemungkinan logt1,t2, nsayaksaya(β0,β1)(β^0,β^1)

(3)Λ(β0,β1)=tcatatan((nk)e-(β0+β1t)(n-k)(1+e-(β0+β1t))n)

diperoleh dari .(2)

(Ini sangat menyederhanakan, menggunakan aturan logaritma, yang merupakan salah satu alasan untuk mengungkapkan hubungan proporsi waktu dalam hal peluang log. Ketika semua proporsi antara dan , kira-kira, ada sedikit perbedaan kualitatif antara menggunakan probabilitas atau log mereka. odds: kurva yang dipasang akan linier atau mendekati linier, masing-masing.)0,20.8hal

(3) adalah Model Linier Binomial Generalized . Itu harus dipasang dengan meminimalkan numerik . The prosedur (ditampilkan pada akhir posting ini) memberikan solusiΛglmR

(β^0,β^1)GLM=(31.498711,-0,0163568).

Gambar menunjukkan data dan dua cocok

Data dalam gambar ini diplot dengan disk yang wilayahnya sebanding dengan ukuran sampel. Kesesuaian GLM adalah lengkung. Ditampilkan untuk perbandingan, dalam warna abu-abu, adalah baris yang akan kita dapatkan hanya dengan membuang data ditunjukkan dalam pertanyaan ke dalam pemecah Ordinary Least Squares. Keduanya cocok dipengaruhi oleh proporsi yang lebih besar di tahun-tahun sebelumnya, meskipun ukuran sampelnya kecil. Namun, kesesuaian GLM melakukan pekerjaan yang lebih baik untuk memperkirakan proporsi dalam sampel terbesar yang diperoleh pada tahun 1970 dan 1980. Garis biru putus-putus dijelaskan di bawah ini.(Tahun,Proporsi)

Dengan menambahkan istilah kuadrat, kita dapat menguji kebaikan yang sesuai. Ini secara signifikan meningkatkan kecocokan GLM (walaupun secara visual perbedaannya tidak besar), memberikan bukti bahwa model ini tidak menggambarkan variasi dalam hasil dengan baik. Melihat plot menunjukkan hasil pada tahun 1990 jauh lebih rendah daripada prediksi model.


Alternatif, tetapi sebanding, pendekatannya adalah untuk memperkirakan individual untuk setiap tahun , mungkin sebagai (meskipun estimator lain dimungkinkan). Regresi linear dari peluang log estimasi ini terhadap tahun, ditimbang dengan ukuran sampel , atau regresi Weighted Least Squares, menghasilkanhaltsayaksaya/nsayansaya

(β^0,β^1)WLS=(36.12744,-0,018706).

Standar error estimasi ini dan , masing-masing, yang menunjukkan bahwa WLS perkiraan tidak berbeda secara signifikan dari Binomial GLM. (Kesalahan standar GLM jauh lebih kecil, meskipun: ia "tahu" ukuran sampel ini cukup besar sedangkan regresi linier "tidak tahu" tentang ukuran sampel sama sekali: ia hanya memiliki urutan sepuluh pengamatan terpisah.) Perhatikan bahwa ini alternatif mungkin tidak tersedia jika atau , kecuali estimator probabilitas yang berbeda digunakan (yang tidak menghasilkan nilai atau ).15.550,00787ksaya=nsayaksaya=001

Akhirnya, kita mungkin hanya melakukan regresi kuadrat terkecil tertimbang dari perkiraan probabilitas mentah terhadap tahun, berbanding terbalik dengan estimasi varians sampel. Varian dari variabel Binomial , dinyatakan kembali sebagai proporsi adalah . Itu dapat diperkirakan dari sampel sebagaik/n(n,hal)XX/nhal(1-hal)/n

hal(1-hal)nknn-kn/n=k(n-k)n3.

Hasilnya muncul pada gambar sebagai garis biru putus-putus. Dalam hal ini tampaknya kompromi antara GLM dan OLS cocok.


RKode berikut melakukan analisis dan menghasilkan gambar.

year <- seq(1910, 2000, by=10)
total <- c(40, 200, 7, 3, 1, 14, 5000, 7000, 150, 500) * 10
blue <- c(250, 1000, 40, 14, 4, 52, 15400, 22000, 80, 800)
X <- data.frame(Year=year, Success=blue, Failure=total-blue,
                Proportion=blue/total, Total=total)
#
# GLM
#
fit <- glm(cbind(Success, Failure) ~ Year, X, family="binomial")
summary(fit)
#
# WLS of the log odds (an alternative)
#
fit.WLS <- lm(log(Success/Failure) ~ Year, X, weights=Total)
summary(fit.WLS)
#
# Plot the results.
#
X.more <- data.frame(Year=1901:2010)
X.more$Prediction <- predict(fit, X.more, type="response")
plot(X$Year, X$Proportion, ylim=0:1,
     type="p", pch=21, bg="Red", cex=sqrt(X$Total/2000),
     xlab="Year", ylab="Proportion",
     main="GLM and OLS Fits", sub="GLM: solid line; OLS: dotted line")
lines(X.more, lwd=2)
abline(lm(Proportion ~ Year, X), 
       lty=3, lwd=3, col="Gray") #The OLS fit
abline(lm(Proportion ~ Year, X, weights=Total^3/(Success*Failure)), 
       lty=3, lwd=3, col="Blue") #The weighted OLS fit to the proportions
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.