Bagaimana saya bisa memperkirakan waktu di mana 50% dari variabel binomial akan ditransisikan?

8

Saya memiliki data berikut, mewakili keadaan biner dari empat subjek pada empat kali, perhatikan bahwa hanya mungkin untuk setiap subjek untuk transisi tetapi tidak : $0\to 1$ $1\to 0$

testdata <- data.frame(id = c(1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4),
                       day = c(1,1,1,1,8,8,8,8,16,16,16,16,24,24,24,24,32,32,32,32),
                       obs = c(0,0,0,0,0,1,0,0,0,1,1,0,0,1,1,1,1,1,1,1))

Saya dapat memodelkannya dengan regresi logistik:

testmodel <- glm(formula(obs~day, family=binomial), data=testdata)

> summary(testmodel)


Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.018890   0.148077  -0.128 0.899907    
day          0.032030   0.007555   4.240 0.000493 ***

Pertama, bagaimana saya bisa menghitung tindakan berulang pada individu yang sama dalam model?

Kedua, bagaimana saya bisa memperkirakan, dengan ketidakpastian, hari di mana 1/2 dari subyek akan melakukan transisi dari ? $0\to 1$

logistic censoring interval-censoring

— David LeBauer
sumber

1

Tampaknya ada ketergantungan yang kuat dalam data ini: yaitu, apakah ini kasus bahwa jika obs = 1 untuk subjek pada hari maka tentu obs = 1 untuk subjek pada hari kapan saja ? Jika demikian, maka Anda benar-benar hanya memiliki empat nilai data - satu untuk setiap subjek - dan satu dari mereka disensor di sebelah kanan.

i

$i$

t

$t$

i

$i$

s

$s$

s \geq t

$s \ge t$

— whuber

@whuber Anda benar tentang ketergantungan (setidaknya dalam analisis dalam tahun ini); data menunjukkan apakah 'kuncup' telah terjadi sebelum tanggal pengamatan untuk masing-masing dari empat pohon ulangan. Tapi saya tidak yakin apa yang Anda maksud tentang nilai data yang disensor di sebelah kanan?

— David LeBauer

1

Berikut ringkasannya: subjek 2 beralih dalam interval [1,8]; yaitu, 2 -> [1,8]. Juga 3 -> [8,16], 4 -> [16,24], dan 1 -> [24, tak terbatas]. Yang terakhir berarti subjek 1 diamati selama 24 hari tanpa transisi; itu nilai yang disensor. Anda dapat membingkai ini sebagai masalah analisis kelangsungan hidup dan menganalisanya. Kebetulan, ketergantungan ini berarti nilai-p dalam regresi logistik menyesatkan rendah.

— whuber

@whuber terima kasih atas wawasannya, tetapi apakah ini berarti pendekatan saya jika secara mendasar cacat mengingat saya tidak tertarik memperkirakan nilai-p? Juga, tidak ada data yang akan disensor dengan benar dalam beberapa minggu; Saya hanya mengembangkan analisis sebelum dataset selesai. Saya telah mengubah data uji sehingga tidak ada subjek yang disensor dengan benar.

— David LeBauer

3

@DWin, @David Ini bukan situasi pengukuran yang berulang. Format data hanya membuatnya terlihat seperti itu. Pengukuran untuk masing-masing subjek terdiri dari interval tunggal selama transisi diamati.

— whuber

3

Sebagaimana terbukti dalam komentar atas pertanyaan, data hanya terdiri dari empat pengamatan waktu untuk tunas meledak. (Ini akan menjadi kesalahan untuk menganalisis mereka seolah-olah mereka adalah 16 nilai independen.) Mereka terdiri dari interval waktu daripada waktu yang tepat:

[1,8], [8,16], [16,24], [24,32]

Ada beberapa pendekatan yang bisa diambil. Yang menarik, sangat umum adalah mengambil interval ini pada kata-kata mereka: waktu sebenarnya tunas tunas bisa berupa apa pun dalam setiap interval. Dengan demikian, kita dituntun untuk mewakili "ketidakpastian" dalam dua bentuk terpisah: ketidakpastian sampel (kami memiliki sampel spesies yang mungkin representatif tahun ini) dan ketidakpastian pengamatan (dicerminkan oleh interval).

Ketidakpastian sampel ditangani dengan teknik statistik yang lazim: kami diminta untuk memperkirakan median dan kami dapat melakukannya dengan sejumlah cara, tergantung pada asumsi statistik, dan kami dapat memberikan interval kepercayaan untuk estimasi tersebut. Untuk kesederhanaan, misalkan waktu untuk tunas burst memiliki distribusi simetris. Karena (mungkin) non-negatif, ini menyiratkan ia memiliki varian dan juga menunjukkan rata - rata bahkan hanya empat pengamatan dapat didistribusikan secara normal. Selain itu, simetri menyiratkan bahwa kita dapat menggunakan mean sebagai pengganti untuk median (yang dicari dalam pertanyaan asli). Ini memberi kita akses ke metode interval standar, sederhana, taksiran dan kepercayaan diri.

Ketidakpastian pengamatan dapat ditangani dengan prinsip aritmatika interval (sering disebut "analisis batas probabilitas" ): melakukan semua perhitungan menggunakan semua kemungkinan konfigurasi data yang konsisten dengan pengamatan. Mari kita lihat bagaimana ini bekerja dalam kasus sederhana: memperkirakan rata-rata. Secara intuitif jelas bahwa rata-rata tidak boleh lebih kecil dari = , dicapai dengan menggunakan nilai terkecil di setiap interval, dan juga bahwa rata-rata tidak boleh lebih besar dari = . Kami menyimpulkan: $(1+8+16+24)/4$ $10.25$ $(8+16+24+32)$ $18$

Mean = [10.25, 18] .

$\text{Mean} = [10.25, 18].$

Ini mewakili seluruh interval perkiraan: hasil yang sesuai dari perhitungan dengan input interval!

Sebuah atas (satu sisi) batas kepercayaan dari rata-rata empat nilai dihitung dari rata-rata mereka dan deviasi standar sampel dengan t Student distribusi sebagai $1-\alpha$ $\mathbf{x} = (x_1, x_2, x_3, x_4)$ $m$ $s$

ucl (x, α) = x + t_{n - 1} (α) s / \sqrt{n} .

$\text{ucl}(\mathbf{x}, \alpha) = x + t_{n-1}(\alpha) s / \sqrt{n}.$

Berbeda dengan perhitungan rata-rata, tidak lagi umum bahwa interval ucl dibatasi oleh ucl tentang nilai-nilai pembatas. Memang, perhatikan bahwa ucl dari batas interval bawah, , sama dengan , sedangkan lebih kecil. Dengan memaksimalkan dan meminimalkan ucl di antara semua kemungkinan kombinasi nilai yang konsisten dengan pengamatan, kami menemukan (misalnya) bahwa $\text{ucl}((1,8,16,24), .025)$ $28.0758$ $\text{ucl}((8, 11.676, 16, 24), .025) = 25.8674$

ucl (data, .025) = [25.8, 39.3]

$\text{ucl}(\text{data},.025) = [25.8, 39.3]$

(Itu adalah interval angka yang mewakili ucl bernilai interval , bukan interval kepercayaan!) dan, untuk batas kepercayaan yang lebih rendah,

lcl (data, .025) = [0, 6.2] .

$\text{lcl}(\text{data},.025) = [0, 6.2].$

(Nilai-nilai ini telah dibulatkan ke luar. Angka adalah nilai negatif yang terpotong ke pada premis bahwa waktu tunas median tidak boleh negatif.) $0$ $0$

Dengan kata-kata, kita bisa mengatakan itu

"Pengamatan ini konsisten dengan nilai-nilai yang, jika diukur secara tepat , dapat menghasilkan batas kepercayaan 2,5% atas rata-rata setinggi 39,3 hari, tetapi tidak lebih tinggi. Mereka konsisten dengan nilai-nilai (yang mungkin berbeda dari yang pertama) yang akan menghasilkan batas kepercayaan 2,5% lebih rendah serendah 0. "

Apa yang harus dibuat dari ini adalah masalah untuk perenungan individu dan tergantung pada aplikasi. Jika seseorang ingin yakin bahwa ledakan kuncup terjadi sebelum 40 hari, maka hasil ini memberikan kepuasan ( tergantung pada asumsi tentang distribusi kuncup dan independensi pengamatan ). Jika seseorang ingin memperkirakan ledakan tunas ke hari terdekat, maka jelas dibutuhkan lebih banyak data. Dalam keadaan lain, kesimpulan statistik ini dalam hal batas kepercayaan interval-dihargai mungkin frustasi. Misalnya, seberapa yakin kita bahwa ledakan kuncup terjadi pada 50% spesimen sebelum 30 hari? Sulit untuk mengatakannya, karena jawabannya adalah interval.

Ada cara lain untuk menangani masalah ini. Saya lebih suka menggunakan metode kemungkinan maksimum. (Untuk menerapkannya di sini, kita perlu tahu lebih banyak tentang bagaimana cutpoint interval didirikan. Itu penting apakah mereka ditentukan secara independen dari data atau tidak.) Pertanyaan ini tampaknya menjadi peluang yang baik untuk memperkenalkan metode berbasis interval karena mereka tampaknya tidak dikenal, meskipun dalam disiplin ilmu tertentu (penilaian risiko dan analisis algoritma) mereka telah dianjurkan oleh beberapa orang.

— whuber
sumber

Terima kasih atas jawaban Anda. Tanggal pengambilan sampel dipilih secara independen dari data (kira-kira setiap 1-2 minggu, ketika saya memiliki kesempatan untuk pergi ke sana.

— David LeBauer

Saya pikir, David, tetapi juga terpikir oleh saya bahwa kemampuan Anda untuk melakukan pengamatan bisa terkait dengan kondisi cuaca dan faktor-faktor lain yang dengan sendirinya memengaruhi waktu ledakan kuncup. Jadi, meskipun proses memilih tanggal pengambilan sampel mungkin dianggap independen dari proses burst bud, keduanya masih bisa memiliki ketergantungan

— Whuber

2

maaf, saya salah bicara. Tanggal pengambilan sampel saya kurang ketat pada musim gugur yang lalu; pada musim semi semua tanggal adalah 10 hari terpisah, tidak termasuk pengamatan detik pertama dengan dt = 13, tetapi tidak ada perubahan antara pengamatan ini. Namun pada musim gugur, Oktober-November cukup hujan; baik penuaan daun dan interval pengambilan sampel tergantung pada cuaca. (Saya tahu bahwa penuaan daun bergantung pada cuaca dari biologi, informasi ini tidak ada dalam data).

— David LeBauer

1

Berikut ini adalah pendekatan sederhana yang tidak menggunakan regresi logistik, tetapi berupaya untuk menggunakan saran di atas. Perhitungan statistik ringkasan mengasumsikan, mungkin secara naif, bahwa tanggal tersebut didistribusikan secara normal.

Mohon maafkan kode yang tidak berlaku

menulis fungsi untuk memperkirakan hari tunas untuk setiap individu: gunakan hari setengah tahun antara pengamatan terakhir 0 dan observasi pertama 1 untuk setiap individu.

budburst.day <- function(i){
   data.subset <- subset(testdata, subset =
                         id == i, 
                         na.rm = TRUE)
   y1 <- data.subset$day[max(which(data.subset$obs==0))]
   y2 <- data.subset$day[min(which(data.subset$obs==1))]
   y <- mean(c(y1, y2), na.rm = TRUE)
   if(is.na(y) | y<0 | y > 180) y <- NA
   return(y)
}

Hitung statistik ringkasan

#calculate mean
mean(unlist(lapply(1:4, budburst.day)))
[1] 16.125  

#calculate SE = sd/sqrt(n)
sd(unlist(lapply(1:4, budburst.day)))/2
[1] 5.06777

— David LeBauer
sumber

0

Kita tahu bahwa waktu transisi (dari status 0 ke status 1) subjek berada di antara dua batas: . Suatu perkiraan adalah mengasumsikan bahwa mungkin telah mengambil nilai dalam kisaran ini dengan probabilitas seragam . Resampling yang nilai-nilai kita bisa mendapatkan distribusi perkiraan : $t_1$ id=1 $24<t_1<32$ $t_1$ $t_i$ $\text{median}(t_i)$

t = replicate(10000, median(sample(c(runif(1, 24, 32),  # id=1
                                     runif(1,  1,  8),  # id=2
                                     runif(1,  8, 16),  # id=3
                                     runif(1, 16, 24)), # id=4
                                   replace=TRUE)))
c(quantile(t, c(.025, .25, .5, .75, .975)), mean=mean(t), sd=sd(t))

Hasil (berulang):

    2.5%       25%       50%       75%     97.5%      mean        sd 
4.602999 11.428310 16.005289 20.549056 28.378774 16.085808  6.243129 
4.517058 11.717245 16.084075 20.898324 28.031452 16.201022  6.219094

Dengan demikian perkiraan dengan interval kepercayaan 95% dari median ini adalah 16 (5 - 28).

EDIT: Lihat komentar whuber tentang keterbatasan metode ini ketika jumlah pengamatan kecil (termasuk n = 4 itu sendiri).

— GaBorgulya
sumber

@ GaBorgulya Saya pikir Anda salah ketik; median (95% CI) = 16 (5,28)

— David LeBauer

Anda akan melakukan yang lebih baik dengan kecocokan ML dari bentuk distribusi yang wajar untuk data interval diikuti oleh perkiraan median dari distribusi.

— whuber

@whuber "Distribusi wajar" adalah pertanyaan kunci itu sendiri.

— GaBorgulya

1

Saya setuju. Terpikir oleh saya bahwa harus ada pendekatan nonparametrik, seperti kernel smooths, yang bekerja dengan data bernilai interval.

— whuber

4

Dengan empat titik data independen, tidak mungkin untuk mendapatkan 95% CI untuk median: tidak peduli apa median sebenarnya, empat poin semua akan lebih besar dari itu dengan probabilitas = 6,25% dan mereka semua akan menjadi kurang dari itu dengan probabilitas yang sama. Oleh karena itu kisaran empat pengamatan harus gagal untuk menutupi median 12,5% dari waktu. Ini membuat saya curiga dengan pendekatan Anda.

1 / 2^{4}

$1/2^4$

— whuber

0

Anda bisa menggunakan model hazard waktu diskrit yang sesuai dengan regresi logistik (menggunakan set data periode orang). Lihat Terapan Longitudinal Analisis Data - perangkat lunak dan Buku Bab 10-12.

Allison juga membahas

Kumpulan data Anda kecil.

— B_Miner
sumber

1

Terima kasih atas jawaban Anda; meskipun contoh dataset kecil, dataset sebenarnya memiliki 100 subjek yang diukur pada 6 tanggal

— David LeBauer

-1

Dengan asumsi bahwa Anda akan memiliki lebih banyak data dari struktur yang sama Anda akan dapat menggunakan metode aktuaria (tabel kehidupan) untuk memperkirakan kelangsungan hidup rata-rata.

— GaBorgulya
sumber

1

Ide bagus! - Tapi bisakah Anda menjelaskan bagaimana cara mendapatkan CI untuk median dari tabel kehidupan?

— whuber