Bagaimana cara menghitung rata-rata panjang kepatuhan vegetarianisme ketika kita hanya memiliki data survei tentang vegetarian saat ini?

Sampel populasi acak disurvei. Mereka ditanya apakah mereka makan diet vegetarian. Jika mereka menjawab ya, mereka juga diminta untuk menentukan berapa lama mereka telah makan diet vegetarian tanpa gangguan. Saya ingin menggunakan data ini untuk menghitung panjang rata-rata kepatuhan pada vegetarian. Dengan kata lain, ketika seseorang menjadi vegetarian, saya ingin tahu lama rata-rata mereka tetap vegetarian. Mari kita asumsikan bahwa:

Semua responden memberikan tanggapan yang benar dan akurat
Dunia stabil: popularitas vegetarian tidak berubah, panjang rata-rata kepatuhan juga tidak berubah.

Alasan saya sejauh ini

Saya merasa terbantu untuk menganalisis model mainan dunia, di mana pada awal setiap tahun dua orang menjadi vegetarian. Setiap kali, satu dari mereka tetap vegetarian selama 1 tahun dan yang lain selama 3 tahun. Jelas, panjang rata-rata kepatuhan di dunia ini adalah (1 + 3) / 2 = 2 tahun. Berikut adalah grafik yang menggambarkan contohnya. Setiap kotak mewakili periode vegetarianisme:

sebuah ilustrasi

Katakanlah kita melakukan survei pada pertengahan tahun 4 (garis merah). Kami mendapatkan data berikut:

sebuah meja

Kami akan mendapatkan data yang sama jika kami mengambil survei di tahun apa pun, mulai tahun 3. Jika kami hanya meratakan respons yang kami dapatkan:

(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25

Kami meremehkan karena kami menganggap bahwa semua orang berhenti menjadi vegetarian setelah survei, yang jelas-jelas salah. Untuk memperoleh perkiraan yang lebih dekat dengan waktu rata-rata sebenarnya dimana para peserta ini akan tetap vegetarian, kita dapat mengasumsikan bahwa rata-rata, mereka melaporkan waktu sekitar setengah dari periode vegetarianisme mereka dan melipatgandakan durasi yang dilaporkan dengan 2. Dalam survei besar, menggambar secara acak dari populasi (seperti yang saya analisis), saya pikir ini adalah asumsi yang realistis. Setidaknya itu akan memberikan nilai yang diharapkan benar. Namun, jika menggandakan adalah satu-satunya hal yang kita lakukan, kita mendapatkan rata-rata 2,5, yang merupakan perkiraan terlalu tinggi. Ini karena semakin lama orang tetap vegetarian, semakin besar kemungkinan dia akan menjadi sampel vegetarian saat ini.

Saya kemudian berpikir bahwa kemungkinan seseorang dalam sampel vegetarian saat ini sebanding dengan panjangnya vegetarianisme. Untuk menjelaskan bias ini, saya mencoba untuk membagi jumlah vegetarian saat ini dengan prediksi panjang kepatuhan mereka:

Belum meja lain

Namun, ini memberikan rata-rata yang salah juga:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2.533333 = 1,579 tahun

Ini akan memberikan perkiraan yang tepat jika jumlah vegetarian dibagi dengan panjang kepatuhan yang benar:

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 tahun

Tapi itu tidak berhasil jika saya menggunakan panjang kepatuhan yang diprediksi dan itu semua yang saya miliki dalam kenyataan. Saya tidak tahu harus mencoba apa lagi. Saya membaca sedikit tentang analisis survival tetapi saya tidak yakin bagaimana menerapkannya dalam kasus ini. Idealnya, saya juga ingin dapat menghitung interval kepercayaan 90%. Setiap tips akan sangat dihargai.

EDIT: Mungkin saja pertanyaan di atas tidak memiliki jawaban. Tetapi ada juga penelitian lain yang menanyakan sampel acak orang-orang apakah mereka vegetarian dan berapa kali mereka menjadi vegetarian di masa lalu. Saya juga tahu usia semua orang dalam studi dan beberapa hal lainnya. Mungkin informasi ini dapat digunakan bersamaan dengan survei vegetarian saat ini untuk mendapatkan nilai tengah. Pada kenyataannya, penelitian yang saya bicarakan hanyalah satu bagian dari teka-teki, tetapi yang sangat penting dan saya ingin mendapatkan lebih banyak darinya.

— Saulius Šimčikas
sumber

Itu bukan opsi atm. Data ini jelas memberikan beberapa bukti untuk panjang kepatuhan, saya hanya tidak tahu bagaimana menggunakannya.

— Saulius Šimčikas

Setidaknya satu dari gambar Anda tampaknya telah hilang (403 kesalahan ketika saya menggunakan URL).

— barrycarter

@kjetilbhalvorsen Untuk masalah dalam tidak masalah jika vegetarian tetap menjadi vegetarian seumur hidup. Pada titik tertentu, mereka akan berhenti menjadi vegetarian, baik dengan makan daging atau mati.

— Pere

@kjetil Komentar "vegetarian asli" Anda terdengar agak seperti No True Scotsman . Definisi biasa seorang vegetarian tidak mengatakan apa-apa tentang apa yang mungkin terjadi di masa depan, atau tentang mengapa seseorang menjadi vegetarian, tetapi hanya tentang perilaku mereka pada saat atribut tersebut dipertimbangkan. Jika seseorang menjadi vegetarian sekarang, mereka menjadi vegetarian sekarang, untuk alasan apa pun mereka kebetulan menjadi vegetarian . Saya tidak berpikir perasaan pribadi kita tentang ide makan daging atau alasan mengapa kita mungkin merasa kita lakukan adalah pada topik di sini; mereka berada di tempat lain.

— Glen_b -Reinstate Monica

Karena orang yang vegetarian lebih lama lebih cenderung dipilih untuk muncul dalam sampel Anda, ini berarti bahwa fungsi kepadatan probabilitas data sampel Anda sebanding dengan satu dikurangi fungsi distribusi kumulatif dari panjang kepatuhan. Untuk membuat contoh dari contoh Anda, distribusi panjang adalah [0, 0,5, 0, 0,5] (50% terakhir untuk 1 tahun, 50% selama 3 tahun), memberikan CDF [0, 0,5, 0,5, 1 ], dengan satu minus yang menjadi [1, 0,5, 0,5, 0] yang sebanding dengan jumlah [2, 1, 1, 0] sampel Anda.

— PhiNotPi

Jawaban:

Biarkan menunjukkan pdf panjang kepatuhan vegetarianisme dalam populasi. Tujuan kami adalah memperkirakan $f_X(x)$ $X$ . $EX=\int_0^\infty xf_X(x)dx$

Dengan asumsi bahwa probabilitas untuk dimasukkan dalam survei (peristiwa ) sebanding dengan , pdf panjang kepatuhan antara mereka yang termasuk dalam survei adalah $S$ $X$ $X$ Pada saat dimasukkan dalam survei, hanya waktutelah berlalu. Bersyarat pada(dan), waktu yang dilaporkan menjadi vegetarian adalah seragam dengan pdf

f_{X | S} (x) = \frac{x f_{X} (x)}{\int x f_{X} (x) d x} = \frac{x f_{X} (x)}{E X} .

$f_{X|S}(x) = \frac{xf_X(x)}{\int x f_X(x) dx}=\frac{xf_X(x)}{EX}.$

Z

$Z$

X

$X$

S

$S$

Oleh karena itu, dengan menggunakan hukum probabilitas total, distribusi keseluruhan waktu

berlalu sebagai vegetarian di antara mereka yang termasuk dalam survei menjadi

f_{Z | X = x} (z) = \frac{1}{x}, 0 < z < x .

$f_{Z|X=x}(z) = \frac1x, 0<z<x.$

Z

$Z$

di mana

adalah cdf dari

. Karena

adalah variabel positif

dan juga

\begin{aligned} f_{Z} (z) & = \int_{z}^{\infty} f_{Z | X = x} (z) f_{X | S} (x) d x \\ = \int_{z}^{\infty} \frac{1}{x} \frac{x f_{X} (x)}{E X} d x \\ = \frac{1 - F_{X} (z)}{E X}, \end{aligned}

$\begin{align} f_Z(z) &= \int_z^\infty f_{Z|X=x}(z)f_{X|S}(x)dx \\&= \int_z^\infty \frac1x \frac{xf_X(x)}{EX}dx \\&= \frac{1-F_X(z)}{EX}, \end{align}$

F_{X} (z)

$F_X(z)$

X

$X$

X

$X$

F_{X} (0) = P (X \leq 0) = 0

$F_X(0)=P(X\le 0)=0$

f_{Z} (0) = 1 / E X

$f_Z(0)=1/EX$

$EX$ $f_Z(z)$ $z_1,z_2,\dots,z_n$ $z=0$ $f_Z(z)$ $z=0$ $\hat f_Z(0)$ $f_Z(z)$ $z=0$ $EX$ $\widehat{EX}=1/\hat f_Z(0)$

$f_Z(z)$ $f_X(0)=F_X'(0)>0$ $f_Z(0)$ $EX$ $EX$ dalam situasi seperti itu tanpa membuat lebih banyak asumsi tampaknya sulit, pada dasarnya karena waktu kepatuhan yang singkat hadir dalam situasi ini hampir tidak muncul dalam data yang diamati sebagai hasil dari pengambilan sampel yang bias.

$f_X(x)$

L (θ) = \prod_{i = 1}^{n} \frac{1 - F_{X} (z_{i}; θ)}{E X (θ)}

$L(\theta)=\prod_{i=1}^n \frac{1-F_X(z_i;\theta)}{EX(\theta)}$ numerik (kurva biru pada gambar di atas).

Kode R mensimulasikan data dan mengimplementasikan kedua metode:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)

— Jarle Tufto
sumber

Hei, terima kasih banyak untuk menjawab, saya belum meluangkan waktu untuk memahami semuanya, hanya ingin menambahkan bahwa saya tahu distribusi umum dari studi lain. (satu-satunya masalah dengan penelitian lain adalah hal itu membuat orang memilih antara opsi berapa lama mereka sudah vegetarian dan salah satu pilihan adalah "Lebih dari 10 tahun" dan rata-rata hampir seluruhnya bergantung pada berapa lama lebih dari 10 tahun orang tetap vegetarian)

— Saulius Šimčikas

Ok, saya harap tidak ada kekurangan utama dalam pemikiran saya. Saya melihat bahwa @PhiNotPi tiba di pdf yang sama dalam komentarnya kepada OP.

— Jarle Tufto

@ Saulius Jika Anda memiliki akses ke set data sensor kanan kedua dan distribusi yang mendasarinya memang dapat dianggap identik, maka solusi yang ideal adalah dengan menggabungkan kemungkinan untuk kumpulan data tersebut (yang mudah untuk dituliskan jika hanya beberapa sampling disensor benar) dan kemudian memaksimalkan kemungkinan bersama.

— Jarle Tufto

yang tidak disensor dengan benar: imgur.com/U8ofZ3A Saya sekarang menyadari bahwa saya harus menyebutkan ini di awal tetapi saya berpikir bahwa masalah saya memiliki solusi yang lebih mudah ...

— Saulius Šimčikas

@ Saulius Data-data itu disensor interval. Sekali lagi, sangat mudah untuk menghitung kemungkinan.

— Jarle Tufto

(Saya sudah ragu-ragu untuk menambahkan ini, seperti yang terlihat @JarleTufto telah memberikan pendekatan matematika yang bagus; Namun saya tidak cukup pintar untuk memahami jawabannya, dan sekarang saya ingin tahu apakah itu pendekatan yang persis sama, atau jika pendekatan yang saya jelaskan di bawah ini memiliki kegunaan.)

Apa yang akan saya lakukan adalah menebak panjang rata-rata, dan menebak beberapa distribusi di sekitarnya, dan kemudian, untuk masing-masing, membuat simulasi populasi saya, dan sampel secara teratur.

Anda berkata untuk berasumsi bahwa populasi total vegetarian tidak berubah, jadi setiap kali model saya menghentikan seseorang, seorang vegetarian baru diciptakan. Kita perlu menjalankan model untuk beberapa tahun yang disimulasikan untuk memastikan modelnya telah stabil, sebelum kita dapat mulai mengambil sampel. Setelah itu saya pikir Anda dapat mengambil sampel setiap bulan yang disimulasikan (*) sampai Anda memiliki cukup untuk membentuk interval kepercayaan 90% Anda.

*: atau resolusi apa pun yang berfungsi dengan data Anda. Jika orang memberikan jawaban mereka ke tahun terdekat, pengambilan sampel setiap 6 bulan sudah cukup baik.

Dari semua dugaan Anda, Anda memilih mean dan distribusi yang (rata-rata atas semua sampel yang Anda ambil) memberi Anda hasil terdekat dengan apa yang diberikan survei kehidupan nyata Anda.

Saya akan mengulangi dugaan saya beberapa kali, untuk mempersempit pada pertandingan terbaik.

Distribusi terbaik mungkin tidak memuncak tunggal. Mantan vegetarian yang saya pikir bisa berhenti karena perubahan gaya hidup utama (biasanya menikah / hidup dengan negara yang tidak vegetarian, atau pindah negara, atau jatuh sakit parah dan dokter menyarankan itu mungkin diet); di sisi lain adalah kekuatan kebiasaan: semakin lama Anda menjadi vegetarian, semakin besar kemungkinan Anda untuk menjadi seorang vegetarian. Jika data Anda menanyakan usia dan status hubungan, kami dapat membuangnya dalam simulasi di atas juga.

— Darren Cook
sumber