Pembaruan 2014-01-15
Saya menyadari bahwa saya tidak menjawab pertanyaan asli Danica tentang apakah margin kesalahan untuk proporsi yang disesuaikan secara tidak langsung dinonaktifkan akan lebih besar atau lebih kecil dari margin kesalahan untuk tingkat yang sama di ACS. Jawabannya adalah: jika proporsi kategori perusahaan tidak berbeda secara drastis dari proporsi ACS negara, margin kesalahan yang diberikan di bawah ini akan lebih kecil dari margin kesalahan ACS. Alasannya: tingkat tidak langsung memperlakukan orang kategori pekerjaan organisasi menghitung (atau proporsi relatif) sebagai angka tetap . Estimasi proporsi ACS yang dinonaktifkan mengharuskan, pada dasarnya, estimasi proporsi tersebut, dan margin kesalahan akan meningkat untuk mencerminkan hal ini.
Untuk mengilustrasikannya, tulis nilai yang dinonaktifkan sebagai:
P^adj=∑ninpi^
di mana adalah taksiran laju penonaktifan dalam kategori di ACS.p^ii
Di sisi lain, tingkat perkiraan ACS adalah, berlaku:
P^acs=∑(NiN)ˆpi^
di mana dan masing-masing kategori populasi dan total keseluruhan dan adalah proporsi populasi dalam kategori .NiNNi/Ni
Dengan demikian, kesalahan standar untuk tingkat ACS akan lebih besar karena kebutuhan untuk memperkirakan selain .Ni/Npi
Jika proporsi kategori organisasi dan proporsi perkiraan populasi sangat berbeda, maka ada kemungkinan . Dalam contoh dua kategori yang saya buat, kategori diwakili dalam proporsi dan . Kesalahan standar untuk estimasi proporsi yang dinonaktifkan adalah .SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677
Jika saya menganggap 0,7345 dan 0,2655 sebagai nilai tetap dan (pendekatan penyesuaian tidak langsung), , jauh lebih kecil. Jika sebaliknya, dan , , hampir sama dengan Pada kondisi ekstrem dan , . Saya akan terkejut jika proporsi kategori organisasi dan populasi berbeda secara drastis. Jika tidak, saya pikir aman untuk menggunakan margin kesalahan ACS sebagai estimasi konservatif, mungkin sangat konservatif, dari margin kesalahan sebenarnya.n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001S E ( P a d j ) = 0,079n2/n=0.999SE(P^adj)=0.079
Pembaruan 2014-01-14
Jawaban singkat
Menurut pendapat saya, tidak akan bertanggung jawab untuk menyajikan statistik seperti itu tanpa CI atau margin of error (setengah panjang CI). Untuk menghitungnya, Anda perlu mengunduh dan menganalisis ACS Microdata Sample Public Use (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Jawaban panjang
Ini sebenarnya bukan pembobotan ACS. Ini adalah versi standardisasi tidak langsung, prosedur standar dalam epidemiologi (google atau lihat teks epi). Dalam hal ini tingkat kecacatan pekerjaan (kategori) ACS ditimbang oleh jumlah karyawan kategori pekerjaan organisasi. Ini akan menghitung jumlah orang cacat yang diharapkan dalam organisasi E
, yang dapat dibandingkan dengan jumlah yang diamati O
. Metrik yang biasa untuk perbandingan adalah rasio standar R= (O/E)
. (Istilah yang biasa adalah "SMR", untuk "rasio kematian standar", tetapi di sini "hasil" adalah kecacatan.). R
juga rasio tingkat kecacatan yang diamati (O/n)
dan tingkat standar tidak langsung (E/n)
, di mana n
jumlah karyawan organisasi.
Dalam hal ini, tampaknya hanya CI untuk E
atau E/n
akan diperlukan, jadi saya akan mulai dengan itu:
Jika
n_i = the organization employee count in job category i
p_i = disability rate for job category i in the ACS
Kemudian
E = sum (n_i p_i)
Perbedaannya E
adalah:
var(E) = nn' V nn
di mana nn
vektor kolom dari kategori organisasi dihitung dan V
merupakan estimasi varians-kovarians dari tingkat kecacatan kategori ACS.
Juga, sepele, se(E) = sqrt(var(E))
dan se(E/n) = se(E)/n
.
dan CI 90% untuk E adalah
E ± 1.645 SE(E)
Bagi dengan n
untuk mendapatkan CI untuk E/n
.
Untuk memperkirakan, var(E)
Anda perlu mengunduh dan menganalisis data PUMS Sampel Penggunaan Umum (PUMS) ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Saya hanya bisa berbicara tentang proses komputasi var(E)
di Stata. Karena saya tidak tahu apakah itu tersedia untuk Anda, saya akan menunda detailnya. Namun seseorang yang memiliki pengetahuan tentang kemampuan survei R atau (mungkin) SAS juga dapat memberikan kode dari persamaan di atas.
Interval Keyakinan untuk rasio R
Interval kepercayaan untuk R
biasanya didasarkan pada asumsi Poisson O
, tetapi asumsi ini mungkin salah.
Kita dapat mempertimbangkan O
dan E
menjadi mandiri, jadi
log R = log(O) - log(E) ->
var(log R) = var(log O) + var(log(E))
var(log(E))
dapat dihitung sebagai satu langkah Stata lagi setelah perhitungan var(E)
.
Di bawah asumsi kemerdekaan Poisson:
var(log O) ~ 1/E(O).
Sebuah program seperti Stata bisa cocok, katakanlah, model binomial negatif atau model linier umum dan memberikan Anda istilah varians yang lebih akurat.
Perkiraan 90% CI log R
adalah
log R ± 1.645 sqrt(var(log R))
dan titik akhir dapat secara eksponensial untuk mendapatkan CI R
.