Menguji tabel kontingensi 2x2: pria / wanita, dipekerjakan / menganggur

Saya mengambil jurusan sains, dan pengetahuan saya tentang statistik agak dangkal.

Masalah

Saya harus menemukan satu set data dan menganalisanya dengan kemampuan terbaik saya sebagai tugas untuk kursus statistik saya. Ini bukan lagi tugas, saya hanya perlu bantuan dalam menafsirkan mengapa saya melakukan analisis saya dengan buruk dan apa yang seharusnya saya lakukan.

Saya menggunakan satu set data kategori tingkat pekerjaan di Selandia Baru, berencana untuk mengaturnya dalam tabel kontingensi 2x2 dan menggunakan uji chi-squared Pearson dan uji Fisher untuk menguji apakah gender berkorelasi dengan pekerjaan.

Apa yang ingin saya jawab

Pahami mengapa saya tidak bisa menggunakan uji chi-square dan uji Fisher untuk masalah ini dan belajar apa yang seharusnya saya gunakan. "Odds-ratio sebagai fungsi waktu", saya kira? Adakah tautan yang bermanfaat tentang bagaimana melakukannya, dengan sempurna di R?
Pahami komentar "korelasi berurutan" mengenai bagian pertama penugasan dan apa yang seharusnya saya lakukan.

Cara untuk membantu saya # 1 (lebih pendek)

Begitulah tampilan data kami (berdasarkan sensus):

                 Male     Female
Employed      1201600    1060200
Unemployed      73300      75000

Saya melakukan uji chi-squared dan uji Fisher pada R, dengan asumsi bahwa nilai-p yang diperoleh akan memberi tahu saya kemungkinan distribusi pekerjaan semacam itu (atau satu lagi yang ekstrem) mengingat nol itu benar (laki-laki dan perempuan) memiliki peluang yang sama untuk mendapatkan pekerjaan). Saya mendapat nilai p yang sangat kecil, dan uji Fisher memberi saya rasio odds 1,16, yang berarti ada korelasi, dan laki-laki khususnya 16% lebih mungkin untuk mendapatkan pekerjaan di NZ.

Namun, menurut dosen saya, saya menggunakan tes ini dengan tidak tepat. Saya tidak begitu mengerti mengapa, tapi saya pikir dia mengatakan bahwa tes ini mengasumsikan independensi, dan karena ada sejumlah pekerjaan yang tersedia di NZ, sampel kami tidak independen ... Saya tidak yakin tentang hal itu (Anda dapat melihat tanggapannya dikutip di bawah).

Cara untuk membantu saya # 2 (lebih lama)

Jika Anda memiliki waktu luang, saya akan sangat menghargainya jika Anda dapat melihat keseluruhan penugasan. Saya juga akan memberikan umpan balik dosen, jadi jika Anda bisa menafsirkannya untuk saya, itu akan bagus! Tugas ini sangat mudah untuk ahli matematika / ahli statistik, hanya ada dua pertanyaan di sana, hanya penuh dengan padding di mana saya mencoba menunjukkan bahwa saya tahu apa yang saya lakukan, Anda dapat melewatkan sebagian besar dari itu.

Berikut tautan ke file PDF dengan penugasan yang saya tidak berhasil: statistik assignment.pdf .

Umpan balik dosen

Gambar 1 Anda menunjukkan korelasi berurutan yang merupakan alasan sebenarnya mengapa regresi linier tidak berfungsi. Baik uji fisher maupun chi square tidak baik untuk tabel 2x2 Anda. Ini karena Anda ingin menguji homogenitas, tetapi Anda menolak nol karena tidak merdeka (yang tidak menarik). Perbedaan antara keduanya tidak relevan di sini (mereka asimtotis identik dalam hal apa pun). Anda dapat merencanakan rasio odds sebagai fungsi waktu.

hypothesis-testing chi-squared fishers-exact

— Th334
sumber

Anda dapat menambahkan tag belajar-sendiri

— tomka

@ Tomka Saya tidak setuju dengan tag belajar sendiri dalam kasus ini dan telah menghapusnya. Pertanyaan ini berkaitan dengan data aktual dan menyangkut masalah asli, bukan hanya situasi buku teks biasa. Kriteria untuk tag belajar mandiri bukanlah apakah pertanyaan itu berasal dari pekerjaan di kelas tetapi lebih pada sifat pertanyaan itu sendiri. Silakan kunjungi utas utas meta.stats.stackexchange.com/questions/1904 dan meta.stats.stackexchange.com/questions/1172 untuk informasi lebih lanjut atau untuk membahas ini.

— whuber

Apakah angka-angka pekerjaan itu didasarkan pada sensus atau file survei tertimbang (yaitu sampel)?

— probabilityislogic

@ Tomka dan whuber, aku sebenarnya tidak keberatan, tapi ini bukan pekerjaan rumah yang khas, kalau itu yang kau maksud. Bisa juga berupa disertasi dalam arti bahwa satu-satunya instruksi adalah mengumpulkan data dan menganalisisnya.

— Th334

@probabilityislogic, poin bagus, sensusnya (negara kecil). Apakah ini memengaruhi cara kita mendekati data?

— Th334

Jawaban:

Beberapa tanggapan langsung:

1) Dosen Anda berarti bahwa data menunjukkan autokorelasi. Ini mengarah pada estimasi koefisien regresi yang tidak efisien dalam regresi linier sederhana. Tergantung pada apakah itu tercakup dalam kursus Anda, itu kesalahan.

2) Mungkin saya tidak mengerti masalah sepenuhnya, tetapi IMAO tes chi-square independen digunakan dengan benar di sini, kecuali untuk dua masalah lain:

3) Tes chi-square Anda memiliki kekuatan yang sangat besar, karena ukuran sampel. Sulit tidak signifikan bahkan jika efeknya sangat kecil. Selain itu, tampaknya Anda memiliki sensus penduduk. Dalam situasi ini, kesimpulan statistik tidak perlu, karena Anda mengamati semua unit populasi. Tapi bukan itu yang dikatakan dosen.

4) Anda tampaknya mengumpulkan data lintas titik waktu. Anda harus benar-benar menguji satu kali per titik waktu, karena jika tidak, Anda mengumpulkan efek dari waktu ke waktu (Anda menghitung unit beberapa kali). Tapi bukan itu yang dikatakan dosen.

Dosen sebenarnya menyatakan bahwa Anda ingin menguji nol dari homogenitas, di mana Anda menguji nol dari independensi. Jadi apa yang dia maksud dengan homogenitas?

Saya kira dia mengacu pada uji homogenitas marginal dalam data uji berpasangan. Tes ini digunakan untuk menilai apakah ada perubahan lintas waktu (tindakan berulang). Namun ini bukan yang ingin Anda nilai sejak awal. Dugaan saya adalah bahwa dia tidak mengerti Anda ingin menguji apakah jenis kelamin dan pekerjaan pada titik waktu x terkait. Mungkin dia juga mencoba menyarankan bahwa apa yang harus Anda uji adalah perubahan sepanjang waktu (atau tidak ada perubahan, dalam hal ini kemungkinan berulang berulang akan disebut homogen memang).

— Tomka
sumber

1) Bisakah saya mendapatkan deskripsi cepat (atau tautan) tentang apa itu autokorelasi dan bagaimana hal itu mengarah ke bias? 3) Jadi, apakah ada uji statistik yang tidak sesuai di sini karena sensus? Bagaimana saya bisa menjawab pertanyaan saya? 4) Tes apa yang Anda bicarakan: regresi atau chi-squared? Dalam yang terakhir saya fokus pada titik data terakhir saja - sensus terbaru.

— Th334

@ Jerman 1) Saya membuat kesalahan: parameter regresi akan menjadi tidak efisien yang berarti bahwa penaksir OLS bukan penaksir terbaik lagi, yaitu variansnya mungkin sangat besar yang mengarah ke tes tidak signifikan palsu. Mungkin ini adalah awal untuk beberapa perincian: stats.stackexchange.com/questions/19321/… 3) Ya, jika Anda mengamati semua unit populasi, tidak perlu untuk inferensi tentang parameter populasi yang Anda amati tanpa kesalahan pengambilan sampel 4) Chi- kuadrat. Dalam hal itu komentar 4 tidak berlaku.

— tomka

Ini adalah umpan balik yang sangat buram - terdengar bagi saya seperti mereka mengatakan "Anda tidak melakukannya dengan baik kali ini - berusaha lebih keras lain kali" Satu-satunya cara untuk memahaminya adalah berani, dan minta dosen Anda mengadakan pertemuan untuk membahas hal-hal lebih lanjut.

Dosen Anda tampaknya kecewa dengan pilihan pertanyaan penelitian Anda, mungkin? Saya pikir mereka mungkin telah mencari beberapa "kata buzz" seperti "auto / serial- / korelasi" "seri waktu" "efek musiman / penyesuaian" "siklus bisnis" "tren". Saya tidak tahu apa yang diharapkan Anda ketahui saat melakukan tugas.

Bagaimanapun, inilah yang saya pikirkan.

Tugas Anda menunjukkan kemampuan yang baik untuk melakukan tes statistik, tetapi dari perspektif analisis data menunjukkan pilihan contoh yang aneh. Analisis harus tentang bercerita. Secara pribadi saya menyukai pilihan pekerjaan pria vs wanita sebagai tema. Namun, saya akan menempatkan "contoh kedua" pertama, karena ini adalah pertanyaan yang lebih sederhana "apakah ada perbedaan gender sekarang? ". Setelah menunjukkan bahwa ada perbedaan jelas (seperti yang Anda lakukan), Anda kemudian dapat pergi ke pertanyaan yang lebih kompleks dari" apakah ada perbedaan gender yang konsisten dari waktu ke waktu? "Tentu saja pertanyaan ini mungkin berada di luar ruang lingkup "kotak alat statistik" Anda untuk menjawab secara formal. Salah satu cara Anda dapat melakukan ini dengan regresi linier adalah dengan memodelkan peluang dipekerjakan vs pengangguran (atau log-odds jika ini memberikan kesesuaian yang lebih baik) untuk pria dan wanita. memiliki model ols sederhana

y_{i} = β_{0} + β_{1} x_{i} + e_{i}

$y_i=\beta_0+\beta_1x_i +e_i$

Di mana adalah rasio "dipekerjakan" / "menganggur" dan adalah variabel dummy sama dengan satu jika rasio adalah untuk laki-laki dan nol sebaliknya, dan adalah residual. Anda kemudian menguji apakah . Anda dapat mengambil model lebih lanjut, dan memasukkan kovariat waktu serta interaksi antara waktu dan jenis kelamin. Ini semua adalah bagian dari membangun pekerjaan analisis Anda sebagai sebuah cerita ("ceritanya mengental" untuk berbicara). Ini tentu saja tergantung pada pengetahuan tentang regresi berganda (yang mungkin di luar konten kursus). $y_i$ $x_i$ $e_i$ $\beta_1=0$

Saya tidak akan menggunakan contoh pertama itu sama sekali, tentu saja regresi linier tidak tepat. Dosen Anda (mungkin) ingin melihat contoh penggunaan regresi linier yang baik. Tentu saja, contoh ols yang saya berikan di atas mungkin juga tidak sesuai - ini tergantung pada penilaian model.

— probabilityislogic
sumber

@probabilityslogic, saya akan memberi tahu Anda apa yang seharusnya saya ketahui. Dalam dua kursus statistik berbeda saya digabungkan, kami membahas dengan berbagai tingkat rincian berikut ini: distribusi bi (multi) nominal, distribusi normal, uji, anova, tepat chi-squared / fisher, regresi linier / logistik, distribusi hipogeometrik, teorema Bayes , distribusi beta. Itu dia. Apakah saya memiliki alat yang lebih baik untuk menangani pertanyaan pilihan saya daripada yang saya gunakan?

— Th334

@probabilityslogic, saya tidak begitu mengerti bagaimana melakukan "regresi linier untuk memodelkan peluang dipekerjakan vs menganggur untuk pria dan wanita". Bisakah Anda mencoba menjelaskannya menggunakan angka-angka dari data saya, atau menunjukkan kepada saya idiom R, atau menautkan saya dengan apa yang harus saya baca jika Anda bisa, atau menyarankan agar saya mengajukan pertanyaan baru? Sejauh persamaan teoritis berjalan semua saya mengerti bahwa dalam contoh Anda beta-0 adalah intersep kami, beta-1 adalah kemiringan kami, x adalah data kami, dan e adalah beberapa kesalahan ... yang sama dengan mengatakan bahwa saya tidak mengerti apa-apa . Sungguh memalukan, saya minta maaf.

— Th334