Saya mengambil jurusan sains, dan pengetahuan saya tentang statistik agak dangkal.
Masalah
Saya harus menemukan satu set data dan menganalisanya dengan kemampuan terbaik saya sebagai tugas untuk kursus statistik saya. Ini bukan lagi tugas, saya hanya perlu bantuan dalam menafsirkan mengapa saya melakukan analisis saya dengan buruk dan apa yang seharusnya saya lakukan.
Saya menggunakan satu set data kategori tingkat pekerjaan di Selandia Baru, berencana untuk mengaturnya dalam tabel kontingensi 2x2 dan menggunakan uji chi-squared Pearson dan uji Fisher untuk menguji apakah gender berkorelasi dengan pekerjaan.
Apa yang ingin saya jawab
- Pahami mengapa saya tidak bisa menggunakan uji chi-square dan uji Fisher untuk masalah ini dan belajar apa yang seharusnya saya gunakan. "Odds-ratio sebagai fungsi waktu", saya kira? Adakah tautan yang bermanfaat tentang bagaimana melakukannya, dengan sempurna di R?
- Pahami komentar "korelasi berurutan" mengenai bagian pertama penugasan dan apa yang seharusnya saya lakukan.
Cara untuk membantu saya # 1 (lebih pendek)
Begitulah tampilan data kami (berdasarkan sensus):
Male Female
Employed 1201600 1060200
Unemployed 73300 75000
Saya melakukan uji chi-squared dan uji Fisher pada R, dengan asumsi bahwa nilai-p yang diperoleh akan memberi tahu saya kemungkinan distribusi pekerjaan semacam itu (atau satu lagi yang ekstrem) mengingat nol itu benar (laki-laki dan perempuan) memiliki peluang yang sama untuk mendapatkan pekerjaan). Saya mendapat nilai p yang sangat kecil, dan uji Fisher memberi saya rasio odds 1,16, yang berarti ada korelasi, dan laki-laki khususnya 16% lebih mungkin untuk mendapatkan pekerjaan di NZ.
Namun, menurut dosen saya, saya menggunakan tes ini dengan tidak tepat. Saya tidak begitu mengerti mengapa, tapi saya pikir dia mengatakan bahwa tes ini mengasumsikan independensi, dan karena ada sejumlah pekerjaan yang tersedia di NZ, sampel kami tidak independen ... Saya tidak yakin tentang hal itu (Anda dapat melihat tanggapannya dikutip di bawah).
Cara untuk membantu saya # 2 (lebih lama)
Jika Anda memiliki waktu luang, saya akan sangat menghargainya jika Anda dapat melihat keseluruhan penugasan. Saya juga akan memberikan umpan balik dosen, jadi jika Anda bisa menafsirkannya untuk saya, itu akan bagus! Tugas ini sangat mudah untuk ahli matematika / ahli statistik, hanya ada dua pertanyaan di sana, hanya penuh dengan padding di mana saya mencoba menunjukkan bahwa saya tahu apa yang saya lakukan, Anda dapat melewatkan sebagian besar dari itu.
Berikut tautan ke file PDF dengan penugasan yang saya tidak berhasil: statistik assignment.pdf .
Umpan balik dosen
Gambar 1 Anda menunjukkan korelasi berurutan yang merupakan alasan sebenarnya mengapa regresi linier tidak berfungsi. Baik uji fisher maupun chi square tidak baik untuk tabel 2x2 Anda. Ini karena Anda ingin menguji homogenitas, tetapi Anda menolak nol karena tidak merdeka (yang tidak menarik). Perbedaan antara keduanya tidak relevan di sini (mereka asimtotis identik dalam hal apa pun). Anda dapat merencanakan rasio odds sebagai fungsi waktu.