Saya telah melakukan percobaan di mana saya telah mengumpulkan pengukuran dari sejumlah peserta. Setiap titik data yang relevan memiliki dua variabel, keduanya kategorikal: pada kenyataannya, setiap variabel memiliki dua nilai yang mungkin (jawaban untuk dua pertanyaan ya / tidak). Saya ingin uji hipotesis statistik untuk memeriksa apakah tampaknya ada korelasi antara kedua variabel ini.
Jika saya memiliki satu titik data per peserta, saya bisa menggunakan tes Fisher pada hasilnya tabel kontingensi. Namun, saya memiliki beberapa titik data per peserta. Akibatnya, uji eksak Fisher tampaknya tidak berlaku, karena titik data dari satu peserta tidak independen. Misalnya, jika saya memiliki 10 titik data dari Alice, itu mungkin tidak independen, karena semuanya berasal dari orang yang sama. Uji eksak Fisher mengasumsikan bahwa semua titik data diambil sampelnya secara independen, sehingga asumsi uji eksak Fisher tidak terpenuhi dan tidak tepat untuk digunakan dalam pengaturan ini (mungkin memberikan laporan yang tidak dapat dibenarkan tentang signifikansi statistik).
Apakah ada teknik untuk menangani situasi ini?
Pendekatan yang saya pertimbangkan:
Salah satu alternatif yang masuk akal adalah menggabungkan semua data dari masing-masing peserta menjadi satu nomor, dan kemudian menggunakan beberapa tes independensi lainnya. Misalnya, untuk setiap peserta, saya bisa menghitung fraksi jawaban Ya untuk pertanyaan pertama dan fraksi jawaban Ya untuk pertanyaan kedua, memberi saya dua bilangan real per peserta, dan kemudian menggunakan uji momen produk Pearson untuk menguji korelasi antara dua angka ini. Namun, saya tidak yakin apakah ini pendekatan yang baik. (Sebagai contoh, saya khawatir bahwa rata-rata / menghitung membuang data dan ini mungkin kehilangan daya, karena agregasi; atau bahwa tanda-tanda ketergantungan mungkin hilang setelah agregasi.)
Saya sudah membaca tentang model multi-level, yang kedengarannya dimaksudkan untuk menangani situasi ini ketika variabel yang mendasarinya kontinu (misalnya, bilangan real) dan ketika model linier sesuai. Namun, di sini saya memiliki dua variabel kategori (jawaban untuk pertanyaan Ya / Tidak), sehingga tampaknya tidak berlaku di sini. Apakah ada teknik setara yang dapat diterapkan pada data kategorikal?
Saya juga telah membaca sedikit tentang desain tindakan berulang di Wikipedia, tetapi artikel Wikipedia berfokus pada studi longitudinal. Itu tampaknya tidak berlaku di sini: jika saya memahaminya dengan benar, tindakan berulang tampaknya berfokus pada efek karena berlalunya waktu (di mana perkembangan waktu mempengaruhi variabel). Namun, dalam kasus saya, perjalanan waktu seharusnya tidak memiliki efek yang relevan. Beritahu saya jika saya salah paham.
Pada refleksi lebih lanjut, pendekatan lain yang terjadi pada saya adalah dengan menggunakan tes permutasi. Untuk setiap peserta, kami dapat secara acak mengubah jawaban mereka ke pertanyaan 1 dan (secara mandiri) mengijinkan jawaban mereka untuk pertanyaan 2, menggunakan permutasi yang berbeda untuk setiap peserta. Namun, tidak jelas bagi saya statistik uji apa yang cocok di sini, untuk mengukur hasil mana yang "setidaknya sama ekstrimnya" dengan hasil yang diamati.
Terkait: Bagaimana memperlakukan dengan benar beberapa titik data per masing-masing subjek (tetapi itu juga berfokus pada model linier untuk variabel kontinu, bukan data kategorikal), Apakah Pengukuran dilakukan pada pasien yang sama independen? (sama)