Saya melakukan penelitian tentang game edukasi, dan beberapa proyek saya saat ini melibatkan menggunakan data dari BoardGameGeek ( BGG ) dan VideoGameGeek (VGG) untuk menguji hubungan antara elemen desain game (yaitu, "diatur dalam Perang Dunia II", "melibatkan rolling dadu" ) dan peringkat pemain dari game-game tersebut (yaitu skor dari 10). Masing-masing elemen desain ini berkorespondensi dengan tag pada sistem BGG atau VGG, sehingga setiap elemen pada dasarnya adalah variabel dikotomis. Gim memiliki 1 untuk setiap tag yang ada dalam database untuknya, dan 0 untuk setiap tag yang tidak ada.
Ada lusinan tag ini, jadi saya ingin menggunakan exploratory factor analysis (EFA) untuk menghasilkan sejumlah "genre" yang dapat dikelola yang menangkap pola dalam desain game. Berkonsultasi dengan beberapa sumber, saya mengerti bahwa karena saya bekerja dengan variabel dikotomis , saya harus menggunakan korelasi polikorik ( tetrachoric , terutama di sini) daripada yang Pearson ketika datang dengan faktor-faktor saya (ada juga pilihan lain — seperti analisis sifat laten— di luar sana, tapi ini yang saya jelajahi sekarang).
Karena penasaran, saya datang dengan dua set faktor, satu menggunakan korelasi Pearson dan yang lainnya menggunakan korelasi polikorik (jumlah faktor yang sama setiap kali). Masalah saya adalah bahwa faktor-faktor yang dihitung menggunakan korelasi Pearson jauh lebih masuk akal dan lebih mudah diinterpretasikan daripada faktor-faktor yang dihitung menggunakan korelasi polikorik. Dengan kata lain, "genre" dari set faktor pertama masuk akal secara intuitif dan sesuai dengan pemahaman saya tentang bagaimana game biasanya dirancang; itu tidak berlaku untuk faktor kedua.
Di satu sisi, saya ingin memastikan bahwa saya memenuhi asumsi tes yang saya gunakan, bahkan jika itu membuat hasil saya kurang cantik. Di sisi lain, saya merasa bahwa bagian dari tujuan analisis faktor dan (lebih luas) membangun model adalah untuk menghasilkan sesuatu yang bermanfaat, dan informasi yang lebih berguna muncul ketika saya "melanggar aturan." Apakah perlunya model yang berguna cukup untuk melebihi pelanggaran asumsi tes ini? Apa sebenarnya konsekuensi dari menggunakan korelasi Pearson daripada yang polikorik?