Adapun judulnya, idenya adalah menggunakan informasi timbal balik, di sini dan setelah MI, untuk memperkirakan "korelasi" (didefinisikan sebagai "seberapa banyak yang saya ketahui tentang A ketika saya tahu B") antara variabel kontinu dan variabel kategorikal. Saya akan memberi tahu Anda pemikiran saya tentang masalah ini sebentar lagi, tetapi sebelum saya menyarankan Anda untuk membaca pertanyaan / jawaban lain ini di CrossValidated karena berisi beberapa informasi yang berguna.
Sekarang, karena kita tidak dapat berintegrasi dengan variabel kategorikal, kita perlu memutuskan yang berkelanjutan. Ini dapat dilakukan dengan cukup mudah di R, yang merupakan bahasa yang telah saya gunakan sebagian besar analisis saya. Saya lebih suka menggunakan cut
fungsi, karena ini juga alias nilai-nilai, tetapi opsi lain juga tersedia. Intinya adalah, kita harus memutuskan apriori jumlah "tempat sampah" (keadaan diskrit) sebelum diskritisasi dapat dilakukan.
Masalah utama, bagaimanapun, adalah satu lagi: MI berkisar dari 0 hingga ∞, karena merupakan ukuran yang tidak standar unit mana yang merupakan bit. Itu membuat sangat sulit untuk menggunakannya sebagai koefisien korelasi. Ini dapat sebagian diselesaikan dengan menggunakan koefisien korelasi global , di sini dan setelah GCC, yang merupakan versi MI standar; GCC didefinisikan sebagai berikut:
Referensi: rumusnya adalah dari Mutual Information sebagai Alat Nonlinier untuk Menganalisis Globalisasi Pasar Saham oleh Andreia Dionísio, Rui Menezes & Diana Mendes, 2010.
GCC berkisar dari 0 hingga 1, dan karenanya dapat dengan mudah digunakan untuk memperkirakan korelasi antara dua variabel. Masalah terpecahkan, bukan? Yah, agak. Karena semua proses ini sangat bergantung pada jumlah 'tempat sampah' yang kami putuskan untuk digunakan selama diskritisasi. Di sini hasil percobaan saya:
Pada sumbu y, Anda memiliki GCC dan pada sumbu x Anda memiliki jumlah 'nampan' yang saya putuskan untuk digunakan untuk diskritisasi. Dua baris mengacu pada dua analisis berbeda yang saya lakukan pada dua dataset berbeda (meskipun sangat mirip).
Tampaknya bagi saya bahwa penggunaan MI pada umumnya dan GCC pada khususnya masih kontroversial. Namun, kebingungan ini mungkin akibat kesalahan dari pihak saya. Apa pun masalahnya, saya ingin mendengar pendapat Anda tentang masalah ini (juga, apakah Anda memiliki metode alternatif untuk memperkirakan korelasi antara variabel kategori dan variabel kontinu?).