Saya mencoba menerapkan ide informasi timbal balik ke pemilihan fitur, seperti yang dijelaskan dalam catatan kuliah ini (di halaman 5).
Platform saya adalah Matlab. Satu masalah yang saya temukan ketika menghitung informasi timbal balik dari data empiris adalah bahwa angka selalu bias ke atas. Saya menemukan sekitar 3 ~ 4 file berbeda untuk menghitung MI pada Matlab Central dan mereka semua memberikan angka besar (seperti> 0,4) ketika saya memberi makan dalam variabel acak independen.
Saya bukan ahli, tetapi masalahnya tampaknya bahwa jika Anda hanya menggunakan kepadatan bersama dan marginal untuk menghitung MI, bias diperkenalkan dalam proses karena MI menurut definisi positif. Adakah yang punya saran praktis tentang cara memperkirakan informasi timbal balik secara akurat?
Pertanyaan terkait adalah, dalam praktiknya, bagaimana orang benar-benar menggunakan MI untuk memilih fitur? Tidak jelas bagi saya bagaimana menghasilkan nilai ambang karena MI secara teori tidak terikat. Atau apakah orang hanya memberi peringkat fitur oleh MI dan mengambil fitur top k?