Saya memiliki tiga fitur yang saya gunakan untuk menyelesaikan masalah klasifikasi. Awalnya, fitur-fitur ini menghasilkan nilai boolean, jadi saya bisa mengevaluasi redundansi mereka dengan melihat berapa banyak set klasifikasi positif dan negatif yang tumpang tindih. Sekarang saya telah memperluas fitur untuk menghasilkan nilai nyata (skor), dan saya ingin menganalisis redundansi mereka lagi, tetapi saya benar-benar bingung bagaimana cara melakukannya. Adakah yang bisa memberi saya petunjuk atau ide tentang bagaimana cara melakukannya?
Saya tahu pertanyaan ini sangat samar, itu karena saya tidak memiliki pemahaman statistik yang sangat kuat. Jadi, jika Anda tidak memiliki jawaban untuk saya, mungkin Anda memiliki beberapa pertanyaan yang dapat membantu saya memahami dengan lebih baik.
Sunting: Saat ini saya sedang menelusuri Wikipedia tentang masalah ini, saya merasa bahwa yang saya inginkan adalah koefisien korelasi, tetapi saya masih ragu apakah ini pendekatan yang tepat, dan mana dari banyak koefisien yang tersedia yang sesuai.
Sunting 2: Dalam kasus boolean, saya pertama kali membuat untuk setiap fitur set sampel yang memang benar. Kemudian, korelasi antara dua fitur adalah ukuran persimpangan set ini terhadap ukuran gabungan set ini. Jika nilai ini adalah 1, mereka sepenuhnya berlebihan, karena selalu sama. Jika 0, mereka tidak pernah sama.