Di sini saya bertanya tentang apa yang biasanya dilakukan orang lain untuk menggunakan uji kuadrat untuk hasil pemilihan fitur dalam pembelajaran terawasi. Jika saya mengerti dengan benar, apakah mereka menguji independensi antara setiap fitur dan hasil, dan membandingkan nilai p antara tes untuk setiap fitur?
Di http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
Uji chi-squared Pearson adalah uji statistik yang diterapkan pada set data kategorikal untuk mengevaluasi seberapa besar kemungkinan perbedaan yang diamati antara set muncul secara kebetulan.
...
Tes independensi menilai apakah pengamatan berpasangan pada dua variabel, yang dinyatakan dalam tabel kontingensi , independen satu sama lain (misalnya, tanggapan polling dari orang-orang dari berbagai negara untuk melihat apakah kewarganegaraan seseorang terkait dengan respons).
Jadi haruskah dua variabel yang independensinya diuji dengan tes harus kategori, atau diskrit (memungkinkan dipesan selain kategori), tetapi tidak kontinu?
Dari http://scikit-learn.org/stable/modules/feature_selection.html , mereka
melakukan ke set data iris untuk mengambil hanya dua fitur terbaik.
Dalam dataset iris , semua fitur bernilai numerik dan kontinu, dan hasilnya adalah label kelas (kategorikal). Bagaimana uji independensi kuadrat berlaku untuk fitur kontinu?
Untuk menerapkan uji independensi kuadrat ke dalam dataset, pertama-tama kita harus mengkonversi fitur kontinu menjadi fitur-fitur diskrit, dengan cara binning (yaitu pertama-tama mendiskreditkan domain kontinu fitur ke dalam nampan, dan kemudian mengganti fitur dengan kemunculan nilai-nilai fitur di nampan. )?
Kemunculan di beberapa nampan membentuk fitur multinomial (baik terjadi atau tidak di setiap nampan), jadi uji independensi kuadrat dapat diterapkan pada mereka, bukan?
Ngomong-ngomong, saya kira, dapatkah kita menerapkan uji independensi kuadrat untuk fitur dan hasil apa pun , benar?
Untuk bagian hasil, kita dapat memilih fitur untuk tidak hanya klasifikasi, tetapi juga untuk regresi, dengan uji independensi chi square, dengan meniadakan hasil yang berkelanjutan, kan?
Situs belajar scikit juga mengatakan
Hitung statistik chi-squared antara setiap fitur dan kelas yang tidak negatif .
Skor ini dapat digunakan untuk memilih fitur n_fitur dengan nilai tertinggi untuk statistik uji chi-squared dari X, yang harus berisi hanya fitur-fitur non-negatif seperti boolean atau frekuensi (misalnya, jumlah term dalam klasifikasi dokumen), relatif terhadap kelas.
Mengapa tes ini memerlukan fitur yang tidak negatif?
Jika fitur tidak memiliki tanda tetapi bersifat kategoris atau diskrit, dapatkah tes masih berlaku untuk mereka? (Lihat bagian saya 1)
Jika fitur-fiturnya negatif, kita selalu dapat membuang domain mereka dan menggantinya dengan kemunculannya (seperti yang saya kira untuk menerapkan tes ke dataset iris, lihat bagian 2), kan?
Catatan: Saya kira Scikit Learn mengikuti prinsip-prinsip umum, dan itulah yang saya minta di sini. Jika tidak, maka itu masih baik-baik saja.