Uji chi-square adalah uji statistik independensi untuk menentukan ketergantungan dua variabel. Ini berbagi kesamaan dengan koefisien determinasi, R². Namun, uji chi-square hanya berlaku untuk data kategorikal atau nominal, sedangkan R² hanya berlaku untuk data numerik.
Dari definisi, chi-square kita dapat dengan mudah menyimpulkan penerapan teknik chi-square dalam pemilihan fitur. Misalkan Anda memiliki variabel target (yaitu, label kelas) dan beberapa fitur lainnya (variabel fitur) yang menjelaskan setiap sampel data. Sekarang, kami menghitung statistik chi-square antara setiap variabel fitur dan variabel target dan mengamati adanya hubungan antara variabel dan target. Jika variabel target tidak tergantung pada variabel fitur, kami dapat membuang variabel fitur itu. Jika mereka tergantung, variabel fitur sangat penting.
Rincian matematika dijelaskan di sini: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
Untuk variabel kontinu, chi-square dapat diterapkan setelah "Binning" variabel.
Contoh dalam R, tanpa malu-malu disalin dari FSelector
# Use HouseVotes84 data from mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)
#Calculate the chi square statistics
weights<- chi.squared(Class~., HouseVotes84)
# Print the results
print(weights)
# Select top five variables
subset<- cutoff.k(weights, 5)
# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)
Tidak terkait dengan begitu banyak dalam pemilihan fitur tetapi video di bawah ini membahas chisquare secara detail https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8