Jawaban:
Tidak ada sumber pasti tentang cara melakukan rekayasa fitur. Ini sering tergantung pada masalah yang Anda coba selesaikan. Ada yang bilang itu lebih dari seni daripada sains.
Tapi saya akan pergi melalui beberapa kernel kaggle skor tinggi / solusi menang jika tersedia. Langsung saja ke kaggle dan telusuri kompetisi. Ada banyak bahan yang sangat berguna di sana.
Juga jurnal penelitian pembelajaran mesin memiliki banyak makalah tentang rekayasa fitur. Cukup cari di situs mereka http://www.jmlr.org/ .
Tautan berikut berguna dan panjang lebar untuk diparafrasekan:
Imputasi Data Tidak Ada:
Analisis kasus lengkap
Mean / Median / Mode imputasi
Imputasi Sampel Acak
Penggantian dengan Nilai Sewenang-wenang
Indikator Nilai Hilang
Imputasi multivarian
Pengkodean Kategori:
Satu pengkodean panas
Hitung dan Frekuensi pengkodean
Pengkodean target / Pengkodean rata-rata
Pengkodean ordinal
Berat Bukti
Pengodean label langka
BaseN, hashing fitur dan lainnya
Transformasi Variabel:
Logaritma
Timbal-balik
Akar pangkat dua
Eksponensial
Yeo-Johnson
Kotak-Cox
Diskritisasi:
Diskritisasi frekuensi yang sama
Diskritisasi panjang yang sama
Diskresi dengan pohon
Diskresi dengan ChiMerge
Penghapusan Outlier:
Menghapus outlier
Memperlakukan outlier sebagai NaN
Pembatasan, Windsorisation
Penskalaan fitur:
Standardisasi
Penskalaan MinMax
Scaling Berarti
Max Scaling Mutlak
Unit Norm-Scaling
Rekayasa Tanggal dan Waktu:
Pembuatan fitur:
Data Transaksi Agregat:
Mengekstrak fitur dari teks:
Tas kata-kata
tfidf
n-gram
word2vec
ekstraksi topik
Dan akhirnya mengekstraksi fitur dari gambar.
Artikel bagus yang menggambarkan sebagian besar teknik di atas: Rekayasa Fitur tinjauan komprehensif
Daftar sumber daya yang baik untuk mempelajari lebih lanjut tentang rekayasa fitur: Sumber Daya Terbaik untuk belajar tentang rekayasa fitur
Alat Python untuk rekayasa fitur dapat ditemukan di utas ini
PENOLAKAN: Saya menulis 2 artikel, dan saya juga pencipta 1 program yang direkomendasikan untuk belajar tentang rekayasa fitur.