Adakah yang bisa memberi tahu saya apa tujuan pembuatan fitur? dan mengapa pengayaan ruang fitur diperlukan sebelum mengklasifikasikan gambar? Apakah ini langkah yang perlu?
Apakah ada metode untuk memperkaya ruang fitur?
Adakah yang bisa memberi tahu saya apa tujuan pembuatan fitur? dan mengapa pengayaan ruang fitur diperlukan sebelum mengklasifikasikan gambar? Apakah ini langkah yang perlu?
Apakah ada metode untuk memperkaya ruang fitur?
Jawaban:
Fitur Generasi - Ini adalah proses mengambil data mentah, tidak terstruktur dan mendefinisikan fitur (yaitu variabel) untuk digunakan potensial dalam analisis statistik Anda. Misalnya, dalam kasus penambangan teks Anda dapat mulai dengan log mentah dari ribuan pesan teks (mis. SMS, email, pesan jejaring sosial, dll) dan menghasilkan fitur dengan menghapus kata-kata bernilai rendah (mis. Stopwords), menggunakan ukuran tertentu blok kata (yaitu n-gram) atau menerapkan aturan lain.
Ekstraksi Fitur - Setelah menghasilkan fitur, seringkali perlu untuk menguji transformasi fitur asli dan memilih subset kumpulan potensi asli dan fitur turunan ini untuk digunakan dalam model Anda (yaitu ekstraksi fitur dan seleksi). Menguji nilai yang diturunkan adalah langkah umum karena data dapat berisi informasi penting yang memiliki pola atau hubungan non-linier dengan hasil Anda, sehingga pentingnya elemen data hanya dapat terlihat dalam keadaan yang ditransformasikan (misalnya turunan orde tinggi). Menggunakan terlalu banyak fitur dapat menghasilkan kelipatan kolinearitas atau mengacaukan model statistik, sedangkan mengekstraksi jumlah fitur minimum agar sesuai dengan tujuan analisis Anda mengikuti prinsip kekikiran.
Meningkatkan ruang fitur Anda dengan cara ini sering kali merupakan langkah yang diperlukan dalam klasifikasi gambar atau objek data lainnya karena ruang fitur mentah biasanya diisi dengan sejumlah besar data tidak terstruktur dan tidak relevan yang terdiri dari apa yang sering disebut sebagai "noise" dalam paradigma. dari "sinyal" dan "noise" (yang mengatakan bahwa beberapa data memiliki nilai prediksi dan data lainnya tidak). Dengan meningkatkan ruang fitur, Anda dapat lebih baik mengidentifikasi data penting yang memiliki nilai prediktif atau lainnya dalam analisis Anda (yaitu "sinyal") sambil menghapus informasi yang membingungkan (yaitu "noise").