Menangani set fitur yang terus meningkat


10

Saya sedang mengerjakan sistem deteksi penipuan. Di bidang ini, penipuan baru muncul secara teratur, sehingga fitur baru harus ditambahkan ke model secara berkelanjutan.

Saya bertanya-tanya apa cara terbaik untuk menanganinya (dari perspektif proses pengembangan)? Hanya menambahkan fitur baru ke dalam vektor fitur dan melatih ulang penggolong tampaknya menjadi pendekatan yang naif, karena terlalu banyak waktu akan dihabiskan untuk mempelajari kembali fitur-fitur lama.

Saya sedang memikirkan cara melatih classifier untuk setiap fitur (atau beberapa fitur terkait), dan kemudian menggabungkan hasil dari classifier tersebut dengan classifier keseluruhan. Apakah ada kelemahan dari pendekatan ini? Bagaimana saya bisa memilih algoritma untuk keseluruhan classifier?

Jawaban:


4

Di dunia yang ideal, Anda menyimpan semua data historis Anda, dan memang menjalankan model baru dengan fitur baru diekstraksi secara surut dari data historis. Saya berpendapat bahwa sumber daya komputasi yang dihabiskan untuk ini sebenarnya cukup berguna. Apakah ini benar-benar masalah?

Ya, ini adalah teknik yang diterima secara luas untuk membangun ansambel pengklasifikasi dan menggabungkan hasilnya. Anda dapat membangun model baru secara paralel hanya pada fitur-fitur baru dan rata-rata dalam prediksinya. Ini seharusnya menambah nilai, tetapi, Anda tidak akan pernah menangkap interaksi antara fitur baru dan lama dengan cara ini, karena mereka tidak akan pernah muncul bersama dalam sebuah classifier.


2

Berikut adalah ide yang muncul begitu saja - bagaimana jika Anda menggunakan Random Subspace Sampling (seperti yang sebenarnya disarankan Sean Owen) untuk melatih sekelompok pengklasifikasi baru setiap kali fitur baru muncul (menggunakan subset fitur acak, termasuk set fitur baru). Anda dapat melatih model-model tersebut pada sebagian sampel juga untuk menghemat waktu pelatihan.

Dengan cara ini Anda dapat membuat pengklasifikasi baru menggunakan fitur baru dan lama, dan pada saat yang sama menjaga pengklasifikasi lama Anda. Anda mungkin bahkan, mungkin menggunakan teknik validasi silang untuk mengukur kinerja masing-masing classifier, dapat membunuh yang berkinerja terburuk setelah beberapa saat, untuk menghindari model yang kembung.


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.