Saya bekerja dengan beberapa set data besar menggunakan paket gbm di R. Baik matriks prediktor saya dan vektor respons saya cukup jarang (yaitu sebagian besar entri adalah nol). Saya berharap untuk membangun pohon keputusan menggunakan algoritma yang mengambil keuntungan dari jarangnya ini, seperti yang dilakukan di sini ). Dalam makalah itu, seperti dalam situasi saya, sebagian besar item hanya memiliki sedikit dari banyak fitur yang mungkin, sehingga mereka dapat menghindari banyak perhitungan yang terbuang dengan mengasumsikan bahwa item mereka tidak memiliki fitur yang diberikan kecuali data secara eksplisit mengatakan sebaliknya. Harapan saya adalah bahwa saya bisa mendapatkan speedup serupa dengan menggunakan algoritma semacam ini (dan kemudian membungkus algoritma peningkatan di sekitarnya untuk meningkatkan akurasi prediksi saya).
Karena mereka sepertinya tidak mempublikasikan kode mereka, saya bertanya-tanya apakah ada paket open source atau pustaka (dalam bahasa apa pun) yang dioptimalkan untuk kasus ini. Idealnya, saya ingin sesuatu yang bisa mengambil matriks jarang langsung dari Matrix
paket R , tapi saya akan mengambil apa yang bisa saya dapatkan.
Saya telah melihat sekeliling dan sepertinya hal seperti ini seharusnya ada di luar sana:
Ahli kimia tampaknya banyak mengalami masalah ini (makalah yang saya tautkan di atas adalah tentang belajar menemukan senyawa obat baru), tetapi implementasinya yang dapat saya temukan bersifat eksklusif atau sangat khusus untuk analisis kimia. Mungkin saja salah satu dari mereka bisa dirancang ulang.
Klasifikasi dokumen juga tampaknya menjadi area di mana pembelajaran dari ruang fitur jarang berguna (sebagian besar dokumen tidak mengandung banyak kata). Misalnya, ada referensi miring untuk implementasi jarang dari C4.5 (algoritma seperti CART) dalam makalah ini , tetapi tidak ada kode.
Menurut mailing list , WEKA dapat menerima data yang jarang, tetapi tidak seperti metode dalam makalah yang saya tautkan di atas, WEKA tidak dioptimalkan untuk benar-benar memanfaatkannya dalam hal menghindari siklus CPU yang terbuang.
Terima kasih sebelumnya!
glmnet
dan e1071::svm
keduanya mendukung Matrix
benda jarang . GAMboost
dan GLMboost
(dari paket GAMboost
) juga.