Numer.ai telah ada untuk sementara waktu sekarang dan tampaknya hanya ada beberapa posting atau diskusi lainnya di web.
Sistem telah berubah dari waktu ke waktu dan pengaturan hari ini adalah sebagai berikut:
- melatih (N = 96K) dan menguji (N = 33K) data dengan 21 fitur dengan nilai kontinu dalam [0,1] dan target biner.
- Data bersih (tidak ada nilai yang hilang) dan diperbarui setiap 2 minggu. Anda dapat mengunggah prediksi Anda (pada set tes) dan melihat kehilangan log. Bagian dari data uji adalah bahkan data langsung dan Anda dibayar untuk prediksi yang baik.
Apa yang ingin saya diskusikan:
Karena fitur-fiturnya benar-benar anonim, saya pikir tidak ada banyak rekayasa fitur yang bisa kami lakukan. Jadi pendekatan saya sangat mekanis:
- terinspirasi oleh ini saya menggunakan algoritma klasifikasi untuk menyaring data pelatihan yang paling sesuai dengan data pengujian saya.
- Cari tahu beberapa preprocessing yang bagus
- melatih algoritma klasifikasi yang bagus
- membangun ansambelnya (susun, ..).
Pertanyaan konkret:
Mengenai langkah 1: Apakah Anda memiliki pengalaman dengan pendekatan seperti itu? Katakanlah saya memesan probabilitas sampel kereta untuk diuji (biasanya di bawah 0,5) dan kemudian saya mengambil probabilitas K terbesar. Bagaimana Anda memilih K? Saya mencoba dengan 15K .. tetapi terutama untuk memiliki set data pelatihan kecil untuk mempercepat pelatihan di langkah 3.
Mengenai langkah 2: Data sudah pada skala 0,1. Jika saya menerapkan transformasi linear (seperti PCA) maka saya akan mematahkan skala ini. Apa yang akan Anda coba dalam preprocessing jika Anda memiliki data numerik dan tidak tahu bahwa ini sebenarnya.
PS: Saya tahu karena numer.ai membayar orang yang mendiskusikan ini bisa membantu saya menghasilkan uang. Tapi karena ini bersifat publik, ini akan membantu siapa pun di luar sana ...
PPS: Papan peringkat hari ini memiliki pola yang menarik: Dua teratas dengan logloss 0.64xx, lalu nomor 3 dengan 0.66xx dan kemudian sebagian besar prediktor mencapai 0.6888x.
Jadi sepertinya ada bidang teratas yang sangat kecil dan banyak orang yang cukup sukses (termasuk saya).