Apakah kompetisi Kaggle baru saja dimenangkan secara kebetulan?

Kompetisi Kaggle menentukan peringkat akhir berdasarkan set tes yang diadakan.

Satu set tes yang diadakan adalah sampel; mungkin tidak mewakili populasi yang dimodelkan. Karena setiap pengiriman seperti hipotesis, algoritme yang memenangkan kompetisi mungkin saja, secara kebetulan, akhirnya cocok dengan set tes yang lebih baik daripada yang lain. Dengan kata lain, jika set tes yang berbeda dipilih dan kompetisi diulang, apakah rangkingnya tetap sama?

Untuk perusahaan sponsor, ini tidak terlalu penting (mungkin 20 proposal teratas akan meningkatkan baseline mereka). Meskipun, ironisnya, mereka mungkin akhirnya menggunakan model peringkat pertama yang lebih buruk daripada lima besar lainnya. Tetapi, bagi para peserta kompetisi, tampaknya Kaggle pada akhirnya adalah permainan kesempatan - keberuntungan tidak diperlukan untuk menemukan solusi yang tepat, itu diperlukan untuk menemukan solusi yang cocok dengan set tes!

Apakah mungkin untuk mengubah kompetisi sehingga semua tim teratas yang tidak dapat dibedakan secara statistik menang? Atau, dalam kelompok ini, dapatkah model yang paling murah hati dan murah secara komputasi menang?

— pengguna0
sumber

Beberapa orang menggunakan pengujian pada set tersembunyi untuk mendukung nilai tes yang sebenarnya. Ini memungkinkan mereka untuk hampir cocok dengan hasilnya. Penundaan mencegah ini. Pendapat pribadi saya adalah bahwa perbedaan antara ketidaksepakatan dan ketidaksesuaian adalah tentang menghilangkan kecurangan.

— EngrStudent

Tentu saja data tes harus diadakan dari para peserta, tetapi saya bertanya-tanya apakah memiliki satu set tes bertahan membuat hasil kompetisi (untuk tim teratas) pada dasarnya tergantung sebagian besar pada kesempatan.

X

$X$

— user0

Skor tertimbang. Sebuah sistem yang hebat akan mengungguli sampah hampir setiap waktu. Butuh satu truk penuh pekerjaan untuk gagal begitu buruk sehingga yang terakhir menjadi yang pertama. Pesanan lokal, mungkin 10 langkah di peringkat atau kurang, ketika ada ribuan peserta, akan berubah jika ketidaksepakatan itu diresampled. Anda dapat membuat percobaan numerik untuk menunjukkan ini.

— EngrStudent

Dari perspektif perusahaan sponsor, mereka tidak dipaksa untuk benar-benar menerapkan model pemenang. Jika saya ingat benar model yang memenangkan tantangan Netflix tidak pernah diterapkan. Mereka dapat mengambil beberapa kandidat yang dapat dipercaya di antara model-model terbaik dan mengujinya lebih lanjut.

— David Ernst

Jawaban:

Ya, alasan Anda benar. Jika set tes yang berbeda dipilih dan kompetisi diulang, peringkat memang akan berubah. Perhatikan contoh berikut. Semua entri ke kompetisi Kaggle dengan label biner hanya menebak secara acak (dan, katakanlah, secara independen) untuk memprediksi output mereka. Secara kebetulan, salah satu dari mereka akan setuju dengan ketidaksepakatan lebih dari yang lain, meskipun tidak ada prediksi yang terjadi.

Meskipun ini sedikit dibuat-buat, kita dapat melihat bahwa varians di masing-masing model kiriman akan berarti bahwa menerapkan banyak entri seperti itu memang hanya akan cocok dengan kebisingan himpunan set pegangan. Ini memberitahu kita bahwa (tergantung pada varian model individual), model top-N mungkin menggeneralisasi hal yang sama. Ini adalah taman jalur bercabang , kecuali "peneliti" tidak sama (tapi itu tidak masalah).

Apakah mungkin untuk mengubah kompetisi sehingga semua tim yang tidak dapat dibedakan secara statistik dari kinerja teratas pada set tes menang?

Memang.

Salah satu pendekatan (tidak praktis seperti itu) akan secara eksplisit bekerja di luar varian model yang diberikan dalam setiap entri, yang akan memberi kita CI pada kinerja ketidaksepakatan mereka.
Pendekatan lain, yang mungkin membutuhkan banyak komputasi, adalah mem-bootstrap CI pada kinerja penahan, dengan memaparkan pelatihan dan pengujian API ke semua model.

— VF1
sumber

Jawaban yang bagus Bisakah Anda menguraikan bagaimana kedua metode ini dapat diterapkan?

— user0

Sangat menarik: model terbaik mungkin sebenarnya bukan tim pemenang.

— user0

Secara eksplisit mengerjakan varians tidak dapat dilakukan tanpa distribusi data (saya hanya menyebutkannya karena menjelaskan teorinya). Makalah ini menjelaskan beberapa metode (dan di mana mereka gagal) untuk estimasi akurasi, termasuk bootstrap dan cross-validation. Berbeda dengan makalah, namun, dalam konteks ini, kami tidak melakukan CV untuk pemilihan model pada set pelatihan, melainkan untuk "skor" yang kuat pada pelatihan gabungan dan set data uji.

— VF1

Mungkin dua putaran lebih baik untuk estimasi pemenang yang kuat. Yang pertama menghilangkan 99% terburuk, dan putaran kedua memperkirakan kembali peringkat untuk "memoles" pesanan.

— EngrStudent

Untuk menambah ide di sini, lihat makalah ini oleh pemenang kompetisi NCAA March Madness Kaggle pada 2014. Gulir ke bawah ke bagian 4, "Studi Simulasi". Menurut sim mereka, jika probabilitas prediksi model mereka untuk setiap pertarungan sebenarnya keadaan alamiah sebenarnya, median penempatan mereka akan menjadi tempat ke-11.

— klumbard

Ada jenis kompetisi lain di Kaggle yang tidak memiliki elemen peluang. Misalnya, yang satu ini Stanta's Stolen Sleigh .

Ini adalah masalah optimasi diskrit dan bahkan tidak memiliki papan pemimpin pribadi. Apa yang Anda lihat di dewan pimpinan publik adalah hasil akhir.

Dibandingkan dengan pembelajaran yang diawasi, yang memiliki awal yang mudah bagi banyak orang, jenis kompetisi ini lebih "sulit".

— Haitao Du
sumber