Meskipun taruhannya lebih tinggi daripada untuk Project Euler, seperti yang telah Anda tunjukkan, Kaggle adalah sumber data yang sangat baik untuk digunakan dalam eksperimen Anda sendiri. Banyak kontes mereka mengharuskan Anda masuk untuk mengakses dataset (untuk perjanjian hukum dan sebagainya), tetapi jika Anda tidak benar-benar menyelesaikan entri, tidak ada hukuman yang saya tahu.
Yang sedang berkata, jika Anda mencari set data yang khusus untuk menguji prosedur statistik, seperti yang ada di Princeton , Anda dapat menguji data pada arsitektur jaringan yang berbeda dan membandingkannya dengan regresi sederhana, dll sebagai patokan.
Lihat juga di sini untuk daftar lengkap, yang mencakup semua data pemrosesan bahasa alami Google .
Jadi, Project Euler menyediakan layanan hebat dengan masalah khusus, tetapi dalam hal pembelajaran mesin, Anda dapat menggunakan kumpulan data yang ada dengan arsitektur kreasi Anda dan membandingkan "jawaban" dengan kesimpulan yang disajikan secara online atau dalam makalah penelitian.