Pertama, saya sarankan mulai dengan data sampel yang disediakan dengan perangkat lunak. Sebagian besar distribusi perangkat lunak menyertakan contoh data yang dapat Anda gunakan untuk membiasakan diri dengan algoritma tanpa berurusan dengan tipe data dan gulat data ke dalam format yang tepat untuk algoritma. Bahkan jika Anda sedang membangun algoritma dari awal, Anda dapat mulai dengan sampel dari implementasi yang sama dan membandingkan kinerjanya.
Kedua, saya akan merekomendasikan bereksperimen dengan set data sintetis untuk merasakan bagaimana kinerja algoritma ketika Anda tahu bagaimana data dihasilkan dan rasio sinyal terhadap noise.
Di R, Anda bisa mendaftar semua dataset dalam paket yang diinstal saat ini dengan perintah ini:
data(package = installed.packages()[, 1])
Paket R mlbench memiliki dataset nyata dan dapat menghasilkan dataset sintetis yang berguna untuk mempelajari kinerja algoritma.
Scikit-learn Python memiliki data sampel dan menghasilkan dataset sintetis / mainan juga.
SAS memiliki dataset pelatihan yang tersedia untuk diunduh dan data sampel SPSS diinstal dengan perangkat lunak di C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Sampel
Terakhir, saya akan melihat data di alam liar. Saya akan membandingkan kinerja berbagai algoritme dan parameter tuning pada set data nyata. Ini biasanya membutuhkan lebih banyak pekerjaan karena Anda jarang akan menemukan dataset dengan tipe data dan struktur yang dapat Anda masukkan langsung ke dalam algoritma Anda.
Untuk data di alam, saya akan merekomendasikan:
Arsip Data reddit
Daftar KDnugget