Salah satu masalah umum dalam ilmu data adalah mengumpulkan data dari berbagai sumber dalam format yang entah bagaimana dibersihkan (semi-terstruktur) dan menggabungkan metrik dari berbagai sumber untuk membuat analisis tingkat yang lebih tinggi. Melihat upaya orang lain, terutama pertanyaan lain di situs ini, tampaknya banyak orang di bidang ini melakukan pekerjaan yang agak berulang. Misalnya menganalisis tweet, posting facebook, artikel Wikipedia dll. Adalah bagian dari banyak masalah data besar.
Beberapa kumpulan data ini dapat diakses menggunakan API publik yang disediakan oleh situs penyedia, tetapi biasanya, beberapa informasi atau metrik yang berharga hilang dari API ini dan setiap orang harus melakukan analisis yang sama berulang-ulang. Misalnya, meskipun pengelompokan pengguna mungkin bergantung pada berbagai kasus penggunaan dan pemilihan fitur, tetapi pengelompokan basis pengguna Twitter / Facebook dapat berguna dalam banyak aplikasi Big Data, yang tidak disediakan oleh API atau tersedia secara publik dalam kumpulan data independen .
Apakah ada situs hosting kumpulan data atau indeks yang tersedia untuk umum yang berisi kumpulan data berharga yang dapat digunakan kembali dalam memecahkan masalah big data lainnya? Maksud saya sesuatu seperti GitHub (atau sekelompok situs / kumpulan data publik atau setidaknya daftar komprehensif) untuk ilmu data. Jika tidak, apa alasan untuk tidak memiliki platform untuk ilmu data? Nilai komersial data, perlu memperbarui set data, ...? Bisakah kita tidak memiliki model sumber terbuka untuk berbagi set data yang dirancang untuk ilmuwan data?