Apakah Master Anda dalam Ilmu Komputer? Statistik?
Apakah 'ilmu data' akan menjadi pusat tesis Anda? Atau topik sampingan?
Saya akan menganggap Anda dalam Statistik dan bahwa Anda ingin memfokuskan tesis Anda pada masalah 'ilmu data'. Jika demikian, maka saya akan menentang butir dan menyarankan agar Anda tidak memulai dengan kumpulan data atau metode ML. Sebaliknya, Anda harus mencari masalah penelitian menarik yang kurang dipahami atau di mana metode ML belum terbukti berhasil, atau di mana ada banyak metode ML yang bersaing tetapi tidak ada yang tampak lebih baik daripada yang lain.
Pertimbangkan sumber data ini: Stanford Large Network Dataset Collection . Meskipun Anda dapat memilih salah satu dari kumpulan data ini, membuat pernyataan masalah, dan kemudian menjalankan beberapa metode ML, pendekatan itu benar-benar tidak memberi tahu Anda banyak tentang apa itu ilmu data , dan menurut saya tidak mengarah pada tesis Masters yang sangat baik.
Sebagai gantinya, Anda dapat melakukan ini: cari semua makalah penelitian yang menggunakan ML pada beberapa kategori tertentu - mis. Jaringan kolaborasi (alias co-authorhip). Saat Anda membaca setiap makalah, cobalah mencari tahu apa yang dapat mereka capai dengan masing-masing metode ML dan apa yang tidak dapat mereka atasi. Terutama mencari saran mereka untuk "penelitian masa depan".
Mungkin mereka semua menggunakan metode yang sama, tetapi tidak pernah mencoba metode ML yang bersaing. Atau mungkin mereka tidak cukup memvalidasi hasil mereka, atau mungkin ada set data yang kecil, atau mungkin pertanyaan penelitian dan hipotesis mereka sederhana atau terbatas.
Paling penting: coba cari tahu ke mana arah penelitian ini. Mengapa mereka repot-repot melakukan ini? Apa yang penting dari itu? Di mana dan mengapa mereka menghadapi kesulitan?