Saya memiliki kursus Pembelajaran Mesin semester ini dan profesor meminta kami untuk menemukan masalah dunia nyata dan menyelesaikannya dengan salah satu metode pembelajaran mesin yang diperkenalkan di kelas, seperti:
- Pohon Keputusan
- Jaringan Saraf Tiruan
- Mendukung Mesin Vektor
- Pembelajaran Berbasis Instans ( kNN , LWL )
- Jaringan Bayesian
- Pembelajaran penguatan
Saya adalah salah satu penggemar stackoverflow dan stackexchange dan tahu dump database dari situs web ini disediakan untuk publik karena mereka mengagumkan! Saya harap saya bisa menemukan tantangan pembelajaran mesin yang bagus tentang database ini dan menyelesaikannya.
Ide saya
Satu ide muncul di benak saya adalah memprediksi tag untuk pertanyaan berdasarkan kata-kata yang dimasukkan dalam tubuh pertanyaan. Saya pikir jaringan Bayesian adalah alat yang tepat untuk mempelajari tanda untuk suatu pertanyaan tetapi perlu penelitian lebih lanjut. Bagaimanapun, setelah fase belajar ketika pengguna selesai memasukkan pertanyaan, beberapa tag harus disarankan kepadanya.
Tolong beri tahu saya :
Saya ingin bertanya kepada komunitas statistik sebagai orang yang berpengalaman tentang ML dua pertanyaan:
Apakah menurut Anda saran tag setidaknya merupakan masalah yang memiliki peluang untuk dipecahkan? Apakah Anda punya saran tentang itu? Saya sedikit khawatir karena stackexchange belum mengimplementasikan fitur tersebut.
Apakah Anda punya ide lain / lebih baik untuk proyek ML yang didasarkan pada database stackexchange? Saya merasa sangat sulit untuk menemukan sesuatu untuk dipelajari dari database stackexchange.
Pertimbangan tentang kesalahan basis data: Saya ingin menunjukkan bahwa meskipun basis datanya sangat besar dan memiliki banyak contoh, mereka tidak sempurna dan cenderung mengalami kesalahan. Yang jelas adalah usia pengguna yang tidak bisa diandalkan. Bahkan tag yang dipilih untuk pertanyaan tidak 100% benar. Bagaimanapun, kita harus mempertimbangkan persentase kebenaran data dalam memilih masalah.
Pertimbangan tentang masalah itu sendiri: Proyek saya seharusnya tidak tentang data-mining
atau sesuatu seperti ini. Itu hanya harus menjadi aplikasi metode ML di dunia nyata.