Diberikan urutan input, saya perlu menentukan apakah urutan ini memiliki properti yang diinginkan. Properti hanya bisa benar atau salah, yaitu, hanya ada dua kelas yang mungkin dimiliki urutan.
Hubungan yang tepat antara urutan dan properti tidak jelas, tetapi saya percaya itu sangat konsisten dan harus memberikan klasifikasi statistik. Saya memiliki sejumlah besar kasus untuk melatih classifier, meskipun mungkin sedikit bising, dalam arti ada sedikit kemungkinan urutan diberi kelas yang salah dalam rangkaian pelatihan ini.
Contoh data pelatihan:
Sequence 1: (7 5 21 3 3) -> true
Sequence 2: (21 7 5 1) -> true
Sequence 3: (12 21 7 5 11 1) -> false
Sequence 4: (21 5 7 1) -> false
...
Secara kasar, properti ditentukan oleh himpunan nilai dalam urutan (misalnya keberadaan "11" berarti bahwa properti hampir pasti salah), serta urutan nilai (misalnya "21 7 5 "Secara signifikan meningkatkan kemungkinan bahwa properti itu benar).
Setelah pelatihan, saya harus bisa memberi classifier urutan yang sebelumnya tidak terlihat, seperti (1 21 7 5 3)
, dan harus menampilkan kepercayaannya bahwa properti itu benar. Apakah ada algoritma yang terkenal untuk melatih classifier dengan input / output seperti ini?
Saya telah mempertimbangkan pengelompokan Bayesian yang naif (yang tidak benar-benar dapat disesuaikan dengan fakta bahwa pesanan itu penting, setidaknya bukan tanpa melanggar asumsi bahwa inputnya independen). Saya juga telah menyelidiki pendekatan model Markov yang tersembunyi, yang tampaknya tidak dapat diterapkan karena hanya satu output yang tersedia, alih-alih satu output per input. Apa yang saya lewatkan?