Saya sedang bekerja dengan algoritma pencocokan pola yang menghasilkan otomat keadaan terbatas asiklik yang menerima string teks yang diberikan dan semua substringnya. Algoritma FSA sedang dijalankan pada representasi simbolis dari aliran musik (misalnya, data MIDI). Aliran musik telah diproses untuk membagi setiap lagu menjadi 'segmen' tanpa label. FSA dihasilkan untuk setiap segmen di setiap lagu: jika saya memiliki lagu, masing-masing dibagi menjadi segmen, saya akan memiliki FSA yang terpisah.
Saya ingin membandingkan masing-masing FSA segmen dengan FSA lainnya di corpus saya. Tujuan utamanya adalah melakukan pengelompokan dalam ruang kesamaan dan menghasilkan 'kelas' segmen berdasarkan seberapa mirip metrik konstruksinya. Dengan demikian, yang menarik adalah tata bahasa yang mendefinisikan masing-masing FSA (sesuai kira-kira komponen tertentu dari konten musik di segmen). Apakah ada teknik yang mungkin baik untuk membandingkan sesuatu seperti ini? Divergensi-KL muncul dalam pikiran (misalnya, menggunakannya membandingkan distribusi lebih dari string yang terkait dengan OJK tertentu), meskipun mungkin ada teknik yang lebih baik / lebih efisien?
Juga, minta maaf jika pertanyaan ini mudah (1) mudah atau (2) menunjukkan kesalahpahaman yang lebih dalam atau (3) dijawab di tempat lain. Aku benar-benar gila, kawan!