Dataset saya terdiri dari sekuens vektor. Setiap vektor memiliki 50 dimensi bernilai nyata. Jumlah vektor dalam rentang urutan 3-5 hingga 10-15. Dengan kata lain, panjang urutan tidak tetap.
Sejumlah urutan yang adil (bukan vektor!) Dijelaskan dengan label kelas. Tugas saya adalah mempelajari classifier yang diberi urutan vektor, label kelas untuk seluruh urutan dihitung.
Saya tidak bisa mengatakan sifat pasti dari data tersebut tetapi sifat urutannya tidak temporal. Namun demikian, vektor tidak dapat dipertukarkan dengan vektor x j tanpa mengubah label ( i ≠ j ). Dengan kata lain, urutan vektor penting. Vektor itu sendiri sebanding, misalnya masuk akal untuk menghitung produk titik dan menggunakan nilai kesamaan ini.
Pertanyaan saya adalah: apa alat / algoritma yang dapat membantu untuk mengklasifikasikan data tersebut?
UPDATE: Data memiliki properti sedemikian sehingga satu atau beberapa vektor sangat mempengaruhi label kelas.
SOLUSI MUNGKIN: Setelah beberapa penelitian sepertinya Recurrent Neural Networks (RNN) sesuai dengan tagihan secara alami. Gagasan umum adalah untuk memilih ukuran konteks , menggabungkan vektor kata, melakukan max pooling dan memberi makan melalui NN klasik. Pada setiap jendela konteks posisi yang mungkin dalam kalimat, vektor fitur dibangun. Vektor fitur akhir dibuat menggunakan max pooling misalnya. Backpropagation dilakukan untuk menyesuaikan parameter jaringan. Saya sudah mendapat beberapa hasil positif (GPU adalah suatu keharusan).