Saya ingin menggunakan data non-atom, sebagai fitur untuk prediksi. Misalkan saya punya Meja dengan fitur-fitur ini:
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
Saya ingin memprediksi / mengklasifikasikan, misalnya, Kolom 2.
Saya membuat sesuatu untuk secara otomatis menjawab pertanyaan, semua jenis pertanyaan, seperti "Di mana Foo Born?" ...
Saya pertama-tama membuat kueri ke mesin pencari, kemudian saya mendapatkan beberapa data teks sebagai hasilnya, kemudian saya melakukan semua hal parsing (penandaan, stemming, parsing, pemisahan ...)
Pendekatan pertama saya adalah membuat tabel, setiap baris dengan baris teks dan banyak fitur, seperti "Kata Pertama", "Tag Kata Pertama", "Bongkahan", dll ...
Tetapi dengan pendekatan ini saya kehilangan hubungan antara kalimat.
Saya ingin tahu apakah ada algoritma yang terlihat di dalam struktur pohon (atau vektor) dan membuat hubungan dan mengekstrak apa pun yang relevan untuk memprediksi / mengklasifikasikan. Saya lebih suka tahu tentang perpustakaan yang melakukan itu daripada algoritma yang harus saya terapkan.