Pertanyaan untuk penambang data yang berpengalaman di luar sana:
Dengan skenario ini:
- Ada N troli belanja
- Setiap kereta belanja diisi dengan jumlah item M yang sewenang-wenang dari set besar yang tak terhingga (dengan jumlah data saat ini yang saya miliki, angka sewenang-wenang itu dapat mencapai angka sekitar 1500)
- Urutan di mana setiap kereta diisi adalah signifikan
- Ada atribut lain seperti geolokasi pembelanja, tetapi ini dapat (dan saat ini) dibuang demi membuat algoritma lebih sederhana
Aku ingin:
- Pada titik waktu tertentu, hanya diberikan set barang yang dipesan di setiap gerobak, identifikasi gerobak 'serupa' tanpa pengetahuan sebelumnya tentang label kelas
- Setelah sejumlah data telah dikumpulkan dan pekerjaan membanting tulang melalui data dan memberikan label, buat classifier yang dapat bekerja dengan cepat dengan data yang tak terlihat di masa depan
Pendekatan awal:
- Sejauh ini, pendekatan saya difokuskan pada poin pertama. Metode saya menggunakan k-means clustering dan menangani sifat sekuensial data dengan menggunakan matriks jarak yang dihasilkan dengan menghitung jarak Hamming antara kereta. Dengan cara ini, [apel, pisang, pir] berbeda dari [pir, apel, pisang], tetapi [apel, pisang, pir] kurang berbeda dari [apel, pisang, kijang]. Nilai k yang tepat ditentukan melalui investigasi koefisien siluet. Cluster yang dihasilkan dari ini tampaknya masuk akal, tetapi runtime dari metode saya pasti akan menjadi penghalang karena dataset saya.
Pertanyaan:
- Adakah yang kebetulan memiliki saran untuk penambang data pemula untuk masalah ini?
Suntingan dengan info lebih lanjut:
- Saya telah menemukan saran yang mempertimbangkan untuk menggunakan fitur n-gram dan membandingkannya secara bijaksana. Kekhawatiran saya tentang ini adalah pesanan: apakah urutan urutan akan dipertahankan jika model n-gram digunakan? Juga, saya melihat masalah kinerja menjadi kemungkinan yang lebih besar dengan metode ini.