Pendekatan penambangan data untuk analisis data sekuensial dengan atribut nominal

Pertanyaan untuk penambang data yang berpengalaman di luar sana:

Dengan skenario ini:

Ada N troli belanja
Setiap kereta belanja diisi dengan jumlah item M yang sewenang-wenang dari set besar yang tak terhingga (dengan jumlah data saat ini yang saya miliki, angka sewenang-wenang itu dapat mencapai angka sekitar 1500)
Urutan di mana setiap kereta diisi adalah signifikan
Ada atribut lain seperti geolokasi pembelanja, tetapi ini dapat (dan saat ini) dibuang demi membuat algoritma lebih sederhana

Aku ingin:

Pada titik waktu tertentu, hanya diberikan set barang yang dipesan di setiap gerobak, identifikasi gerobak 'serupa' tanpa pengetahuan sebelumnya tentang label kelas
Setelah sejumlah data telah dikumpulkan dan pekerjaan membanting tulang melalui data dan memberikan label, buat classifier yang dapat bekerja dengan cepat dengan data yang tak terlihat di masa depan

Pendekatan awal:

Sejauh ini, pendekatan saya difokuskan pada poin pertama. Metode saya menggunakan k-means clustering dan menangani sifat sekuensial data dengan menggunakan matriks jarak yang dihasilkan dengan menghitung jarak Hamming antara kereta. Dengan cara ini, [apel, pisang, pir] berbeda dari [pir, apel, pisang], tetapi [apel, pisang, pir] kurang berbeda dari [apel, pisang, kijang]. Nilai k yang tepat ditentukan melalui investigasi koefisien siluet. Cluster yang dihasilkan dari ini tampaknya masuk akal, tetapi runtime dari metode saya pasti akan menjadi penghalang karena dataset saya.

Pertanyaan:

Adakah yang kebetulan memiliki saran untuk penambang data pemula untuk masalah ini?

Suntingan dengan info lebih lanjut:

Saya telah menemukan saran yang mempertimbangkan untuk menggunakan fitur n-gram dan membandingkannya secara bijaksana. Kekhawatiran saya tentang ini adalah pesanan: apakah urutan urutan akan dipertahankan jika model n-gram digunakan? Juga, saya melihat masalah kinerja menjadi kemungkinan yang lebih besar dengan metode ini.

— mengenakan
sumber

Pertanyaan menarik, tetapi mungkin lebih cocok untuk stats.stackexchange.com

— Matt Parker

Saya awalnya mengirimkan ini ke stats.stackexchange.com dan saya melihatnya dari sana ... apakah ini muncul di tempat lain?

— don

Oh, teman, sudah seminggu yang panjang. Saya biasanya membuka banyak pertanyaan StackOverflow dan CrossValidated di tab yang berdekatan, dan ini adalah akhir dari serangkaian pertanyaan StackOverflow. Kemudian, ketika saya menandai perhatian, itu memberi saya opsi untuk menyarankan agar ia pindah ke stats.stackexchange - kecuali itu sebenarnya META.stats.stackexchange. Saya mungkin harus pergi tidur sekarang.

— Matt Parker

Anda tidak terdengar seperti penambang data pemula bagi saya.

— rolando2

@ rolando2: Saya kira itu semua relatif, heh. Saya masih merasa seperti baru menyentuh permukaan subjek ...

— don

Saya juga seorang penambang data pemula, tetapi bolehkah saya menyarankan bahwa analisis data eksplorasi selalu merupakan langkah pertama yang baik? Saya akan melihat apakah item dapat diberi semacam 'nilai prioritas' yang dapat berfungsi untuk memprediksi seberapa awal mereka muncul di keranjang, karena hasil seperti itu memungkinkan Anda untuk menggunakan model yang lebih sederhana. Sesuatu yang sederhana seperti regresi linier on (#order in cart / # number of items in cart) untuk semua kereta yang memiliki item X akan memberi Anda gambaran apakah ini mungkin. Misalkan Anda menemukan bahwa proporsi item tertentu selalu muncul lebih awal, atau lebih lambat, dan beberapa item tampaknya benar-benar acak: ini akan memandu Anda dalam pembuatan model nanti.

— charles.y.zheng
sumber