Saya memiliki data yang setara dengan:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Saya ingin melakukan beberapa analisis pada set data ini untuk mendapatkan matriks korelasi yang akan memiliki implikasi yang mirip dengan: jika Anda membeli x, Anda cenderung membeli y.
Menggunakan python (atau mungkin selain MATLAB), bagaimana saya bisa melakukannya? Beberapa pedoman dasar, atau petunjuk ke tempat saya harus mencari akan membantu.
Terima kasih,
Sunting - Apa yang telah saya pelajari:
Jenis masalah ini dikenal sebagai penemuan aturan asosiasi. Wikipedia memiliki artikel bagus yang membahas beberapa algoritma umum untuk melakukannya. Algoritma klasik untuk melakukannya tampaknya adalah Apriori, karena Agrawal et. Al.
Itu membuat saya oranye , sebuah paket penambangan data python interfaced. Untuk Linux, cara terbaik untuk menginstalnya tampaknya dari sumber menggunakan setup.py yang disediakan
Oranye secara default membaca input dari file, diformat dalam salah satu dari beberapa cara yang didukung.
Akhirnya, pembelajaran aturan asosiasi Apriori sederhana berwarna oranye.
arules
akan layak untuk dilihat. Mungkin "aturan asosiasi" adalah istilah penelusuran yang bagus