Apa perbedaan praktis antara aturan asosiasi dan pohon keputusan dalam penambangan data?


19

Adakah deskripsi yang sangat sederhana tentang perbedaan praktis antara kedua teknik ini?

  • Keduanya tampaknya digunakan untuk pembelajaran yang diawasi (meskipun aturan asosiasi juga dapat menangani tanpa pengawasan).

  • Keduanya dapat digunakan untuk prediksi

Deskripsi terdekat yang saya temukan dengan deskripsi 'baik' adalah dari Statsoft Textbook . Mereka mengatakan Aturan Asosiasi digunakan untuk:

... mendeteksi hubungan atau asosiasi antara nilai-nilai spesifik dari variabel kategori dalam set data besar.

Sementara pengklasifikasi Decision Tree dideskripsikan sebagai digunakan untuk:

... memprediksi keanggotaan kasus atau objek dalam kelas variabel dependen kategoris dari pengukurannya pada satu atau lebih variabel prediktor.

Namun, selama di R Data Mining, mereka memberikan contoh Aturan Asosiasi yang digunakan dengan bidang target .

Jadi keduanya dapat digunakan untuk memprediksi keanggotaan grup, apakah perbedaan utama yang pohon keputusan dapat menangani data input non-kategoris sementara aturan asosiasi tidak bisa? Atau ada sesuatu yang lebih mendasar? Satu situs ( sqlserverdatamining.com ) mengatakan bahwa perbedaan utama adalah:

Aturan pohon keputusan didasarkan pada perolehan informasi sementara aturan asosiasi didasarkan pada popularitas dan / atau kepercayaan diri.

Jadi (mungkin menjawab pertanyaan saya sendiri) apakah itu berarti bahwa aturan asosiasi dievaluasi murni pada seberapa sering mereka muncul dalam dataset (dan seberapa sering mereka 'benar') sementara pohon keputusan sebenarnya berusaha untuk meminimalkan varians?

Jika ada yang tahu deskripsi yang baik mereka akan mengarahkan saya ke arah itu maka itu akan bagus.

Jawaban:


14

F=F1,,FmCFCF

t1={i1,i2}t2={i1,i3,i4,i5}t3={i2,i3,i4,i5}tn={i2,i3,i4,i5}
{i3,i5}{i4}

Ternyata Anda dapat menggunakan analisis asosiasi untuk beberapa tugas klasifikasi tertentu, misalnya ketika semua fitur Anda kategori. Anda baru saja melihat item sebagai fitur, tetapi ini bukan tujuan dari analisis asosiasi.


3
  • "Aturan asosiasi bertujuan untuk menemukan semua aturan di atas ambang batas yang diberikan yang melibatkan subset rekaman yang tumpang tindih, sedangkan pohon keputusan menemukan wilayah di ruang di mana sebagian besar catatan milik kelas yang sama. Di sisi lain, pohon keputusan dapat kehilangan banyak aturan prediksi yang ditemukan oleh aturan asosiasi karena mereka berturut-turut mempartisi menjadi himpunan bagian yang lebih kecil. Ketika aturan yang ditemukan oleh pohon keputusan tidak ditemukan oleh aturan asosiasi itu baik karena kendala memangkas ruang pencarian atau karena dukungan atau kepercayaan diri terlalu tinggi. "

  • "Algoritme aturan asosiasi bisa lambat, meskipun banyak optimasi yang diusulkan dalam literatur karena mereka bekerja pada ruang kombinatorial, sedangkan pohon keputusan dapat relatif jauh lebih cepat karena masing-masing pemisahan mendapatkan subset catatan yang lebih kecil berturut-turut."

  • Masalah lain adalah bahwa pohon keputusan dapat mengulang atribut yang sama beberapa kali untuk aturan yang sama karena atribut tersebut adalah pembeda yang baik. Ini bukan masalah besar karena aturan adalah konjungsi dan oleh karena itu aturan dapat disederhanakan menjadi satu interval untuk atribut, tetapi interval tersebut umumnya kecil dan aturan terlalu spesifik. "

Kutipan dari:

Ordonez, C., & Zhao, K. (2011). Mengevaluasi aturan asosiasi dan pohon keputusan untuk memprediksi beberapa atribut target. Analisis Data Cerdas, 15 (2), 173–192.

Artikel bagus yang membahas topik ini, pasti layak dibaca.


2

Kami mungkin berpendapat bahwa aturan asosiasi dan pohon keputusan menyarankan satu set aturan kepada pengguna dan karenanya keduanya sama, tetapi kita harus memahami perbedaan teoretis antara pohon keputusan dan aturan asosiasi, dan lebih jauh bagaimana aturan yang disarankan oleh keduanya berbeda dalam arti atau digunakan.

Pertama, pohon keputusan adalah pendekatan yang diawasi di mana algoritma mencoba untuk memprediksi "hasil". Contoh khas dari "hasil" dalam situasi kehidupan nyata bisa, misalnya churn, penipuan, respons terhadap kampanye, dll. Jadi, aturan pohon keputusan digunakan untuk memprediksi hasil.

Pembelajaran aturan asosiasi adalah pendekatan tanpa pengawasan di mana algoritma mencoba untuk menemukan hubungan antara item, sering dalam database komersial besar. Contoh khas dari basis data komersial besar adalah yang berisi transaksi pengecer, seperti riwayat pembelian pelanggan di situs web e-commerce. Barang bisa berupa produk yang dibeli dari toko, atau film yang ditonton di platform streaming online. Belajar aturan asosiasi adalah semua tentang bagaimana pembelian satu produk mendorong pembelian produk lain.

Kedua, pohon keputusan dibangun berdasarkan beberapa metrik kenajisan / ketidakpastian, misalnya perolehan informasi, koefisien Gini, atau entropi, sedangkan aturan asosiasi diturunkan berdasarkan dukungan, kepercayaan, dan angkat.

Ketiga, karena pohon keputusan adalah pendekatan "diawasi", akurasinya dapat diukur, sedangkan pembelajaran aturan asosiasi adalah pendekatan "tanpa pengawasan", dan akurasinya subjektif.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.