Saya memiliki dataset yang terdiri dari 5 fitur: A, B, C, D, E. Mereka semua adalah nilai numerik. Alih-alih melakukan pengelompokan berbasis kepadatan, apa yang ingin saya lakukan adalah mengelompokkan data dengan cara seperti pohon keputusan.
Pendekatan yang saya maksud adalah sesuatu seperti ini:
Algoritme dapat membagi data ke dalam kelompok awal X berdasarkan fitur C, yaitu kelompok X mungkin memiliki nilai C kecil, sedang, C besar dan nilai C sangat besar dll. Selanjutnya, di bawah masing-masing simpul kelompok X, algoritma selanjutnya membagi data ke dalam cluster Y berdasarkan fitur A. Algoritma berlanjut sampai semua fitur digunakan.
Algoritma yang saya jelaskan di atas seperti algoritma pohon keputusan. Tapi saya membutuhkannya untuk pengelompokan tanpa pengawasan, bukan klasifikasi terawasi.
Pertanyaan saya adalah sebagai berikut:
- Apakah algoritma seperti itu sudah ada? Apa nama yang tepat untuk algoritma tersebut
- Apakah ada paket / pustaka R / python yang memiliki implementasi algoritma semacam ini?
CHAID
pohon, misalnya. Anda harus memilih variabel dependen. Biarlah A. Algoritme memilih antara B, C, D, E variabel yang paling berkorelasi dengan A dan binn bahwa variabel (katakanlah, itu, prediktor, menjadi D) menjadi dua atau lebih kategori "optimal" - sehingga korelasi (antara variabel D yang dikategorikan dan variabel A dimaksimalkan. Katakanlah, ia meninggalkan 3 grup, D1, D2, D3. Selanjutnya, prosedur yang sama diulang dalam setiap kategori (grup) D secara terpisah, dan prediktor terbaik di antara B, C , E dicari di bawah binning itu. Dll. Apa sebenarnya yang tidak cocok untuk Anda di sini?
But I need it for unsupervised clustering, instead of supervised classification
Frasa kunci ini saja terlalu singkat dan tidak menjelaskan dengan jelas apa yang Anda inginkan. Di atas itu Anda menggambarkan apa yang menurut saya merupakan pohon keputusan. Dapatkah Anda sekarang memberikan bagian yang serupa tentang algo yang Anda inginkan?