Ini sudah ada dalam pikiran saya selama setidaknya beberapa jam. Saya mencoba menemukan k yang optimal untuk output dari algoritma k-means (dengan metrik kesamaan cosine ) jadi saya akhirnya merencanakan distorsi sebagai fungsi dari jumlah cluster. Dataset saya adalah kumpulan 800 dokumen dalam ruang 600 dimensi.
Dari apa yang saya mengerti, menemukan titik lutut atau titik siku pada kurva ini harus memberi tahu saya setidaknya tentang jumlah cluster yang saya butuhkan untuk memasukkan data saya. Saya meletakkan grafik di bawah ini. Titik di mana garis merah vertikal ditarik diperoleh dengan menggunakan tes turunan maksimum kedua . Setelah melakukan semua ini, saya terjebak pada sesuatu yang lebih sederhana: apa yang diceritakan grafik ini tentang dataset?
Apakah ini memberitahu saya bahwa itu tidak layak untuk dikelompokkan dan dokumen saya tidak memiliki struktur atau saya perlu menetapkan k yang sangat tinggi? Satu hal yang aneh adalah bahwa meskipun dengan k rendah, saya melihat dokumen serupa dikelompokkan jadi saya tidak yakin mengapa saya mendapatkan kurva ini. Adakah pikiran?
terms x document
diperoleh setelah melakukan vektor tunggal penguraian. Harap perbaiki saya jika saya salah.