Saya mensurvei penggunaan uji signifikansi statistik (SST) untuk memvalidasi hasil analisis cluster. Saya telah menemukan beberapa makalah tentang topik ini, seperti
- " Signifikansi Statistik Clustering untuk Dimensi Tinggi, Data Ukuran Sampel Kecil " oleh Liu, Yufeng et al. (2008)
- " Pada beberapa tes signifikansi dalam analisis klaster ", oleh Bock (1985)
Tetapi saya tertarik untuk menemukan beberapa literatur dengan alasan bahwa SST TIDAK sesuai untuk memvalidasi hasil analisis cluster. Satu-satunya sumber yang saya temukan mengklaim ini adalah halaman web dari vendor perangkat lunak
Untuk memperjelas:
Saya tertarik untuk menguji apakah struktur cluster yang signifikan telah ditemukan sebagai hasil dari analisis cluster, jadi, saya ingin mengetahui makalah yang mendukung atau menyangkal kekhawatiran "tentang kemungkinan pengujian post-hoc dari hasil data eksplorasi. analisis yang digunakan untuk menemukan cluster ".
Saya baru saja menemukan makalah dari tahun 2003, " Metode pengelompokan dan klasifikasi " oleh Milligan dan Hirtle yang mengatakan, misalnya, bahwa menggunakan ANOVA akan menjadi analisis yang tidak valid karena data belum memiliki penugasan acak ke grup.