Menggunakan uji signifikansi statistik untuk memvalidasi hasil analisis kluster


13

Saya mensurvei penggunaan uji signifikansi statistik (SST) untuk memvalidasi hasil analisis cluster. Saya telah menemukan beberapa makalah tentang topik ini, seperti

  • " Signifikansi Statistik Clustering untuk Dimensi Tinggi, Data Ukuran Sampel Kecil " oleh Liu, Yufeng et al. (2008)
  • " Pada beberapa tes signifikansi dalam analisis klaster ", oleh Bock (1985)

Tetapi saya tertarik untuk menemukan beberapa literatur dengan alasan bahwa SST TIDAK sesuai untuk memvalidasi hasil analisis cluster. Satu-satunya sumber yang saya temukan mengklaim ini adalah halaman web dari vendor perangkat lunak

Untuk memperjelas:

Saya tertarik untuk menguji apakah struktur cluster yang signifikan telah ditemukan sebagai hasil dari analisis cluster, jadi, saya ingin mengetahui makalah yang mendukung atau menyangkal kekhawatiran "tentang kemungkinan pengujian post-hoc dari hasil data eksplorasi. analisis yang digunakan untuk menemukan cluster ".

Saya baru saja menemukan makalah dari tahun 2003, " Metode pengelompokan dan klasifikasi " oleh Milligan dan Hirtle yang mengatakan, misalnya, bahwa menggunakan ANOVA akan menjadi analisis yang tidak valid karena data belum memiliki penugasan acak ke grup.


Ini adalah pertanyaan yang bagus, tetapi mungkin perlu menunjukkan bahwa itu diutarakan dengan cara yang membuatnya tampak seperti ada dikotomi: apakah Anda dapat menguji signifikansi pengelompokan atau tidak. Tetapi situasinya berbeda, karena "analisis kluster" berarti berbagai hal. Dalam makalah yang dirujuk fokusnya adalah pada pengujian apakah ada bukti untuk pengelompokan. Dalam manual perangkat lunak, kekhawatiran dinyatakan dengan tepat tentang kemungkinan pengujian pasca-hoc dari hasil analisis data eksplorasi yang digunakan untuk menemukan cluster. Tidak ada kontradiksi di sini.
whuber

Terimakasih telah menjawab. Anda benar tentang cara saya mengajukan pertanyaan. Saya tertarik untuk menguji apakah struktur cluster yang signifikan telah ditemukan sebagai hasil dari analisis cluster, jadi, saya ingin mengetahui makalah yang mendukung atau menyangkal kekhawatiran "tentang kemungkinan pengujian post-hoc dari hasil data eksplorasi. analisis yang digunakan untuk menemukan cluster ". Saya baru saja menemukan makalah dari 2003 "Metode pengelompokan dan klasifikasi" oleh Milligan dan Hirtle yang mengatakan, misalnya, bahwa menggunakan ANOVA akan menjadi analisis yang tidak valid karena data belum memiliki penugasan acak ke grup.
DPS

Mungkin dapat membantu: Dibutakan oleh sains: konsekuensi manajerial dari solusi analisis kluster yang tidak divalidasi secara tidak memadai, mrs.org.uk/ijmr_article/article/78841
rolando2

Jawaban:


3

Sangat jelas bahwa Anda tidak dapat (secara naif) menguji perbedaan dalam distribusi untuk kelompok yang didefinisikan menggunakan data yang sama. Ini dikenal sebagai "pengujian selektif", "pencelupan ganda", "inferensi melingkar", dll.

Contohnya adalah melakukan uji-t pada ketinggian orang "tinggi" dan "pendek" dalam data Anda. Nol akan (hampir) selalu ditolak.

Setelah mengatakan bahwa - seseorang memang bisa menjelaskan tahap pengelompokan pada tahap pengujian. Namun, saya tidak terbiasa dengan referensi tertentu yang melakukan itu, tetapi saya menduga ini harus dilakukan.


Saya setuju bahwa nol akan hampir selalu ditolak ketika menerapkan uji signifikansi pada kelompok-kelompok cluster yang berbeda. Meskipun - ini seharusnya hanya menjadi kasus jika clustering benar-benar berhasil memisahkan kelompok untuk semua variabel yang dipertimbangkan dalam CA? Tidak bisakah seseorang menggunakan uji signifikansi untuk menentukan apakah ada variabel yang tidak dipisahkan dengan baik antara kelompok (artinya menerapkan tes untuk setiap variabel)? Bisakah Anda jelaskan alasan statistik mengapa ini tidak direkomendasikan / masuk akal?
Lukas

Argumen formal adalah bahwa istilah kesalahan dari setiap pengukuran tidak terpusat sekitar nol. Pikirkan contoh tinggi / pendek saya: semua orang diambil dari distribusi yang sama, tetapi kelompok "tinggi" memiliki kesalahan dengan mean positif, dan mean negatif "pendek".
JohnRos

0

Alih-alih pengujian hipotesis dengan tes yang diberikan, saya akan merekomendasikan cara bootstrap atau perkiraan ringkasan lainnya di antara kluster. Misalnya Anda bisa mengandalkan bootstrap persentil dengan setidaknya 1000 sampel. Poin kuncinya adalah menerapkan pengelompokan secara independen ke setiap sampel bootstrap.

Pendekatan ini akan sangat kuat, memberikan bukti untuk perbedaan, dan mendukung klaim Anda tentang perbedaan antar-cluster yang signifikan. Selain itu, Anda dapat menghasilkan variabel lain (katakanlah perbedaan antar-kluster) dan perkiraan bootstrap dari variabel perbedaan tersebut akan serupa dengan tes formal hipotesis.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.