Saya baru dalam analisis sekuens, dan saya bertanya-tanya bagaimana Anda bereaksi jika rata-rata lebar siluet (ASW) dari analisis kluster dari matriks ketidaksamaan berbasis Pencocokan Optimal rendah (sekitar.25). Apakah akan tepat untuk menyimpulkan bahwa ada sedikit struktur mendasar yang akan memungkinkan urutan untuk dikelompokkan? Mungkinkah Anda mengabaikan ASW rendah berdasarkan ukuran kualitas cluster lainnya (saya telah menempelkan beberapa di bawah)? Atau mungkinkah pilihan yang dibuat selama analisis urutan atau analisis kluster berikutnya mungkin bertanggung jawab atas angka ASW yang rendah?
Setiap saran akan dihargai. Terima kasih.
Jika diperlukan lebih banyak konteks:
Saya memeriksa 624 urutan ketidakcocokan jam kerja (yaitu, ketidakcocokan antara jumlah jam seseorang lebih memilih untuk bekerja dalam seminggu dan jumlah jam mereka sebenarnya bekerja) di antara orang-orang berusia 20-an. Semua urutan yang saya periksa memiliki panjang 10. Objek urutan saya memiliki lima negara (M = ingin lebih banyak jam, S = ingin jam yang sama, F = ingin lebih sedikit jam, O = keluar dari angkatan kerja, dan U = menganggur ).
Saya belum melakukan penghitungan yang sistematis tentang bagaimana hasil ASW bervariasi dengan kombinasi pendekatan yang berbeda. Namun, saya telah mencoba biaya rendah dan menengah (0,1 dan 0,6 dari biaya substitusi maks - saya lebih peduli tentang urutan peristiwa daripada waktu mereka) dan prosedur pengelompokan yang berbeda (bangsal, rata-rata, dan pam). Kesan keseluruhan saya adalah bahwa angka ASW tetap rendah.
Mungkin hasil ASW yang rendah masuk akal. Saya berharap negara-negara ini datang dalam berbagai pesanan yang berbeda, dan negara-negara bagian dapat diulang. Menghapus pengamatan duplikat hanya menurunkan N dari 624 menjadi 536. Mempelajari data mengungkapkan bahwa memang ada sedikit variasi dan urutan yang saya anggap sangat berbeda misalnya, orang-orang yang menginginkan jam yang sama sepanjang waktu, mengembangkan ketidakcocokan, menyelesaikan ketidakcocokan, dan terombang-ambing antara memiliki dan tidak memiliki ketidakcocokan. Mungkin kurangnya kelompok yang dibedakan secara jelas bukanlah hal yang sama dengan kurangnya variasi yang menarik. Namun, hasil cluster yang lemah tampaknya membuat saya tanpa cara yang baik untuk meringkas urutannya.
Hasil dari metode Ward dengan indel ditetapkan pada 0,1 dari biaya substitusi 2 Statistik ini tampaknya menunjukkan solusi 6 klaster mungkin baik. ASW, bagaimanapun, rendah - setidaknya untuk solusi yang memiliki jumlah cluster yang masuk akal (2 atau 3 terlalu sedikit).
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08