Bagaimana saya harus menginterpretasikan statistik GAP?


10

Saya menggunakan statistik GAP untuk memperkirakan k cluster di R. Namun saya tidak yakin apakah saya menafsirkannya dengan baik. masukkan deskripsi gambar di sini

Dari plot di atas saya berasumsi bahwa saya harus menggunakan 3 cluster.

masukkan deskripsi gambar di sini

Dari plot kedua saya harus memilih 6 cluster. Benarkah interpretasi statistik GAP?

Saya akan berterima kasih atas penjelasan apa pun.


Dua pertanyaan - Apa yang ditunjukkan plot pertama? Apakah ini statistik GAP untuk data yang sama? Mengapa itu terlihat berbeda dari yang kedua (yang saya lihat adalah GAP). Fungsi R apa yang Anda gunakan? Pertanyaan kedua: apakah Anda menggunakan aturan '1-standard error' untuk memilih 6 untuk plot kedua?
Deathkill14

Jadi ada dua pendekatan berbeda untuk pengelompokan. Yang pertama berdasarkan time-series - penjualan selama 26 minggu dan saya mengelompokkan data berdasarkan pembengkokan waktu dinamis. Pendekatan kedua adalah untuk mengelompokkan parameter kurva pertumbuhan, juga berdasarkan pada waktu dinamis. Saya menggunakan clusGapberdasarkan globalmax, saya tidak tahu bagaimana menerapkan maxSE.
peterpeter

Jawaban:


11

kkk=2

Statistik kesenjangan

Namun, dalam banyak dataset dunia nyata, klaster tidak terdefinisi dengan baik, dan kami ingin dapat menyeimbangkan memaksimalkan statistik kesenjangan dengan kekikiran model. Contoh kasus: gambar pertama OP. Jika kita memaksimalkan statistik gap saja , maka kita harus memilih model dengan 30 (atau bahkan lebih!) Cluster. Anggap saja plot itu hanya akan terus meningkat, tentu saja hasilnya kurang bermanfaat. Jadi Tibshirani menyarankan metode 1-standard-error :

k^kCelah(k)Celah(k+1)-sk+1

Yang secara informal mengidentifikasi titik di mana tingkat peningkatan statistik kesenjangan mulai "melambat".

k

Gambar beranotasi 1

k>1k1

kclusGapkfirstSEmaxk=30k=19

Sumber: Robert Tibshirani, Guenther Walther, dan Trevor Hastie (2001). Memperkirakan jumlah cluster dalam set data melalui statistik gap.


1
kk

Terima kasih telah menunjukkan trade off antara memaksimalkan statistik gap dan mendapatkan
kekalahan
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.