kkk = 2
Namun, dalam banyak dataset dunia nyata, klaster tidak terdefinisi dengan baik, dan kami ingin dapat menyeimbangkan memaksimalkan statistik kesenjangan dengan kekikiran model. Contoh kasus: gambar pertama OP. Jika kita memaksimalkan statistik gap saja , maka kita harus memilih model dengan 30 (atau bahkan lebih!) Cluster. Anggap saja plot itu hanya akan terus meningkat, tentu saja hasilnya kurang bermanfaat. Jadi Tibshirani menyarankan metode 1-standard-error :
k^kGap ( k ) ≥ Gap ( k + 1 ) - sk + 1
Yang secara informal mengidentifikasi titik di mana tingkat peningkatan statistik kesenjangan mulai "melambat".
k
k > 1k1
kclusGap
kfirstSEmax
k = 30k = 19
Sumber: Robert Tibshirani, Guenther Walther, dan Trevor Hastie (2001). Memperkirakan jumlah cluster dalam set data melalui statistik gap.