Dalam konteks analisis cluster, Purity adalah kriteria evaluasi eksternal kualitas cluster. Ini adalah persen dari jumlah total objek (titik data) yang diklasifikasikan dengan benar, dalam kisaran unit [0..1].
Purity=1N∑i=1kmaxj|ci∩tj|
di mana = jumlah objek (titik data), = jumlah cluster, adalah sebuah cluster di , dan adalah klasifikasi yang memiliki jumlah maksimum untuk clusterNkciCtjci
Ketika kita mengatakan "dengan benar" yang menyiratkan bahwa setiap cluster telah mengidentifikasi sekelompok objek sebagai kelas yang sama dengan yang telah ditunjukkan oleh kebenaran dasar. Kami menggunakan klasifikasi kebenaran dasar dari objek-objek itu sebagai ukuran kebenaran penugasan, namun untuk melakukannya kita harus tahu cluster memetakan peta ke mana klasifikasi kebenaran dasar . Jika 100% akurat maka setiap akan dipetakan ke tepat 1 , tetapi dalam kenyataannya kami berisi beberapa poin yang kebenaran dasarnya mengklasifikasikannya sebagai beberapa klasifikasi lain. Secara alami kita dapat melihat bahwa kualitas pengelompokan tertinggi akan diperoleh dengan menggunakan untukciticiticiticicitipemetaan yang memiliki klasifikasi paling benar yaitu . Dari situlah berasal dari dalam persamaan.ci∩timax
Untuk menghitung Kemurnian, pertama-tama buat matriks kebingungan Anda. Ini dapat dilakukan dengan melakukan perulangan melalui setiap gugus dan menghitung berapa banyak objek yang diklasifikasikan sebagai setiap kelas .citi
| T1 | T2 | T3
---------------------
C1 | 0 | 53 | 10
C2 | 0 | 1 | 60
C3 | 0 | 16 | 0
Kemudian untuk setiap cluster , pilih nilai maksimum dari barisnya, jumlahkan semuanya dan akhirnya bagi dengan jumlah total poin data.ci
Purity = (53 + 60 + 16) / 140 = 0.92142