Saat ini saya menggunakan beberapa pengklasifikasi yang berbeda pada berbagai entitas yang diekstraksi dari teks, dan menggunakan presisi / mengingat sebagai ringkasan seberapa baik kinerja masing-masing pengklasifikasi yang terpisah di seluruh dataset yang diberikan.
Saya bertanya-tanya apakah ada cara yang berarti untuk membandingkan kinerja pengklasifikasi ini dengan cara yang sama, tetapi yang juga memperhitungkan jumlah total masing-masing entitas dalam data uji yang diklasifikasikan?
Saat ini, saya menggunakan presisi / mengingat sebagai ukuran kinerja, jadi mungkin ada sesuatu seperti:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Namun, set data yang saya gunakan mungkin berisi 100k orang, 5k perusahaan, 500 keju, dan 1 telur.
Jadi adakah statistik ringkasan yang dapat saya tambahkan ke tabel di atas yang juga memperhitungkan jumlah total setiap item? Atau adakah cara untuk mengukur fakta bahwa mis. 100% prec / rec pada classifier telur mungkin tidak bermakna dengan hanya 1 item data?
Katakanlah kita memiliki ratusan pengklasifikasi seperti itu, saya kira saya sedang mencari cara yang baik untuk menjawab pertanyaan seperti "Pengklasifikasi manakah yang berkinerja buruk? Pengklasifikasi mana yang tidak memiliki data uji yang cukup untuk mengetahui apakah mereka berkinerja buruk?".