Mengukur kinerja berbagai pengklasifikasi dengan ukuran sampel yang berbeda


12

Saat ini saya menggunakan beberapa pengklasifikasi yang berbeda pada berbagai entitas yang diekstraksi dari teks, dan menggunakan presisi / mengingat sebagai ringkasan seberapa baik kinerja masing-masing pengklasifikasi yang terpisah di seluruh dataset yang diberikan.

Saya bertanya-tanya apakah ada cara yang berarti untuk membandingkan kinerja pengklasifikasi ini dengan cara yang sama, tetapi yang juga memperhitungkan jumlah total masing-masing entitas dalam data uji yang diklasifikasikan?

Saat ini, saya menggunakan presisi / mengingat sebagai ukuran kinerja, jadi mungkin ada sesuatu seperti:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

Namun, set data yang saya gunakan mungkin berisi 100k orang, 5k perusahaan, 500 keju, dan 1 telur.

Jadi adakah statistik ringkasan yang dapat saya tambahkan ke tabel di atas yang juga memperhitungkan jumlah total setiap item? Atau adakah cara untuk mengukur fakta bahwa mis. 100% prec / rec pada classifier telur mungkin tidak bermakna dengan hanya 1 item data?

Katakanlah kita memiliki ratusan pengklasifikasi seperti itu, saya kira saya sedang mencari cara yang baik untuk menjawab pertanyaan seperti "Pengklasifikasi manakah yang berkinerja buruk? Pengklasifikasi mana yang tidak memiliki data uji yang cukup untuk mengetahui apakah mereka berkinerja buruk?".


Jika Anda memiliki pengklasifikasi yang berbeda dilatih tentang kumpulan data yang berbeda, bagaimana Anda bisa membandingkannya dengan cara yang bermakna? Apel dan jeruk, kapur dan keju muncul di benak Anda. Juga, jika Anda memiliki klasifikasi multi-kelas, bagaimana Anda menghitung presisi dan daya ingat? Bahkan mengetahui N = 1 tidak selalu membantu - jika hanya ada satu telur di dunia, penggolong telur Anda baik-baik saja.
Bull

Mereka berbeda pengklasifikasi dilatih pada dataset yang sama, misalnya kita tahu kita memiliki dokumen yang tentang apel dan jeruk, jadi kami menjalankan classifier apel untuk menentukan jenis apel yang dibicarakan, dan classifier oranye untuk menentukan jenis jeruk ini berbicara tentang. Jika dokumen kami adalah 99% tentang apel, 1% tentang jeruk, dan kedua pengklasifikasi memiliki prec / rec yang sama (menjumlahkan baris / cols di atas matriks kebingungan), adakah informasi yang dapat kami sajikan yang memperhitungkan perbedaan jumlah masing-masing ? (mungkin tidak, tidak ada, yang merupakan jawaban yang akan saya senangi)
Dave Challis

Jawaban:


5

Anda perlu melihat interval kepercayaan dari statistik. Ini membantu mengukur seberapa banyak ketidakpastian dalam statistik, yang sebagian besar merupakan fungsi dari ukuran sampel.


2

Menurut pendapat saya, sulit untuk membandingkan kinerja ketika ada perbedaan ukuran yang besar. Pada tautan ini, (silakan periksa di sini di Wikipedia http://en.wikipedia.org/wiki/Effect_size ), Anda dapat melihat berbagai strategi.

Yang saya sarankan adalah yang terkait dengan varians. Misalnya, pertimbangkan kinerja classifier (100%) dan classifier orang (65%). Kesalahan minimum yang Anda lakukan dengan classifier sebelumnya adalah 100%. Namun, kesalahan minimum yang dapat Anda lakukan dengan classifier yang terakhir adalah 10e-5.

Jadi salah satu cara untuk membandingkan classifier adalah dengan memikirkan Aturan Tiga ini ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) di mana Anda dapat membandingkan kinerja dan variabilitasnya.

Kemungkinan lain adalah ukuran-F yang merupakan kombinasi dari Precision dan Recall dan itu entah bagaimana independen terhadap ukuran efek.


2

Jumlah data di kelas kadang-kadang disebut sebagai supportclassifier. Ini memberi tahu seberapa besar Anda bisa memercayai hasil Anda, seperti nilai-p akan memungkinkan Anda untuk mempercayai atau tidak mempercayai beberapa tes.

Salah satu pendekatan yang dapat Anda gunakan adalah untuk menghitung beberapa ukuran kinerja classifier, tidak hanya presisi dan daya ingat, tetapi juga tingkat positif benar, tingkat positif palsu, spesifisitas, sensitivitas, kemungkinan positif, kemungkinan negatif, dll. Dan melihat apakah mereka konsisten satu sama lain . Jika salah satu ukuran maxes out (100%) dan yang lainnya tidak, seringkali, dalam pengalaman saya, menunjukkan ada yang tidak beres (mis. Dukungan buruk, klasifikasi sepele, klasifikasi bias, dll.). Lihat ini untuk daftar ukuran kinerja pengklasifikasi.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.