Cara menentukan kualitas classifier multiclass

Diberikan

dataset dengan instance $x_i$ bersama dengan kelas mana setiap instance persis milik satu kelas $N$ $x_i$ $y_i$
classifier multiclass

Setelah pelatihan dan pengujian saya pada dasarnya memiliki tabel dengan benar kelas dan diprediksi kelas untuk setiap instance dalam tes set. Jadi untuk setiap contoh saya memiliki kecocokan ( ) atau miss ( ). $y_i$ $a_i$ $x_i$ $y_i= a_i$ $y_i\neq a_i$

Bagaimana saya bisa mengevaluasi kualitas pertandingan? Masalahnya adalah bahwa beberapa kelas dapat memiliki banyak anggota, yaitu banyak instance miliknya. Jelas jika 50% dari semua poin data milik satu kelas dan klasifikasi akhir saya adalah 50% benar secara keseluruhan, saya tidak mendapatkan apa-apa. Saya bisa saja membuat classifier sepele yang menghasilkan kelas terbesar tidak peduli apa inputnya.

Apakah ada metode standar untuk memperkirakan kualitas classifier berdasarkan pengujian set hasil pertandingan dan hit yang diketahui untuk setiap kelas? Mungkin bahkan penting untuk membedakan tarif yang cocok untuk setiap kelas tertentu?

Pendekatan paling sederhana yang dapat saya pikirkan adalah dengan mengecualikan pasangan yang benar dari kelas terbesar. Apa lagi?

machine-learning classification multi-class

— Gerenuk
sumber

Saya tidak yakin apakah saya memahami pertanyaan dengan benar. Apakah Anda tahu Matriks Kebingungan dan tindakan yang diturunkan ? Apakah ini jawaban untuk pertanyaan Anda? Atau apakah Anda merujuk pada sesuatu yang lebih rumit?

— steffen

Saya pikir ini adalah sumber kebingungan saya: Pada paragraf pertama yang Anda sebutkan .. Di mana yi adalah kelas nyata dan ... : Apakah maksud Anda bahwa instance

dapat menjadi milik / memiliki lebih dari satu kelas? Atau apakah setiap

milik / memiliki tepat satu kelas? Bisakah Anda mengklarifikasi?

x_{i}

$x_i$

x_{i}

$x_i$

— steffen

@steffen: Saya telah melihat matriks kebingungan. Dalam kasus khusus saya, saya memiliki 4 kelas. Jadi saya tidak yakin tindakan turunan mana yang dapat digunakan dan akan masuk akal. Setiap

hanya milik satu kelas. Namun ada lebih dari dua kemungkinan kelas secara keseluruhan

x_{i}

$x_i$

i \in [1, \dots, N]

$i\in [1,\cdots,N]$

— Gerenuk

@steffen Langkah-langkah yang diturunkan tersebut terutama berlaku untuk klasifikasi biner , sedangkan pertanyaan ini secara eksplisit berhubungan dengan lebih dari dua kelas. Ini kemudian membutuhkan pemahaman yang dimodifikasi dari istilah-istilah seperti "benar positif."

— Michael McGowan

@MichaelMcGowan Saya telah meminta OP untuk klarifikasi dan kemudian melakukan edit untuk secara eksplisit mencerminkan masalah multiclass, yang tidak jelas sebelum diedit (IMHO).

— steffen

Jawaban:

Seperti klasifikasi biner, Anda dapat menggunakan tingkat kesalahan empiris untuk memperkirakan kualitas classifier Anda. Biarkan menjadi classifier, dan dan menjadi contoh dalam basis data Anda dan kelasnya. $g$ $x_i$ $y_i$ Seperti yang Anda katakan, ketika kelas tidak seimbang, garis dasar tidak 50% tetapi proporsi kelas yang lebih besar. Anda bisa menambahkan bobot pada setiap kelas untuk menyeimbangkan kesalahan. Biarkanmenjadi bobot kelas. Atur bobot sedemikian rupa sehingga

e r r (g) = \frac{1}{n} \sum_{saya \leq n} 1_{g (x_{saya}) \neq y_{saya}}

$err(g) = \frac{1}{n} \sum_{i \leq n} \mathbb{1}_{g(x_i) \neq y_i}$

W_{y}

$W_y$

y

$y$

dan menentukankesalahan empiris tertimbang

\frac{1}{W_{y}} \sim \frac{1}{n} \sum_{i \leq n} 1_{y_{i} = y}

$\frac{1}{W_y} \sim \frac{1}{n}\sum_{i \leq n} \mathbb{1}_{y_i = y}$

e r r_{W} (g) = \frac{1}{n} \sum_{i \leq n} W_{y_{i}} 1_{g (x_{i}) \neq y_{i}}

$err_W(g) = \frac{1}{n} \sum_{i \leq n} W_{y_i} \mathbb{1}_{g(x_i) \neq y_i}$

Seperti yang dikatakan Steffen, matriks kebingungan bisa menjadi cara yang baik untuk memperkirakan kualitas classifier. Dalam kasus biner, Anda dapat memperoleh beberapa ukuran dari matriks ini seperti sensitivitas dan spesifisitas, memperkirakan kemampuan classifier untuk mendeteksi kelas tertentu. Sumber kesalahan pengklasifikasi mungkin dengan cara tertentu. Misalnya classifier bisa menjadi terlalu percaya diri ketika memprediksi 1, tetapi tidak pernah mengatakan salah ketika memprediksi 0. Banyak pengklasifikasi dapat ditentukan untuk mengendalikan tingkat ini (false positive vs false negative), dan Anda kemudian tertarik pada kualitas dari seluruh keluarga classifier, bukan hanya satu. Dari sini Anda dapat memplot kurva ROC , dan mengukur area di bawah kurva ROC memberi Anda kualitas pengklasifikasi tersebut.

Kurva ROC dapat diperpanjang untuk masalah multikelas Anda. Saya sarankan Anda untuk membaca jawaban utas ini .

— Emile
sumber

Apakah tidak perlu membagi kesalahan empiris tertimbang dengan jumlah kelas, untuk berada pada skala yang sama dengan kesalahan empiris? Kalau tidak, akan jauh lebih besar ...

— PhilippPro

Untuk mengevaluasi sistem klasifikasi teks multi-arah, saya menggunakan F1 mikro-dan makro-rata-rata (ukuran-F). Ukuran-F pada dasarnya adalah kombinasi dari presisi dan mengingatnya. Untuk klasifikasi biner, pendekatan mikro dan makro adalah sama, tetapi, untuk kasus multi-arah, saya pikir mereka dapat membantu Anda. Anda dapat menganggap Mikro F1 sebagai kombinasi presisi dan daya ingat berbobot yang memberikan bobot sama untuk setiap dokumen, sedangkan Makro F1 memberikan bobot yang sama untuk setiap kelas. Untuk masing-masing, persamaan ukuran-F adalah sama, tetapi Anda menghitung presisi dan mengingat berbeda:

F = \frac{(β^{2} + 1) P R}{β^{2} P + R},

$F = \frac{(\beta^{2} + 1)PR}{\beta^{2}P+R},$

$\beta$

P_{m i c r o} = \frac{\sum_{i = 1}^{| C |} T P_{i}}{\sum_{i = 1}^{| C |} T P_{i} + F P_{i}}, R_{m i c r o} = \frac{\sum_{i = 1}^{| C |} T P_{i}}{\sum_{i = 1}^{| C |} T P_{i} + F N_{i}}

$P_{micro}=\frac{\sum^{|C|}_{i=1}TP_{i}}{\sum^{|C|}_{i=1}TP_{i}+FP_{i}}, R_{micro}=\frac{\sum^{|C|}_{i=1}TP_{i}}{\sum^{|C|}_{i=1}TP_{i}+FN_{i}}$

P_{m a c r o} = \frac{1}{| C |} \sum_{i = 1}^{| C |} \frac{T P_{i}}{T P_{i} + F P_{i}}, R_{m a c r o} = \frac{1}{| C |} \sum_{i = 1}^{| C |} \frac{T P_{i}}{T P_{i} + F N_{i}}

$P_{macro}=\frac{1}{|C|}\sum^{|C|}_{i=1}\frac{TP_{i}}{TP_{i}+FP_{i}}, R_{macro}=\frac{1}{|C|}\sum^{|C|}_{i=1}\frac{TP_{i}}{TP_{i}+FN_{i}}$

$TP$ $FP$ $FN$ $C$

— Kyle.
sumber

# Function in R, using precision, recall and F statistics

check.model.accuracy <- function(predicted.class, actual.class){

  result.tbl <- as.data.frame(table(predicted.class,actual.class ) ) 

  result.tbl$Var1 <- as.character(result.tbl$predicted.class)
  result.tbl$Var2 <- as.character(result.tbl$actual.class)

  colnames(result.tbl)[1:2] <- c("Pred","Act")

  cntr <- 0  
  for (pred.class in unique(result.tbl$Pred) ){
    cntr <- cntr+ 1
    tp <- sum(result.tbl[result.tbl$Pred==pred.class & result.tbl$Act==pred.class, "Freq"])
    tp.fp <- sum(result.tbl[result.tbl$Pred == pred.class , "Freq" ])
    tp.fn <- sum(result.tbl[result.tbl$Act == pred.class , "Freq" ])
    presi <- tp/tp.fp 
    rec <- tp/tp.fn
    F.score <- 2*presi*rec/(presi+rec)
    if (cntr == 1 ) F.score.row <- cbind(pred.class, presi,rec,F.score)
    if (cntr > 1 ) F.score.row <- rbind(F.score.row,cbind(pred.class,presi,rec,F.score))
  }

  F.score.row <- as.data.frame(F.score.row) 
  return(F.score.row)
}

check.model.accuracy(predicted.df,actual.df) 
# For multiclass, average across all classes

— Ashish Markanday
sumber

Bisakah Anda menambahkan beberapa teks untuk menjelaskan hal ini?

— gung - Reinstate Monica