Mengapa Bayes Classifier adalah classifier yang ideal?

11

Ini dianggap sebagai kasus ideal di mana struktur probabilitas yang mendasari kategori dikenal dengan sempurna.

Mengapa dengan Bayes classifier kita mencapai kinerja terbaik yang bisa dicapai?

Apa bukti / penjelasan formal untuk ini? Karena kami selalu menggunakan pengklasifikasi Bayes sebagai tolok ukur untuk membandingkan kinerja semua pengklasifikasi lainnya.

— Vatsal
sumber

9

Mengapa dengan Bayes classifier kita mencapai kinerja terbaik yang bisa dicapai? Apa bukti / penjelasan formal untuk ini?

Biasanya, dataset dianggap terdiri dari sampel i dari distribusi yang menghasilkan data Anda. Kemudian, Anda membangun model prediksi dari data yang diberikan: diberikan sampel , Anda memprediksi kelas , sedangkan kelas sampel sebenarnya adalah . $D$ $n$ $x_i$ $x_i$ $\hat{f}(x_i)$ $f(x_i)$

Namun, secara teori, Anda dapat memutuskan untuk tidak memilih satu model tertentu , melainkan mempertimbangkan semua model yang mungkin sekaligus dan menggabungkannya entah bagaimana menjadi satu model besar . $\hat{f}_\text{chosen}$ $\hat{f}$ $\hat F$

Tentu saja, mengingat data, banyak model yang lebih kecil bisa sangat tidak mungkin atau tidak sesuai (misalnya, model yang memprediksi hanya satu nilai target, meskipun ada beberapa nilai target dalam dataset ). $D$

Bagaimanapun, Anda ingin memprediksi nilai target sampel baru, yang diambil dari distribusi yang sama dengan . Sebuah baik ukuran kinerja model Anda akan yaitu, probabilitas bahwa Anda memprediksi nilai target sebenarnya untuk sampel acak . $x_i$ $e$

e (model) = P [f (X) = model (X)],

$e(\text{model}) = P[f(X) = \text{model}(X)]\text{,}$

X

$X$

Menggunakan rumus Bayes, Anda dapat menghitung, berapa probabilitas bahwa sampel memiliki nilai target , mengingat data : $x$ $v$ $D$

P (v ∣ D) = \sum_{\hat{f}} P (v ∣ \hat{f}) P (\hat{f} ∣ D) .

$P(v\mid D) = \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$ Seseorang harus menekankan bahwa

biasanya adalah atau , karena adalah fungsi deterministik dari , $P(v\mid \hat{f})$ $0$ $1$ $\hat{f}$ $x$
tidak biasanya, tetapi hampir sepanjang waktu, tidak mungkin untuk memperkirakan (kecuali untuk kasus-kasus sepele yang disebutkan sebelumnya), $P(\hat{f}\mid D)$
tidak biasanya, tetapi hampir sepanjang waktu, jumlah model yang mungkin terlalu besar, untuk jumlah atas untuk dievaluasi. $\hat{f}$

Karenanya, sangat sulit untuk memperoleh / memperkirakan dalam sebagian besar kasus. $P(v\mid D)$

Sekarang, kita lanjutkan ke pengklasifikasi Optimal Bayes. Untuk diberikan , ia memprediksi nilai Karena ini adalah nilai yang paling mungkin di antara semua nilai target yang mungkin , classifier Optimal Bayes memaksimalkan ukuran kinerja . $x$

\hat{v} = {argmax}_{v} \sum_{\hat{f}} P (v ∣ \hat{f}) P (\hat{f} ∣ D) .

$\hat{v} = \text{argmax}_v \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$

v

$v$

e (\hat{f})

$e(\hat{f})$

Karena kami selalu menggunakan pengklasifikasi Bayes sebagai tolok ukur untuk membandingkan kinerja semua pengklasifikasi lainnya.

Mungkin, Anda menggunakan versi naif dari classifier Bayes. Mudah untuk diimplementasikan, bekerja dengan cukup baik hampir sepanjang waktu, tetapi hanya menghitung estimasi naif . $P(v\mid D)$

— Antoine
sumber

Apakah pengklasifikasi Bayes (bukan naif bayes) sama dengan pengklasifikasi optimal bayes ???? dan apakah probabilitas sebelumnya?

P (v | f)

$P(v|f)$

— RuiQi

@RuiQi Saya tidak berpikir bahwa ada hal seperti itu classifier Bayes. Saya menyadari classifier Bayes yang naif dan classifier Bayes yang optimal.

— Antoine

@RuiQi adalah probabilitas bahwa sampel yang akan diklasifikasi akan jatuh ke kelas jika kita menggunakan model prediksi . Saya kira, Anda bisa menyebutnya probabilitas sebelumnya.

P (v ∣ \hat{f})

$P(v\mid \hat{f})$

v

$v$

\hat{f}

$\hat{f}$

— Antoine

0

Kinerja dalam hal tingkat keberhasilan classifier berkaitan dengan probabilitas bahwa kelas sama dengan kelas prediksi . $C_T$ $C_P$

Anda dapat mengekspresikan probabilitas ini sebagai integral dari semua situasi yang mungkin dari vektor fitur (atau jumlah ketika adalah diskrit) dan probabilitas bersyarat untuk mengklasifikasikan yang benar untuk $X$ $X$ $x$

P (C_{T} = C_{P}) = \int_{all possible X} f (x) P (C_{T} = C_{P} | x) d x

$P(C_T=C_P) = \int_{\text{all possible $X$}} f(x)P(C_T=C_P|x) \text{d}x$

Di mana adalah probabilitas untuk vektor fitur . $f(x)$ $X$

Jika, untuk beberapa set fitur yang mungkin $x$

$x$ $P(C_T=C_P|x)$ $x$

— Sextus Empiricus
sumber