Analisis diskriminan linier dan aturan Bayes: klasifikasi

Apa hubungan antara analisis diskriminan Linear dan aturan Bayes? Saya mengerti bahwa LDA digunakan dalam klasifikasi dengan mencoba meminimalkan rasio dalam varians grup dan antara varians grup, tapi saya tidak tahu bagaimana aturan Bayes digunakan di dalamnya.

classification discriminant-analysis bayes

— zca0
sumber

Fungsi-fungsi diskriminan diekstraksi untuk memaksimalkan variasi antara kelompok dengan rasio variasi dalam kelompok. Ini tidak ada hubungannya dengan klasifikasi, yang merupakan tahap kedua dan berdiri sendiri LDA.

— ttnphns

Klasifikasi dalam LDA berjalan sebagai berikut (pendekatan aturan Bayes). [Tentang ekstraksi diskriminan orang mungkin melihat di sini .]

Menurut teorema Bayes, probabilitas dicari yang kita hadapi dengan kelas sambil mengamati saat ini titik adalah , di mana $k$ $x$ $P(k|x) = P(k)*P(x|k) / P(x)$

- probabilitas (latar belakang) tanpa syarat dari kelas ; - probabilitas (latar belakang) tanpa syarat dari titik ; - probabilitas keberadaan titik di kelas , jika kelas yang ditangani adalah . $P(k)$ $k$ $P(x)$ $x$ $P(x|k)$ $x$ $k$ $k$

"Mengamati titik saat ini " sebagai kondisi dasar, , dan penyebutnya dapat dihilangkan. Jadi, . $x$ $P(x)=1$ $P(k|x) = P(k)*P(x|k)$

adalah probabilitas sebelum (pra-analitis) bahwa kelas asli untuk adalah ; ditentukan oleh pengguna. Biasanya secara default semua kelas menerima = 1 / number_of_classes yang sama. Untuk menghitung , yaitu probabilitas posterior (pasca-analitis) bahwa kelas asli untuk adalah , kita harus mengetahui . $P(k)$ $x$ $k$ $P(k)$ $P(k)$ $P(k|x)$ $x$ $k$ $P(x|k)$

- probabilitasper se- tidak dapat ditemukan, untuk diskriminan, masalah utama LDA, adalah variabel kontinu, bukan diskrit. Kuantitas mengekspresikan dalam hal ini dan sebanding dengan itu adalahkepadatan probabilitas(fungsi PDF). Dengan ini kita perlu menghitung PDF untuk titik di kelas , , dalamdistribusi normal dimensional yang dibentuk oleh nilai-nilai $P(x|k)$ $P(x|k)$ $x$ $k$ $PDF(x|k)$ $p$ $p$ diskriminan. [Lihat distribusi normal Wikipedia Multivarian]

P D F (x | k) = \frac{e^{- d / 2}}{(2 π)^{p / 2} \sqrt{| S |})}

$PDF(x|k) = \frac {e^{-d/2}} {(2\pi)^{p/2}\sqrt{\bf |S|})}$

di mana - kuadrat jarak Mahalanobis [Lihat jarak Mahalanobis Wikipedia] di ruang diskriminan dari titik ke kelas centroid; Matriks - kovarians antara diskriminan , diamati dalam kelas tersebut. $d$ $x$ $\bf S$

Hitung dengan cara ini untuk masing-masing kelas. untuk titik dan kelas menyatakan dicari untuk untuk kita. Tetapi dengan cadangan di atas bahwa PDF bukan probabilitas per se, hanya sebanding dengan itu, kita harus menormalkan $PDF(x|k)$ $P(k)*PDF(x|k)$ $x$ $k$ $P(k)*P(x|k)$ , membaginya dengan jumlah untuk semua kelas. Misalnya, jika ada 3 kelas di semua, , , , maka $P(k)*PDF(x|k)$ $P(k)*PDF(x|k)$ $k$ $l$ $m$

Titik ditugaskan oleh LDA ke kelas yang adalah yang tertinggi. $x$ $P(k|x)$

Catatan. Ini adalah pendekatan umum. Banyak program LDA secara default menggunakan gabungan matriks kelas- untuk semua kelas dalam rumus untuk PDF di atas. Jika demikian, rumus ini sangat disederhanakan karena dalam LDA adalah matriks identitas (lihat catatan kaki bawah di sini ), dan karenanya dan berubah menjadi kuadrat jarak euclidean (pengingat: kumpulan dalam kelas sedang kita bicarakan adalah kovarian antara pembeda, - bukan antara variabel input, yang biasanya disebut matriks sebagai ). $\bf S$ $\bf S$ $\bf |S|=1$ $d$ $\bf S$ $\bf S_w$

Selain itu . Sebelum pendekatan aturan Bayes di atas untuk klasifikasi diperkenalkan ke LDA, Fisher, pelopor LDA, mengusulkan komputasi yang sekarang disebut fungsi klasifikasi linear Fisher untuk mengklasifikasikan poin dalam LDA. Untuk titik skor fungsi milik kelas adalah kombinasi linear , di mana $x$ $k$ $b_{kv1}V1_x+b_{kv2}V2_x+...+Const_k$ adalah variabel prediktor dalam analisis. $V1, V2,...V_p$

Koefisien , menjadi jumlah kelas dan menjadi unsur yang dikumpulkan dalam kelas pencar matriks -variables. $b_{kv}=(n-g)\sum_w^p{s_{vw}\bar{V}_{kw}}$ $g$ $s_{vw}$ $p$ $V$

. $Const_k=\log(P(k))-(\sum_v^p{b_{kv}\bar{V}_{kv}})/2$

Poin ditugaskan ke kelas yang nilainya tertinggi. Hasil klasifikasi yang diperoleh dengan metode Fisher ini (yang memotong ekstraksi diskriminan yang terlibat dalam komposisi eigendekompleks) identik dengan yang diperoleh dengan metode Bayes hanya jika matriks kovarians yang digabungkan dalam kelas digunakan dengan metode Bayes berdasarkan metode diskriminan (lihat "Catatan" di atas) dan semua diskriminan digunakan dalam klasifikasi. Metode Bayes lebih umum karena memungkinkan menggunakan matriks dalam kelas yang terpisah juga. $x$

— ttnphns
sumber

Ini pendekatan Bayesian kan? Apa pendekatan Fisher untuk ini?

— zca0

Ditambahkan ke jawaban atas permintaan Anda

— ttnphns

+1 untuk membedakan antara pendekatan Bayes 'dan Fisher dari LDA. Saya pendatang baru di LDA, dan buku yang saya baca mengajarkan saya pendekatan LDA dalam Bayes, yang mengklasifikasikan

ke kelas

dengan

tertinggi

, jadi saya harus menghitung semua

untuk setiap kelas

, kan? Dengan pendekatan Fisher, saya hanya perlu mencari tahu diskriminan dan koefisien yang sesuai, dan tidak perlu menghitung posterior untuk setiap kelas, kan?

X

$X$

K

$K$

p (K | X)

$p(K|X)$

p (K | X)

$p(K|X)$

K

$K$

— alpukat

Dan saya pikir pendekatan Bayes lebih mudah dipahami, dan mengapa kita perlu menggunakan pendekatan Fisher?

— alpukat

Kami tidak butuh. Hanya untuk masalah sejarah.

— ttnphns

$x$ $f_1(x)$ $f_2(x)$ $x$ $f_1(x) \geq f_2(x)$ $f_1$ $f_2$

— Michael R. Chernick
sumber