Analisis diskriminan linier dan aturan Bayes: klasifikasi


12

Apa hubungan antara analisis diskriminan Linear dan aturan Bayes? Saya mengerti bahwa LDA digunakan dalam klasifikasi dengan mencoba meminimalkan rasio dalam varians grup dan antara varians grup, tapi saya tidak tahu bagaimana aturan Bayes digunakan di dalamnya.


Fungsi-fungsi diskriminan diekstraksi untuk memaksimalkan variasi antara kelompok dengan rasio variasi dalam kelompok. Ini tidak ada hubungannya dengan klasifikasi, yang merupakan tahap kedua dan berdiri sendiri LDA.
ttnphns

Jawaban:


16

Klasifikasi dalam LDA berjalan sebagai berikut (pendekatan aturan Bayes). [Tentang ekstraksi diskriminan orang mungkin melihat di sini .]

Menurut teorema Bayes, probabilitas dicari yang kita hadapi dengan kelas sambil mengamati saat ini titik x adalah P ( k | x ) = P ( k ) P ( x | k ) / P ( x ) , di manakxP(k|x)=P(k)P(x|k)/P(x)

- probabilitas (latar belakang) tanpa syarat dari kelas k ; P ( x ) - probabilitas (latar belakang) tanpa syarat dari titik x ; P ( x | k ) - probabilitas keberadaan titik x di kelas k , jika kelas yang ditangani adalah k .P(k)kP(x)xP(x|k)xkk

"Mengamati titik saat ini " sebagai kondisi dasar, P ( x ) = 1 , dan penyebutnya dapat dihilangkan. Jadi, P ( k | x ) = P ( k ) P ( x | k ) .xP(x)=1P(k|x)=P(k)P(x|k)

adalah probabilitas sebelum (pra-analitis) bahwa kelas asli untuk x adalah k ; P ( k ) ditentukan oleh pengguna. Biasanya secara default semua kelas menerima P ( k ) = 1 / number_of_classes yang sama. Untuk menghitung P ( k | x ) , yaitu probabilitas posterior (pasca-analitis) bahwa kelas asli untuk x adalah k , kita harus mengetahui P ( x | k ) .P(k)xkP(k)P(k)P(k|x)xkP(x|k)

- probabilitasper se- tidak dapat ditemukan, untuk diskriminan, masalah utama LDA, adalah variabel kontinu, bukan diskrit. Kuantitas mengekspresikan P ( x | k ) dalam hal ini dan sebanding dengan itu adalahkepadatan probabilitas(fungsi PDF). Dengan ini kita perlu menghitung PDF untuk titik x di kelas k , P D F ( x | k ) , dalamdistribusi normal p- dimensional yang dibentuk oleh nilai-nilai pP(x|k)P(x|k)xkPDF(x|k)ppdiskriminan. [Lihat distribusi normal Wikipedia Multivarian]

PDF(x|k)=ed/2(2π)p/2|S|)

di mana - kuadrat jarak Mahalanobis [Lihat jarak Mahalanobis Wikipedia] di ruang diskriminan dari titik x ke kelas centroid; Matriks S - kovarians antara diskriminan , diamati dalam kelas tersebut.dxS

Hitung dengan cara ini untuk masing-masing kelas. P ( k ) P D F ( x | k ) untuk titik x dan kelas k menyatakan dicari untuk P ( k ) P ( x | k ) untuk kita. Tetapi dengan cadangan di atas bahwa PDF bukan probabilitas per se, hanya sebanding dengan itu, kita harus menormalkan P ( k ) P DPDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k) , membaginya dengan jumlah P ( k ) P D F ( x | k ) untuk semua kelas. Misalnya, jika ada 3 kelas di semua, k , l , m , makaP(k)PDF(x|k)P(k)PDF(x|k)klm

P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

Titik ditugaskan oleh LDA ke kelas yang P ( k | x ) adalah yang tertinggi.xP(k|x)

Catatan. Ini adalah pendekatan umum. Banyak program LDA secara default menggunakan gabungan matriks kelas- untuk semua kelas dalam rumus untuk PDF di atas. Jika demikian, rumus ini sangat disederhanakan karena S dalam LDA adalah matriks identitas (lihat catatan kaki bawah di sini ), dan karenanya | S | = 1 dan d berubah menjadi kuadrat jarak euclidean (pengingat: kumpulan dalam kelas S yang sedang kita bicarakan adalah kovarian antara pembeda, - bukan antara variabel input, yang biasanya disebut matriks S sebagai w ).SS|S|=1dSSw

Selain itu . Sebelum pendekatan aturan Bayes di atas untuk klasifikasi diperkenalkan ke LDA, Fisher, pelopor LDA, mengusulkan komputasi yang sekarang disebut fungsi klasifikasi linear Fisher untuk mengklasifikasikan poin dalam LDA. Untuk titik skor fungsi milik kelas k adalah kombinasi linear b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k , di mana V 1 ,xkbkv1V1x+bkv2V2x+...+Constk adalah variabel prediktor dalam analisis.V1,V2,...Vp

Koefisien , g menjadi jumlah kelas dan s v w menjadi unsur yang dikumpulkan dalam kelas pencar matriks p V -variables.bkv=(ng)wpsvwV¯kwgsvwp V

.Constk=log(P(k))(vpbkvV¯kv)/2

Poin ditugaskan ke kelas yang nilainya tertinggi. Hasil klasifikasi yang diperoleh dengan metode Fisher ini (yang memotong ekstraksi diskriminan yang terlibat dalam komposisi eigendekompleks) identik dengan yang diperoleh dengan metode Bayes hanya jika matriks kovarians yang digabungkan dalam kelas digunakan dengan metode Bayes berdasarkan metode diskriminan (lihat "Catatan" di atas) dan semua diskriminan digunakan dalam klasifikasi. Metode Bayes lebih umum karena memungkinkan menggunakan matriks dalam kelas yang terpisah juga.x


Ini pendekatan Bayesian kan? Apa pendekatan Fisher untuk ini?
zca0

1
Ditambahkan ke jawaban atas permintaan Anda
ttnphns

+1 untuk membedakan antara pendekatan Bayes 'dan Fisher dari LDA. Saya pendatang baru di LDA, dan buku yang saya baca mengajarkan saya pendekatan LDA dalam Bayes, yang mengklasifikasikan ke kelas K dengan p tertinggi ( K | X ) , jadi saya harus menghitung semua p ( K | X ) untuk setiap kelas K , kan? Dengan pendekatan Fisher, saya hanya perlu mencari tahu diskriminan dan koefisien yang sesuai, dan tidak perlu menghitung posterior untuk setiap kelas, kan? XKp(K|X)p(K|X)K
alpukat

Dan saya pikir pendekatan Bayes lebih mudah dipahami, dan mengapa kita perlu menggunakan pendekatan Fisher?
alpukat

Kami tidak butuh. Hanya untuk masalah sejarah.
ttnphns

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.