Klasifikasi dalam LDA berjalan sebagai berikut (pendekatan aturan Bayes). [Tentang ekstraksi diskriminan orang mungkin melihat di sini .]
Menurut teorema Bayes, probabilitas dicari yang kita hadapi dengan kelas sambil mengamati saat ini titik x adalah P ( k | x ) = P ( k ) ∗ P ( x | k ) / P ( x ) , di manakxP( k | x ) = P( k ) ∗ P( x | k ) / P( x )
- probabilitas (latar belakang) tanpa syarat dari kelas k ; P ( x ) - probabilitas (latar belakang) tanpa syarat dari titik x ; P ( x | k ) - probabilitas keberadaan titik x di kelas k , jika kelas yang ditangani adalah k .P( k )kP( x )xP( x | k )xkk
"Mengamati titik saat ini " sebagai kondisi dasar, P ( x ) = 1 , dan penyebutnya dapat dihilangkan. Jadi, P ( k | x ) = P ( k ) ∗ P ( x | k ) .xP( x ) = 1P( k | x ) = P( k ) ∗ P( x | k )
adalah probabilitas sebelum (pra-analitis) bahwa kelas asli untuk x adalah k ; P ( k ) ditentukan oleh pengguna. Biasanya secara default semua kelas menerima P ( k ) = 1 / number_of_classes yang sama. Untuk menghitung P ( k | x ) , yaitu probabilitas posterior (pasca-analitis) bahwa kelas asli untuk x adalah k , kita harus mengetahui P ( x | k ) .P( k )xkP( k )P( k )P( k | x )xkP( x | k )
- probabilitasper se- tidak dapat ditemukan, untuk diskriminan, masalah utama LDA, adalah variabel kontinu, bukan diskrit. Kuantitas mengekspresikan P ( x | k ) dalam hal ini dan sebanding dengan itu adalahkepadatan probabilitas(fungsi PDF). Dengan ini kita perlu menghitung PDF untuk titik x di kelas k , P D F ( x | k ) , dalamdistribusi normal p- dimensional yang dibentuk oleh nilai-nilai pP( x | k )P( x | k )xkPDF(x|k)ppdiskriminan. [Lihat distribusi normal Wikipedia Multivarian]
PDF(x|k)=e−d/2(2π)p/2|S|−−−√)
di mana - kuadrat jarak Mahalanobis [Lihat jarak Mahalanobis Wikipedia] di ruang diskriminan dari titik x ke kelas centroid; Matriks S - kovarians antara diskriminan , diamati dalam kelas tersebut.dxS
Hitung dengan cara ini untuk masing-masing kelas. P ( k ) ∗ P D F ( x | k ) untuk titik x dan kelas k menyatakan dicari untuk P ( k ) ∗ P ( x | k ) untuk kita. Tetapi dengan cadangan di atas bahwa PDF bukan probabilitas per se, hanya sebanding dengan itu, kita harus menormalkan P ( k ) ∗ P DPDF(x|k)P(k)∗PDF(x|k)xkP(k)∗P(x|k) , membaginya dengan jumlah P ( k ) ∗ P D F ( x | k ) untuk semua kelas. Misalnya, jika ada 3 kelas di semua, k , l , m , makaP(k)∗PDF(x|k)P(k)∗PDF(x|k)klm
P(k|x)=P(k)∗PDF(x|k)/[P(k)∗PDF(x|k)+P(l)∗PDF(x|l)+P(m)∗PDF(x|m)]
Titik ditugaskan oleh LDA ke kelas yang P ( k | x ) adalah yang tertinggi.xP(k|x)
Catatan. Ini adalah pendekatan umum. Banyak program LDA secara default menggunakan gabungan matriks kelas- untuk semua kelas dalam rumus untuk PDF di atas. Jika demikian, rumus ini sangat disederhanakan karena S dalam LDA adalah matriks identitas (lihat catatan kaki bawah di sini ), dan karenanya | S | = 1 dan d berubah menjadi kuadrat jarak euclidean (pengingat: kumpulan dalam kelas S yang sedang kita bicarakan adalah kovarian antara pembeda, - bukan antara variabel input, yang biasanya disebut matriks S sebagai w ).SS|S|=1dSSw
Selain itu . Sebelum pendekatan aturan Bayes di atas untuk klasifikasi diperkenalkan ke LDA, Fisher, pelopor LDA, mengusulkan komputasi yang sekarang disebut fungsi klasifikasi linear Fisher untuk mengklasifikasikan poin dalam LDA. Untuk titik skor fungsi milik kelas k adalah kombinasi linear b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k , di mana V 1 ,xkbkv1V1x+bkv2V2x+...+Constk adalah variabel prediktor dalam analisis.V1,V2,...Vp
Koefisien , g menjadi jumlah kelas dan s v w menjadi unsur yang dikumpulkan dalam kelas pencar matriks p V -variables.bkv=(n−g)∑pwsvwV¯kwgsvwp V
.Constk=log(P(k))−(∑pvbkvV¯kv)/2
Poin ditugaskan ke kelas yang nilainya tertinggi. Hasil klasifikasi yang diperoleh dengan metode Fisher ini (yang memotong ekstraksi diskriminan yang terlibat dalam komposisi eigendekompleks) identik dengan yang diperoleh dengan metode Bayes hanya jika matriks kovarians yang digabungkan dalam kelas digunakan dengan metode Bayes berdasarkan metode diskriminan (lihat "Catatan" di atas) dan semua diskriminan digunakan dalam klasifikasi. Metode Bayes lebih umum karena memungkinkan menggunakan matriks dalam kelas yang terpisah juga.x