Ketidaksetujuan sumber tentang analisis linear, kuadratik, dan diskriminan Fisher

Saya mempelajari analisis diskriminan, tetapi saya mengalami kesulitan merekonsiliasi beberapa penjelasan yang berbeda. Saya percaya saya pasti kehilangan sesuatu, karena saya belum pernah menemukan tingkat ketidaksesuaian ini (sebelumnya). Karena itu, sejumlah pertanyaan tentang analisis diskriminan di situs web ini tampaknya menjadi bukti kompleksitasnya.

LDA dan QDA untuk beberapa kelas

Buku teks utama saya adalah Analisis Statistik Multivariat Terapan Johnson & Wichern (AMSA) dan catatan guru saya berdasarkan ini. Saya akan mengabaikan pengaturan dua grup, karena saya percaya rumus yang disederhanakan dalam pengaturan ini menyebabkan setidaknya beberapa kebingungan. Menurut sumber ini, LDA dan QDA didefinisikan sebagai perpanjangan parametrik (dengan asumsi multivariat normalitas) dari aturan klasifikasi berdasarkan pada biaya yang diharapkan dari kesalahan klasifikasi (ECM). ECM menjumlahkan atas biaya yang diharapkan bersyarat untuk mengklasifikasikan pengamatan baru x untuk kelompok mana pun (memasukkan biaya kesalahan klasifikasi dan probabilitas sebelumnya) dan kami memilih daerah klasifikasi yang meminimalkan hal ini. mana

E C M = \sum_{i = 1}^{g r o u p s} p_{i} [\sum_{k = 1; i \neq k}^{g r o u p s} P (k | i) c (k | i)]

$ECM = \sum_{i=1}^{groups} p_i [\sum_{k=1;\space i \ne k}^{groups}P(k|i)c(k|i)]$

P (k | i) = P (classifying item as group k | item is group i) = \int_{R_{k}} f_{i} (x) d x

$P(k|i) = P(\text{classifying item as group k } | \text{ item is group i}) = \int_{R_k} f_i(\boldsymbol{x})d\boldsymbol{x}$ ,

f_{i} (x)

$f_i(\boldsymbol{x})$ adalah kepadatan populasi,

R_{k}

$R_k$ adalah himpunan pengamatan dalam kelompok k,

c

$c$ adalah biaya dan

p_{i}

$p_i$ adalah probabilitas sebelumnya. Pengamatan baru kemudian dapat ditugaskan ke grup yang istilah dalamnya terkecil atau setara yang bagian kiri dari istilah dalam

p_{k} f_{k} (x)

$p_k f_k(\boldsymbol{x})$ adalah yang terbesar

Seharusnya aturan klasifikasi ini setara dengan "yang memaksimalkan probabilitas posterior" (sic AMSA), yang hanya bisa saya asumsikan adalah pendekatan Bayes yang pernah saya lihat. Apakah ini benar? Dan apakah ECM metode yang lebih tua, karena saya belum pernah melihatnya terjadi di tempat lain.

Untuk populasi normal, aturan ini disederhanakan menjadi skor diskriminan kuadrat: .

d_{i}^{Q} (x) = - \frac{1}{2} l o g (Σ_{i}) - \frac{1}{2} (x - μ_{i})^{T} Σ_{i}^{- 1} (x - μ_{i}) + l o g (p_{i})

$d_i^Q(\boldsymbol{x}) = -\frac{1}{2} log(\boldsymbol{\Sigma_i}) -\frac{1}{2} (\boldsymbol{x - \mu_i})^T \boldsymbol{\Sigma}_i^{-1}(\boldsymbol{x - \mu_i}) + log(p_i)$

Ini nampaknya setara dengan rumus Elemen Pembelajaran Statistik (ESL) 4.12 di halaman 110, meskipun mereka menggambarkannya sebagai fungsi diskriminan kuadrat daripada skor . Selain itu, mereka tiba di sini melalui rasio log kepadatan multivariat (4,9). Apakah ini nama lain dari pendekatan Bayes?

Ketika kita mengasumsikan kovarians yang sama, rumus menyederhanakan lebih jauh ke skor diskriminan linier .

d_{i} (x) = μ_{i}^{T} Σ^{- 1} x - \frac{1}{2} μ_{i}^{T} Σ^{- 1} μ_{i} + l o g (p_{i})

$d_i(\boldsymbol{x}) = \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1}\boldsymbol{x} -\frac{1}{2} \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu_i} + log(p_i)$

Rumus ini memang berbeda dari ESL (4.10), di mana istilah pertama dibalik: . Versi ESL juga merupakan salah satu yang tercantum dalam statistik Learning di R . Selain itu, dalam output SAS yang disajikan dalam AMSA, fungsi diskriminan linier dijelaskan yang terdiri dari konstanta dan koefisien vektor , tampaknya konsisten dengan versi ESL. $x^T \boldsymbol{\Sigma}^{-1}\mu_k$ $0.5 \bar{X}_j^T COV^{-1}\bar{X}_j + ln \text{ prior}_j$ $COV^{-1}\bar{X}_j$

Apa yang bisa menjadi alasan di balik perbedaan ini?

Metode Diskriminan dan Fisher

Catatan: jika pertanyaan ini dianggap terlalu besar, saya akan menghapus bagian ini dan membuka pertanyaan baru, tetapi dibangun di bagian sebelumnya. Terlepas dari permintaan maaf untuk dinding teks, saya mencoba yang terbaik untuk menyusunnya agak, tapi saya yakin kebingungan saya tentang metode ini telah menyebabkan beberapa lompatan logika yang agak aneh.

Buku AMSA selanjutnya menjelaskan metode nelayan, juga untuk beberapa kelompok. Namun, ttnphns telah menunjukkan beberapa kali bahwa FDA hanyalah LDA dengan dua kelompok. Lalu apakah multiclass FDA ini? Mungkin FDA dapat memiliki banyak makna?

AMSA menggambarkan diskriminan Fisher sebagai vektor eigen dari yang memaksimalkan rasio . Kombinasi linear kemudian menjadi sampel diskriminan (yang jumlahnya ). Untuk klasifikasi kita memilih grup k dengan nilai terkecil untuk r adalah jumlah diskriminan yang ingin kita gunakan. Jika kita menggunakan semua diskriminan, aturan ini akan setara dengan fungsi diskriminan linier. $\boldsymbol{W^{-1}B}$ $\boldsymbol{\frac{\hat{a}^TB\hat{a}}{\hat{a}^TW\hat{a}}}$ $\boldsymbol{\hat{e}_ix}$ $min(g-1, p)$ $\sum_{j=1}^{r}[\boldsymbol{\hat{e}_j^T}(\boldsymbol{x}-\boldsymbol{\bar{x}}_k)]^2$

Banyak penjelasan tentang LDA tampaknya menggambarkan metodologi yang disebut FDA dalam buku AMSA, yaitu mulai dari ini antara / dalam aspek variabilitas. Apa yang kemudian dimaksud oleh FDA jika bukan dekomposisi matriks BW?

Ini adalah pertama kalinya buku teks menyebutkan aspek reduksi dimensi dari analisis diskriminan, sedangkan beberapa jawaban di situs ini menekankan sifat dua tahap dari teknik ini, tetapi ini tidak jelas dalam pengaturan dua kelompok karena hanya ada 1 diskriminan. Mengingat formula di atas untuk LDA multi-kelas dan QDA, masih belum jelas bagi saya di mana para diskriminan muncul.

Komentar ini terutama membuat saya bingung, mencatat bahwa klasifikasi Bayes pada dasarnya dapat dilakukan pada variabel asli. Tetapi jika FDA dan LDA secara matematis setara seperti yang ditunjukkan oleh buku ini dan di sini , bukankah pengurangan dimensi harus melekat pada fungsi-fungsi ? Saya percaya ini adalah apa yang ditangani oleh tautan terakhir, tetapi saya tidak sepenuhnya yakin. $d_i$

Catatan kursus guru saya kemudian menjelaskan bahwa FDA pada dasarnya adalah bentuk analisis korelasi kanonik. Saya hanya menemukan 1 sumber lain yang berbicara tentang aspek ini, tetapi sekali lagi tampaknya terkait erat dengan pendekatan Fisher dari penguraian antara dan dalam variabilitas. SAS menyajikan hasil dalam prosedur LDA / QDA (DISCRIM) yang tampaknya terkait dengan metode Fisher ( https://stats.stackexchange.com/a/105116/62518 ). Namun, opsi FDA SAS (CANDISC) pada dasarnya melakukan korelasi kanonik, tanpa menghadirkan ini yang disebut koefisien klasifikasi Fisher. Itu memang menyajikan koefisien kanonik mentah yang saya percaya setara dengan vektor eigen W-1B R yang diperoleh oleh lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Koefisien klasifikasi tampaknya diperoleh dari fungsi diskriminan yang saya jelaskan di bagian LDA dan QDA saya (karena ada 1 fungsi per populasi dan kami memilih yang terbesar).

Saya akan berterima kasih atas semua dan semua klarifikasi atau referensi ke sumber yang dapat membantu saya melihat hutan melalui pepohonan. Penyebab utama kebingungan saya tampaknya karena metode panggilan buku teks yang berbeda dengan nama yang berbeda atau menyajikan sedikit variasi matematika, tanpa mengakui kemungkinan lain, meskipun saya kira ini seharusnya tidak mengejutkan mengingat usia buku AMSA .

multivariate-analysis discriminant-analysis

— Zenit
sumber

If we use all the discriminants this rule would be equivalent to the linear discriminant functionTidak jelas. "Diskriminan" dan "fungsi diskriminan" adalah sinonim. Anda mungkin menggunakan semua diskriminan atau hanya sedikit yang terkuat / signifikan dari mereka. Saya tidak beralih ke buku AMSA tetapi saya curiga bahwa FDA = LDA, untuk penulis. Sebenarnya, saya pribadi berpikir bahwa "Fisher LDA" akan menjadi istilah surplus, tidak perlu.

— ttnphns

Dalam "Penambahan" untuk jawaban ini tentang klasifikasi LDA saya perhatikan bahwa komputasi "fungsi klasifikasi linear Fisher" langsung dari variabel setara dengan Extract the discriminants -> classify by them all (using Bayes approach, as usual)ketika, seperti biasanya secara default, matriks kovarians yang dikelompokkan dalam kelas dari diskriminan digunakan dalam klasifikasi.

— ttnphns

Sebenarnya, "fungsi klasifikasi linier Fisher" adalah cara untuk melakukan LDA tanpa melakukan eigendekomposisi W^-1Bdan kemudian melakukan "Bayes". Ini setara, tetapi kurang fleksibel (Anda tidak dapat memilih hanya sedikit dari diskriminan, Anda tidak dapat menggunakan terpisah dalam matriks kovarian pada klasifikasi, dll.).

— ttnphns

Saya masih mencerna jawaban dan tautan Anda (terima kasih), tetapi: 1) Berikut adalah kutipan dari AMSA yang menjelaskan "diskriminan" dan "skor diskriminan" i.imgur.com/7W7vc8u.jpg?1 Saya telah menggunakan ketentuan "skor" dan "berfungsi" secara bergantian. 3) Dalam kutipan yang sama, Anda dapat melihat bahwa buku AMSA merujuk pada eigendecomposition sebagai cara untuk memperoleh diskriminan Fisher. Cara ini disajikan di sini metode Fisher tampaknya lebih fleksibel daripada metode linear / kuadrat yang hanya menghasilkan satu fungsi / skor yang sulit dibedakan.

W^{- 1} B

$\boldsymbol{W^{-1}B}$

— Zenit

Zenit, bagi saya, skor diskriminan adalah nilai fungsi diskriminan (kanonik). Saya tidak bisa membandingkan formula yang Anda kutip dengan apa yang saya ketahui tentang bagaimana diskriminan kanonik dihitung dalam SPSS . Saya menyarankan Anda untuk membuat perhitungan dan membandingkan hasil, dan mengeluarkan kesimpulan Anda. Juga, saya menduga bahwa teks yang berbeda dapat menggunakan label "Fisher" secara berbeda.

— ttnphns

Saya hanya membahas satu aspek dari pertanyaan, dan melakukannya secara intuitif tanpa aljabar.

Jika kelas memiliki matriks varians-kovarian yang sama dan hanya berbeda oleh pergeseran centroid mereka dalam ruang dimensi maka mereka sepenuhnya dapat dipisahkan secara linear dalam "subruang". Inilah yang dilakukan LDA. Bayangkan Anda memiliki tiga ellipsoid identik dalam ruang variabel . Anda harus menggunakan informasi dari semua variabel untuk memprediksi keanggotaan kelas tanpa kesalahan. Tetapi karena fakta bahwa awan ini berukuran identik dan berorientasi, dimungkinkan untuk mengubah skala mereka dengan transformasi umum menjadi bola-bola jari-jari satuan. Kemudian $g$ $p$ $q=min(g-1,p)$ $V_1, V_2, V_3$ $q=g-1=2$ Dimensi independen akan cukup untuk memprediksi keanggotaan kelas setepat sebelumnya. Dimensi ini disebut fungsi diskriminan . Memiliki 3 bola ukuran yang sama, Anda hanya perlu 2 garis aksial dan untuk mengetahui pusat bola mengkoordinasikannya untuk menetapkan setiap titik dengan benar. $D_1, D_2$

Diskriminan adalah variabel yang tidak berkorelasi, matriks kovarian dalam kelas mereka adalah yang ideal identitas (bola). Diskriminan membentuk subruang dari ruang variabel asli - mereka adalah kombinasi linear mereka. Namun, mereka bukan sumbu seperti rotasi (seperti PCA): terlihat dalam ruang variabel asli, diskriminan karena sumbu tidak saling ortogonal .

Jadi, dengan asumsi homogenitas varian-kovariansi dalam kelas yang digunakan LDA untuk klasifikasi semua diskriminan yang ada tidak lebih buruk daripada mengklasifikasi langsung oleh variabel asli. Tetapi Anda tidak harus menggunakan semua diskriminan. Anda mungkin hanya menggunakan pertama yang paling kuat / signifikan secara statistik dari mereka. Dengan cara ini Anda kehilangan informasi minimal untuk mengklasifikasikan dan kesalahan klasifikasi akan minimal. Dilihat dari perspektif ini, LDA adalah pengurangan data yang mirip dengan PCA, hanya diawasi. $m<q$

Perhatikan bahwa dengan asumsi homogenitas (+ multivariat normalitas) dan asalkan Anda berencana untuk menggunakan tetapi semua diskriminan dalam klasifikasi dimungkinkan untuk memotong ekstraksi diskriminan sendiri - yang melibatkan masalah eigen umum - dan menghitung apa yang disebut "fungsi klasifikasi Fisher" dari variabel secara langsung, untuk mengklasifikasikan dengan mereka , dengan hasil yang setara. Jadi, ketika kelas-kelas dalam bentuk identik kita bisa mempertimbangkan variabel input atau fungsi Fisher atau diskriminan sebagai semua set setara "classifier". Tetapi dalam banyak hal diskriminasi lebih nyaman. $g$ $p$ $g$ $q$ $^1$

Karena biasanya kelas tidak "elips identik" pada kenyataannya, klasifikasi oleh diskriminan agak lebih buruk daripada jika Anda melakukan klasifikasi Bayes oleh semua variabel asli . Misalnya, pada plot ini dua ellipsoid tidak sejajar satu sama lain; dan orang dapat memahami secara visual bahwa diskriminan tunggal yang ada tidak cukup untuk mengklasifikasikan poin seakurat dua variabel mengizinkan. QDA (analisis diskriminan kuadrat) akan menjadi langkah pendekatan yang lebih baik daripada LDA. Pendekatan praktis setengah jalan antara LDA dan QDA adalah menggunakan diskriminan LDA tetapi menggunakan matriks kovarians kelas terpisah yang diamati pada klasifikasi ( lihat , lihat $q$ $p$ ) bukannya matriks gabungan mereka (yang merupakan identitas).

(Dan ya, LDA dapat dilihat terkait erat dengan, bahkan kasus spesifik, MANOVA dan analisis korelasi Canonical atau Reduced rank multivariate regression - lihat , lihat , lihat .)

$^1$ Catatan terminologis penting. Dalam beberapa teks yang fungsi klasifikasi Fisher dapat disebut "fungsi diskriminan Fisher", yang mungkin membingungkan dengan discriminats yang kanonik fungsi diskriminan (yaitu diperoleh di eigendecomposition dari $g$ $q$ $\bf W^{-1}B$ ). Untuk kejelasan, saya sarankan untuk mengatakan "fungsi klasifikasi Fisher" vs "fungsi diskriminan kanonik" (= singkatnya,). Dalam pemahaman modern, LDA adalah analisis diskriminan linier kanonik. "Analisis diskriminan Fisher", setidak-tidaknya menurut kesadaran saya, baik LDA dengan 2 kelas (di mana diskriminan kanonik tunggal pasti sama dengan fungsi klasifikasi Fisher) atau, secara luas, perhitungan fungsi klasifikasi Fisher dalam pengaturan multi-kelas.

— ttnphns
sumber

Terminologi ulang: artikel Wikipedia tentang LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) menyatakan bahwa "Istilah Fisher diskriminan linier dan LDA sering digunakan secara bergantian, meskipun artikel asli Fisher [1] sebenarnya menggambarkan diskriminan yang sedikit berbeda, yang tidak tidak membuat beberapa asumsi LDA seperti kelas yang didistribusikan secara normal atau kovariansi kelas yang sama. " Berdasarkan hal ini, LDA pada 2 kelas tampaknya menjadi kasus khusus "FDA", jika kovarian kelompok adalah "sama". @ttnphns: apakah ini benar?

— Laryx Decidua

@ LaryxDecidua, saya tidak 100% yakin tentang terminologi dalam hal ini, dan saya telah melihat pendapat yang berbeda. Saya tidak menggunakan istilah "Fisher's DA" sama sekali. Tetapi ketika orang bertanya, saya menjawab itu dalam pikiran saya, "FDA adalah LDA dengan 2 kelas".

— ttnphns

Terima kasih, bagi saya aspek yang paling menarik adalah bahwa "FDA", menurut Wikipedia, tidak berasumsi normal, sedangkan "LDA" (dan QDA) melakukannya. Mungkin "FDA adalah LDA dengan 2 kelas, tidak dengan asumsi normal atau homoseksualitas".

— Laryx Decidua