Apakah ada hubungan antara regresi dan analisis diskriminan linier (LDA)? Apa persamaan dan perbedaan mereka? Apakah ada bedanya jika ada dua kelas atau lebih dari dua kelas?
Apakah ada hubungan antara regresi dan analisis diskriminan linier (LDA)? Apa persamaan dan perbedaan mereka? Apakah ada bedanya jika ada dua kelas atau lebih dari dua kelas?
Jawaban:
Saya menganggap bahwa pertanyaannya adalah tentang LDA dan regresi linier (bukan logistik).
Ada hubungan yang signifikan dan bermakna antara regresi linier dan analisis diskriminan linier . Dalam hal variabel dependen (DV) hanya terdiri dari 2 kelompok, kedua analisis tersebut sebenarnya identik. Meskipun perhitungannya berbeda dan hasilnya - koefisien regresi dan diskriminan - tidak sama, mereka persis proporsional satu sama lain.
Sekarang untuk situasi lebih dari dua kelompok. Pertama, mari kita nyatakan bahwa LDA (ekstraksi, bukan tahap klasifikasi) adalah setara (hasil terkait linier) dengan analisis korelasi kanonik jika Anda mengubah pengelompokan DV menjadi seperangkat variabel dummy (dengan satu berlebihan dari mereka keluar) dan melakukan kanonik analisis dengan set "IVs" dan "dummies". Canonical variates di sisi "infus" set yang Anda peroleh adalah apa yang LDA panggilan "fungsi diskriminan" atau "discriminants".
Jadi, lalu bagaimana analisis kanonik terkait dengan regresi linier? Analisis kanonik pada dasarnya adalah MANOVA (dalam arti "Multivariate Multiple linear regression" atau "Multivariate general linear model") diperdalam menjadi struktur latenhubungan antara DV dan IV. Kedua variasi ini terurai dalam inter-relasinya menjadi "varian kanonik" laten. Mari kita ambil contoh paling sederhana, Y vs X1 X2 X3. Maksimalisasi korelasi antara kedua sisi adalah regresi linier (jika Anda memprediksi Y oleh Xs) atau - yang merupakan hal yang sama - adalah MANOVA (jika Anda memprediksi Xs oleh Y). Korelasi adalah unidimensional (dengan besarnya R ^ 2 = jejak Pillai) karena himpunan yang lebih rendah, Y, hanya terdiri dari satu variabel. Sekarang mari kita ambil dua set ini: Y1 Y2 vs X1 x2 x3. Korelasi yang dimaksimalkan di sini adalah 2 dimensi karena himpunan yang lebih rendah berisi 2 variabel. Dimensi laten pertama dan yang lebih kuat dari korelasi disebut korelasi kanonik 1, dan bagian yang tersisa, ortogonal untuk itu, korelasi kanonik kedua. Begitu, MANOVA (atau regresi linier) hanya bertanya apa peran parsial (koefisien) variabel dalam seluruh korelasi 2-dimensi set; sementara analisis kanonik hanya berjalan di bawah ini untuk bertanya apa peran parsial variabel dalam dimensi korelasional 1, dan dalam 2.
Dengan demikian, analisis korelasi kanonik adalah regresi linier multivariat yang diperdalam menjadi struktur laten hubungan antara DV dan IV. Analisis diskriminan adalah kasus khusus analisis korelasi kanonik ( lihat persis bagaimana ). Jadi, inilah jawaban tentang hubungan LDA dengan regresi linier dalam kasus umum lebih dari dua kelompok.
Perhatikan bahwa jawaban saya sama sekali tidak melihat LDA sebagai teknik klasifikasi. Saya hanya membahas LDA sebagai teknik ekstraksi laten. Klasifikasi adalah tahap kedua dan berdiri sendiri LDA (saya jelaskan di sini ). @Michael Chernick memusatkan perhatian pada jawabannya.
regression formulation of LDA
itu sangat sulit untuk menemukan sesuatu - ada beberapa makalah penelitian yang diterbitkan setelah tahun 2000 yang mengatakan bahwa formulasi seperti itu tidak ada atau mencoba menyarankan satu. Apakah mungkin ada referensi [lama] yang bagus?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
. Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. Jika Anda tidak dapat menemukannya di internet, saya dapat mengirim Anda. Jika Anda menemukan sumber yang lebih banyak dan lebih baik - beri tahu kami.
Berikut ini adalah referensi ke salah satu makalah Efron: Efisiensi Regresi Logistik Dibandingkan dengan Analisis Diskriminan Normal , 1975.
Makalah lain yang relevan adalah Ng & Jordan, 2001, On Discriminative vs. Generative classifierers: Perbandingan regresi logistik dan Bayes naif . Dan di sini adalah abstrak dari komentarnya oleh Xue & Titterington , 2008, yang menyebutkan makalah O'Neill terkait dengan disertasi PhD-nya:
Perbandingan pengklasifikasi generatif dan diskriminatif adalah topik yang selalu abadi. Sebagai kontribusi penting untuk topik ini, berdasarkan perbandingan teoritis dan empiris mereka antara pengklasifikasi naif Bayes dan regresi logistik linier, Ng dan Jordan (NIPS 841 --- 848, 2001) mengklaim bahwa terdapat dua rezim kinerja yang berbeda antara generatif dan pengklasifikasi diskriminatif terkait ukuran pelatihan-set. Dalam makalah ini, studi empiris dan simulasi kami, sebagai pelengkap dari pekerjaan mereka, bagaimanapun, menunjukkan bahwa keberadaan dua rezim yang berbeda mungkin tidak dapat diandalkan. Selain itu, untuk dataset dunia nyata, sejauh ini tidak ada kriteria teoretis yang benar, umum untuk memilih antara pendekatan diskriminatif dan generatif untuk klasifikasi pengamatan. ke dalam kelas ; pilihannya tergantung pada kepercayaan relatif yang kita miliki dalam kebenaran spesifikasi atau untuk data. Ini dapat sampai batas tertentu demonstrasi mengapa Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) dan O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) lebih suka analisis diskriminan linier berbasis normal (LDA) ketika tidak ada model mis-spesifikasi terjadi tetapi studi empiris lain mungkin lebih suka regresi logistik linier sebagai gantinya. Lebih lanjut, kami menyarankan bahwa pasangan LDA dengan asumsi matriks kovarians diagonal umum (LDA) atau classifier Bayes naif dan regresi logistik linier mungkin tidak sempurna, dan karenanya mungkin tidak dapat diandalkan untuk klaim yang berasal dari perbandingan antara LDA atau pengklasifikasi Bayes naif dan regresi logistik linier untuk digeneralisasikan ke semua pengklasifikasi generatif dan diskriminatif.
Ada banyak referensi lain tentang ini yang dapat Anda temukan online.
Tujuan dari jawaban ini adalah untuk menjelaskan hubungan matematika yang tepat antara analisis diskriminan linier (LDA) dan regresi linier multivariat (MLR). Ini akan berubah bahwa kerangka kerja yang benar disediakan oleh regresi peringkat yang dikurangi (RRR).
Kami akan menunjukkan bahwa LDA setara dengan RRR dari matriks indikator kelas yang diputihkan pada matriks data.
Misalkan menjadi matriks n × d dengan titik data x i dalam baris dan variabel dalam kolom. Setiap titik milik salah satu dari kelas k , atau grup. Poin x saya milik nomor kelas g ( i ) .
Misalkan adalah matriks indikator pengkodean n × k yang menjadi keanggotaan grup sebagai berikut: G i j = 1 jika x i milik kelas j , dan G i j = 0 sebaliknya. Ada n j titik data di kelas j ; tentu saja ∑ n j = n .
Kami berasumsi bahwa data terpusat dan rata-rata global sama dengan nol, . Biarkan μ j menjadi rata-rata kelas j .
Matriks sebar total dapat didekomposisi menjadi jumlah matriks sebar antara kelas dan dalam kelas yang didefinisikan sebagai berikut: C b Seseorang dapat memverifikasi bahwaC=Cb+Cw. LDA mencari sumbu diskriminan yang memiliki varians antara-grup maksimal dan varians dalam-grup minimal dari proyeksi. Secara khusus, sumbu diskriminan pertama adalah unit vektorwmemaksimalkanw⊤Cbw/(w⊤C
Dengan asumsi bahwa adalah rank penuh, solusi LDA W L D A adalah matriks vektor eigen dari C - 1 w C b (diperintahkan oleh eigen dalam urutan menurun).
Ini adalah kisah yang biasa. Sekarang mari kita buat dua pengamatan penting.
Pertama, dalam kelas matriks pencar dapat digantikan oleh total matriks pencar (akhirnya karena memaksimalkan setara dengan memaksimalkan b / ( b + w ) ), dan memang, mudah untuk melihat bahwa C - 1 C b memiliki vektor eigen yang sama.
Kedua, matriks sebar antar-kelas dapat diekspresikan melalui matriks keanggotaan grup yang didefinisikan di atas. Memang, adalah matriks jumlah kelompok. Untuk mendapatkan matriks mean kelompok, harus dikalikan dengan matriks diagonal dengan n j pada diagonal; itu diberikan oleh G ⊤ G . Oleh karena itu, matriks berarti kelompok adalah ( G ⊤ G ) - 1 G ⊤ X ( sapienti akan melihat bahwa itu adalah rumus regresi). Untuk mendapatkan C b kita perlu mengambil matriks pencar nya, tertimbang dengan matriks diagonal yang sama, memperoleh C b Jika semua n j identik dan sama dengan m ("dataset seimbang"), maka ungkapan ini disederhanakan menjadi X ⊤ G G ⊤ X / m .
Kita dapat mendefinisikan matriks indikator yang dinormalisasi sebagai memiliki 1 / √ manaGmemiliki1. Kemudian untuk kedua, dataset seimbang dan tidak seimbang, ekspresi hanyaCb=X⊤ ~ G ~ G ⊤X. Perhatikan bahwa ~ G adalah, hingga faktor konstan,memutihindikator matriks: ~ G =G(G⊤G)-1 / 2.
Untuk mempermudah, kita akan mulai dengan kasus dataset yang seimbang.
Pertimbangkan regresi linear pada X . Ia menemukan B meminimalkan ‖ G - X B ‖ 2 . Pengurangan peringkat regresi melakukan hal yang sama di bawah batasan bahwa B harus dari peringkat yang diberikan p . Jika demikian, maka B dapat ditulis sebagai B = D F ⊤ dengan D dan F memiliki p kolom . Satu dapat menunjukkan bahwa solusi peringkat dua dapat diperoleh dari solusi peringkat dengan menjaga kolom pertama dan menambahkan kolom tambahan, dll.
Untuk membangun hubungan antara LDA dan regresi linier, kami akan membuktikan bahwa bertepatan dengan W L D A .
Orang juga dapat menunjukkan bahwa menambahkan regularisasi ridge ke regresi peringkat berkurang setara dengan LDA yang diatur.
Sulit dikatakan siapa yang layak mendapatkan penghargaan atas apa yang disajikan di atas.
Ada makalah konferensi baru-baru ini oleh Cai et al. (2013) Tentang Setara dengan Regresi Tingkat Rendah dan Regresi Berdasarkan Analisis Linear Diskriminan yang menghadirkan bukti yang persis sama seperti di atas tetapi menciptakan kesan bahwa mereka menciptakan pendekatan ini. Ini jelas bukan masalahnya. Torre menulis perlakuan terperinci tentang bagaimana sebagian besar metode multivariat linear umum dapat dilihat sebagai penurunan peringkat, lihat Kerangka Kerja Least-Squares untuk Analisis Komponen , 2009, dan bab buku selanjutnya Penyatuan metode analisis komponen , 2013; dia menyajikan argumen yang sama tetapi juga tidak memberikan referensi. Bahan ini juga tercakup dalam buku teks Teknik Statistik Multivariat Modern (2008) oleh Izenman, yang memperkenalkan RRR kembali pada tahun 1975.
Hubungan antara LDA dan CCA tampaknya kembali ke Bartlett, 1938, Aspek lebih lanjut dari teori regresi berganda - itulah referensi yang sering saya temui (tetapi tidak diverifikasi). Hubungan antara CCA dan RRR dijelaskan dalam Izenman, 1975, Reduced-rank regression untuk model linear multivariat . Jadi semua ide ini sudah ada untuk sementara waktu.
Regresi linier dan analisis diskriminan linier sangat berbeda. Regresi linier menghubungkan variabel dependen dengan satu set variabel prediktor independen. Idenya adalah menemukan fungsi linear dalam parameter yang paling sesuai dengan data. Bahkan tidak harus linear dalam kovariat. Analisis diskriminan linier di sisi lain adalah prosedur untuk mengklasifikasikan objek ke dalam kategori. Untuk masalah dua kelas ini berusaha mencari hyperplane pemisah terbaik untuk membagi kelompok menjadi dua kategori. Di sini terbaik berarti bahwa ia meminimalkan fungsi kerugian yang merupakan kombinasi linear dari tingkat kesalahan. Untuk tiga atau lebih kelompok, ia menemukan kumpulan pesawat terbang terbaik (k-1 untuk masalah kelas k). Dalam analisis diskriminan, hypoerplanes linear dalam variabel fitur.
Kesamaan utama antara keduanya adalah istilah linear dalam judul.