Apa hubungan antara regresi dan analisis diskriminan linier (LDA)?


24

Apakah ada hubungan antara regresi dan analisis diskriminan linier (LDA)? Apa persamaan dan perbedaan mereka? Apakah ada bedanya jika ada dua kelas atau lebih dari dua kelas?


3
Catatan untuk pembaca: pertanyaannya ambigu, dapat dipahami sebagai bertanya tentang regresi logistik atau tentang regresi linier . OP tampaknya tertarik pada kedua aspek tersebut (lihat komentar). Jawaban yang diterima adalah tentang regresi linier, tetapi beberapa jawaban lain fokus pada regresi logistik.
Amoeba berkata Reinstate Monica

Jawaban:


20

Saya menganggap bahwa pertanyaannya adalah tentang LDA dan regresi linier (bukan logistik).

Ada hubungan yang signifikan dan bermakna antara regresi linier dan analisis diskriminan linier . Dalam hal variabel dependen (DV) hanya terdiri dari 2 kelompok, kedua analisis tersebut sebenarnya identik. Meskipun perhitungannya berbeda dan hasilnya - koefisien regresi dan diskriminan - tidak sama, mereka persis proporsional satu sama lain.

Sekarang untuk situasi lebih dari dua kelompok. Pertama, mari kita nyatakan bahwa LDA (ekstraksi, bukan tahap klasifikasi) adalah setara (hasil terkait linier) dengan analisis korelasi kanonik jika Anda mengubah pengelompokan DV menjadi seperangkat variabel dummy (dengan satu berlebihan dari mereka keluar) dan melakukan kanonik analisis dengan set "IVs" dan "dummies". Canonical variates di sisi "infus" set yang Anda peroleh adalah apa yang LDA panggilan "fungsi diskriminan" atau "discriminants".

Jadi, lalu bagaimana analisis kanonik terkait dengan regresi linier? Analisis kanonik pada dasarnya adalah MANOVA (dalam arti "Multivariate Multiple linear regression" atau "Multivariate general linear model") diperdalam menjadi struktur latenhubungan antara DV dan IV. Kedua variasi ini terurai dalam inter-relasinya menjadi "varian kanonik" laten. Mari kita ambil contoh paling sederhana, Y vs X1 X2 X3. Maksimalisasi korelasi antara kedua sisi adalah regresi linier (jika Anda memprediksi Y oleh Xs) atau - yang merupakan hal yang sama - adalah MANOVA (jika Anda memprediksi Xs oleh Y). Korelasi adalah unidimensional (dengan besarnya R ^ 2 = jejak Pillai) karena himpunan yang lebih rendah, Y, hanya terdiri dari satu variabel. Sekarang mari kita ambil dua set ini: Y1 Y2 vs X1 x2 x3. Korelasi yang dimaksimalkan di sini adalah 2 dimensi karena himpunan yang lebih rendah berisi 2 variabel. Dimensi laten pertama dan yang lebih kuat dari korelasi disebut korelasi kanonik 1, dan bagian yang tersisa, ortogonal untuk itu, korelasi kanonik kedua. Begitu, MANOVA (atau regresi linier) hanya bertanya apa peran parsial (koefisien) variabel dalam seluruh korelasi 2-dimensi set; sementara analisis kanonik hanya berjalan di bawah ini untuk bertanya apa peran parsial variabel dalam dimensi korelasional 1, dan dalam 2.

Dengan demikian, analisis korelasi kanonik adalah regresi linier multivariat yang diperdalam menjadi struktur laten hubungan antara DV dan IV. Analisis diskriminan adalah kasus khusus analisis korelasi kanonik ( lihat persis bagaimana ). Jadi, inilah jawaban tentang hubungan LDA dengan regresi linier dalam kasus umum lebih dari dua kelompok.

Perhatikan bahwa jawaban saya sama sekali tidak melihat LDA sebagai teknik klasifikasi. Saya hanya membahas LDA sebagai teknik ekstraksi laten. Klasifikasi adalah tahap kedua dan berdiri sendiri LDA (saya jelaskan di sini ). @Michael Chernick memusatkan perhatian pada jawabannya.


Mengapa saya perlu "analisis korelasi kanonik" dan apa fungsinya di sini? Terima kasih.
zca0

1
+1 (dahulu kala). Apakah Anda tahu ada referensi yang membahas (dalam beberapa detail) hubungan antara MANOVA / CCA / regresi antara X dan matriks dummies kelompok Y, dan LDA (untuk kasus umum lebih dari dua kelompok)? Saya sekarang sedang mempelajari topik ini, dan saya pikir saya sudah kurang lebih sudah mengetahuinya, tetapi ketika saya mencari regression formulation of LDAitu sangat sulit untuk menemukan sesuatu - ada beberapa makalah penelitian yang diterbitkan setelah tahun 2000 yang mengatakan bahwa formulasi seperti itu tidak ada atau mencoba menyarankan satu. Apakah mungkin ada referensi [lama] yang bagus?
Amoeba berkata Reinstate Monica

3
Mmm .. Hanya beberapa kertas datang ke pikiran dengan cepat: Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. Jika Anda tidak dapat menemukannya di internet, saya dapat mengirim Anda. Jika Anda menemukan sumber yang lebih banyak dan lebih baik - beri tahu kami.
ttnphns

1
Bagian saya sama sekali tidak menyiratkan bahwa Anda dapat memperoleh koefisien CCA yang hanya memiliki hasil regresi (MANOVA). Saya mengatakan bahwa MANOVA "permukaan" dan CCA lebih "dalam" lapisan dari perusahaan analitis yang sama. Saya tidak mengatakan itu sinonim atau yang satu merupakan kasus spesifik yang jelas.
ttnphns

1
Saya melihat. Saya memutuskan untuk mengirim jawaban lain di sini, memberikan perincian matematis LDA / kesetaraan regresi.
Amuba kata Reinstate Monica

11

Berikut ini adalah referensi ke salah satu makalah Efron: Efisiensi Regresi Logistik Dibandingkan dengan Analisis Diskriminan Normal , 1975.

Makalah lain yang relevan adalah Ng & Jordan, 2001, On Discriminative vs. Generative classifierers: Perbandingan regresi logistik dan Bayes naif . Dan di sini adalah abstrak dari komentarnya oleh Xue & Titterington , 2008, yang menyebutkan makalah O'Neill terkait dengan disertasi PhD-nya:

Perbandingan pengklasifikasi generatif dan diskriminatif adalah topik yang selalu abadi. Sebagai kontribusi penting untuk topik ini, berdasarkan perbandingan teoritis dan empiris mereka antara pengklasifikasi naif Bayes dan regresi logistik linier, Ng dan Jordan (NIPS 841 --- 848, 2001) mengklaim bahwa terdapat dua rezim kinerja yang berbeda antara generatif dan pengklasifikasi diskriminatif terkait ukuran pelatihan-set. Dalam makalah ini, studi empiris dan simulasi kami, sebagai pelengkap dari pekerjaan mereka, bagaimanapun, menunjukkan bahwa keberadaan dua rezim yang berbeda mungkin tidak dapat diandalkan. Selain itu, untuk dataset dunia nyata, sejauh ini tidak ada kriteria teoretis yang benar, umum untuk memilih antara pendekatan diskriminatif dan generatif untuk klasifikasi pengamatan.x ke dalam kelasy ; pilihannya tergantung pada kepercayaan relatif yang kita miliki dalam kebenaran spesifikasip(y|x) ataup(x,y) untuk data. Ini dapat sampai batas tertentu demonstrasi mengapa Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) dan O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) lebih suka analisis diskriminan linier berbasis normal (LDA) ketika tidak ada model mis-spesifikasi terjadi tetapi studi empiris lain mungkin lebih suka regresi logistik linier sebagai gantinya. Lebih lanjut, kami menyarankan bahwa pasangan LDA dengan asumsi matriks kovarians diagonal umum (LDA) atau classifier Bayes naif dan regresi logistik linier mungkin tidak sempurna, dan karenanya mungkin tidak dapat diandalkan untuk klaim yang berasal dari perbandingan antara LDA atau pengklasifikasi Bayes naif dan regresi logistik linier untuk digeneralisasikan ke semua pengklasifikasi generatif dan diskriminatif.

Ada banyak referensi lain tentang ini yang dapat Anda temukan online.


+1 untuk banyak referensi yang ditempatkan dengan baik pada subjek (sekarang diklarifikasi oleh OP) dari regresi logistik vs LDA.
Makro

1
Berikut ini adalah perbandingan lain dari pengklasifikasi generatif dan diskriminatif oleh Yaroslav Bulatov di Quora: quora.com/…
Pardis


7

Tujuan dari jawaban ini adalah untuk menjelaskan hubungan matematika yang tepat antara analisis diskriminan linier (LDA) dan regresi linier multivariat (MLR). Ini akan berubah bahwa kerangka kerja yang benar disediakan oleh regresi peringkat yang dikurangi (RRR).

Kami akan menunjukkan bahwa LDA setara dengan RRR dari matriks indikator kelas yang diputihkan pada matriks data.


Notasi

Misalkan menjadi matriks n × d dengan titik data x i dalam baris dan variabel dalam kolom. Setiap titik milik salah satu dari kelas k , atau grup. Poin x saya milik nomor kelas g ( i ) .Xn×dxikxig(i)

Misalkan adalah matriks indikator pengkodean n × k yang menjadi keanggotaan grup sebagai berikut: G i j = 1 jika x i milik kelas j , dan G i j = 0 sebaliknya. Ada n j titik data di kelas j ; tentu saja n j = n .Gn×kGij=1xijGij=0njjnj=n

Kami berasumsi bahwa data terpusat dan rata-rata global sama dengan nol, . Biarkan μ j menjadi rata-rata kelas j .μ=0μjj

LDA

Matriks sebar total dapat didekomposisi menjadi jumlah matriks sebar antara kelas dan dalam kelas yang didefinisikan sebagai berikut: C bC=XX Seseorang dapat memverifikasi bahwaC=Cb+Cw. LDA mencari sumbu diskriminan yang memiliki varians antara-grup maksimal dan varians dalam-grup minimal dari proyeksi. Secara khusus, sumbu diskriminan pertama adalah unit vektorwmemaksimalkanwCbw/(wC

Cb=jnjμjμjCw=(xiμg(i))(xiμg(i)).
C=Cb+Cww , dan yang pertama p sumbu diskriminan ditumpuk bersama-sama ke dalam matriks W harus memaksimalkan jejak L L D A = tr ( WC b W ( WC w W ) - 1 ) .wCbw/(wCww)pW
LLDA=tr(WCbW(WCwW)1).

Dengan asumsi bahwa adalah rank penuh, solusi LDA W L D A adalah matriks vektor eigen dari C - 1 w C b (diperintahkan oleh eigen dalam urutan menurun).CwWLDACw1Cb

Ini adalah kisah yang biasa. Sekarang mari kita buat dua pengamatan penting.

Pertama, dalam kelas matriks pencar dapat digantikan oleh total matriks pencar (akhirnya karena memaksimalkan setara dengan memaksimalkan b / ( b + w ) ), dan memang, mudah untuk melihat bahwa C - 1 C b memiliki vektor eigen yang sama.b/wb/(b+w)C1Cb

Kedua, matriks sebar antar-kelas dapat diekspresikan melalui matriks keanggotaan grup yang didefinisikan di atas. Memang, adalah matriks jumlah kelompok. Untuk mendapatkan matriks mean kelompok, harus dikalikan dengan matriks diagonal dengan n j pada diagonal; itu diberikan oleh GG . Oleh karena itu, matriks berarti kelompok adalah ( GG ) - 1 GX ( sapienti akan melihat bahwa itu adalah rumus regresi). Untuk mendapatkan C b kita perlu mengambil matriks pencar nya, tertimbang dengan matriks diagonal yang sama, memperoleh C bGXnjGG(GG)1GXCb Jika semua n j identik dan sama dengan m ("dataset seimbang"), maka ungkapan ini disederhanakan menjadi XG GX / m .

Cb=XG(GG)1GX.
njmXGGX/m

Kita dapat mendefinisikan matriks indikator yang dinormalisasi sebagai memiliki 1 / G~ manaGmemiliki1. Kemudian untuk kedua, dataset seimbang dan tidak seimbang, ekspresi hanyaCb=X ~ G ~ GX. Perhatikan bahwa ~ G adalah, hingga faktor konstan,memutihindikator matriks: ~ G =G(GG)-1 / 2.1/njG1Cb=XG~G~XG~G~=G(GG)1/2

Regresi

Untuk mempermudah, kita akan mulai dengan kasus dataset yang seimbang.

Pertimbangkan regresi linear pada X . Ia menemukan B meminimalkan G - X B 2 . Pengurangan peringkat regresi melakukan hal yang sama di bawah batasan bahwa B harus dari peringkat yang diberikan p . Jika demikian, maka B dapat ditulis sebagai B = D F dengan D dan F memiliki pGXBGXB2BpBB=DFDFp kolom . Satu dapat menunjukkan bahwa solusi peringkat dua dapat diperoleh dari solusi peringkat dengan menjaga kolom pertama dan menambahkan kolom tambahan, dll.

Untuk membangun hubungan antara LDA dan regresi linier, kami akan membuktikan bahwa bertepatan dengan W L D ADWLDA .

DFF=(DXXD)1DXG

GXD(DXXD)1DXG2,
A2=tr(AA)
tr(DXGGXD(DXXD)1),
=tr(DCbD(DCD)1)/mLLDA.

GG~

Orang juga dapat menunjukkan bahwa menambahkan regularisasi ridge ke regresi peringkat berkurang setara dengan LDA yang diatur.

Hubungan antara LDA, CCA, dan RRR

XGYXYX

Bibliografi

Sulit dikatakan siapa yang layak mendapatkan penghargaan atas apa yang disajikan di atas.

Ada makalah konferensi baru-baru ini oleh Cai et al. (2013) Tentang Setara dengan Regresi Tingkat Rendah dan Regresi Berdasarkan Analisis Linear Diskriminan yang menghadirkan bukti yang persis sama seperti di atas tetapi menciptakan kesan bahwa mereka menciptakan pendekatan ini. Ini jelas bukan masalahnya. Torre menulis perlakuan terperinci tentang bagaimana sebagian besar metode multivariat linear umum dapat dilihat sebagai penurunan peringkat, lihat Kerangka Kerja Least-Squares untuk Analisis Komponen , 2009, dan bab buku selanjutnya Penyatuan metode analisis komponen , 2013; dia menyajikan argumen yang sama tetapi juga tidak memberikan referensi. Bahan ini juga tercakup dalam buku teks Teknik Statistik Multivariat Modern (2008) oleh Izenman, yang memperkenalkan RRR kembali pada tahun 1975.

Hubungan antara LDA dan CCA tampaknya kembali ke Bartlett, 1938, Aspek lebih lanjut dari teori regresi berganda - itulah referensi yang sering saya temui (tetapi tidak diverifikasi). Hubungan antara CCA dan RRR dijelaskan dalam Izenman, 1975, Reduced-rank regression untuk model linear multivariat . Jadi semua ide ini sudah ada untuk sementara waktu.


+1 dari saya untuk keterangan dan untuk merujuk pada jawaban saya dan untuk memperkenalkan RRR di sini (upvoting di muka karena akan melewati beberapa waktu yang tidak diketahui sebelum saya duduk untuk merobek semua aljabar yang luar biasa / tangguh!).
ttnphns

0

Regresi linier dan analisis diskriminan linier sangat berbeda. Regresi linier menghubungkan variabel dependen dengan satu set variabel prediktor independen. Idenya adalah menemukan fungsi linear dalam parameter yang paling sesuai dengan data. Bahkan tidak harus linear dalam kovariat. Analisis diskriminan linier di sisi lain adalah prosedur untuk mengklasifikasikan objek ke dalam kategori. Untuk masalah dua kelas ini berusaha mencari hyperplane pemisah terbaik untuk membagi kelompok menjadi dua kategori. Di sini terbaik berarti bahwa ia meminimalkan fungsi kerugian yang merupakan kombinasi linear dari tingkat kesalahan. Untuk tiga atau lebih kelompok, ia menemukan kumpulan pesawat terbang terbaik (k-1 untuk masalah kelas k). Dalam analisis diskriminan, hypoerplanes linear dalam variabel fitur.

Kesamaan utama antara keduanya adalah istilah linear dalam judul.


Maaf, saya salah menulis. Harus regresi dan LDA. Saya melihat beberapa artikel tentang diskriminasi linear melalui regresi, tetapi saya tidak tahu cara kerjanya. Saya pikir LDA dan regresi logistik untuk dua kelas memiliki beberapa hubungan tetapi tidak bisa mengatakan dengan jelas apa itu. Dan untuk lebih dari dua kelas, saya tidak tahu apakah ada hubungan.
zca0

1
Ya ada hubungan antara regresi logistik dan analisis diskriminan linier. Efron dan muridnya Terry O'Neilll menulis tentang ini di akhir tahun 1970-an. Saya akan mencoba mencari tautan ke referensi.
Michael R. Chernick

2
Berikut ini adalah pertanyaan dan jawaban terkait di CV. stats.stackexchange.com/questions/14697/…
Michael R. Chernick

-1 karena sebenarnya ada hubungan yang mendalam antara LDA dan regresi, seperti yang dijelaskan oleh @ttnphns dan saya sendiri dalam jawaban kami.
Amuba kata Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.