LDA vs perceptron


9

Saya mencoba untuk merasakan bagaimana LDA 'cocok' dengan teknik pembelajaran lainnya yang diawasi. Saya sudah membaca beberapa posting LDA-esque di sini tentang LDA. Saya sudah terbiasa dengan perceptron, tetapi baru belajar LDA sekarang.

Bagaimana LDA 'cocok' ke dalam keluarga algoritma pembelajaran yang diawasi? Apa yang mungkin menjadi kelemahannya dibandingkan dengan metode-metode lain itu, dan apa yang lebih baik digunakan untuk itu? Mengapa menggunakan LDA, ketika seseorang hanya bisa menggunakan, misalnya, perceptron misalnya?


1
Saya pikir Anda mungkin bingung tentang apa belajar yang diawasi itu. K-means adalah algoritma pengelompokan pembelajaran tanpa pengawasan. Perceptron adalah algoritma klasifikasi pembelajaran terawasi yang berupaya menemukan hyperplane yang memisahkan negatif dari pengamatan positif. LDA adalah metode yang dapat digunakan untuk klasifikasi terawasi tetapi lebih umum digunakan untuk pemilihan fitur terawasi. Lihat jawaban @ AdamO untuk asumsi classifier LDA.
Bitwise

@Sederhana Ups! Saya tidak tahu mengapa saya menaruh K-means di sana. Ya, ini adalah algoritma yang tidak diawasi. Saya akan menghapusnya di edit.
Creatron

@Bitwise Mengenai apa yang Anda katakan tentang LDA dan Perceptron, ya, itulah yang membingungkan saya. LDA mencoba untuk menemukan hyperplane yang akan memproyeksikan data Anda, sehingga memaksimalkan varians antar-ras, sambil meminimalkan varians intra-kluster. Kemudian di perbatasan, Anda memiliki classifier. Perceptron melakukan sesuatu yang serupa, di mana ia juga mencoba untuk menemukan hyperplane optimal untuk memisahkan data yang berlabel. Jadi mengapa menggunakan satu di atas yang lain?
Creatron

Jawaban:


15

Seperti yang disarankan AdamO dalam komentar di atas, Anda tidak dapat benar-benar melakukan lebih baik daripada membaca Bab 4 dari Elemen Pembelajaran Statistik (yang akan saya sebut HTF) yang membandingkan LDA dengan metode klasifikasi linier lainnya, memberikan banyak contoh, dan juga membahas penggunaan LDA sebagai teknik reduksi dimensi dalam vena PCA yang, seperti yang ditunjukkan oleh ttnphns, agak populer.

Dari sudut pandang klasifikasi, saya pikir perbedaan utamanya adalah ini. Bayangkan Anda memiliki dua kelas dan Anda ingin memisahkannya. Setiap kelas memiliki fungsi kepadatan probabilitas. Situasi terbaik yang mungkin terjadi adalah jika Anda mengetahui fungsi kerapatan ini, karena dengan demikian Anda dapat memprediksi kelas mana yang akan dimiliki dengan mengevaluasi kerapatan khusus kelas pada titik itu.

Beberapa jenis classifier beroperasi dengan menemukan perkiraan fungsi kepadatan kelas. LDA adalah salah satunya; itu membuat asumsi bahwa kepadatan multivariat normal dengan matriks kovarians yang sama. Ini adalah asumsi yang kuat, tetapi jika kira-kira benar, Anda mendapatkan penggolong yang baik. Banyak pengklasifikasi lain juga mengambil pendekatan semacam ini, tetapi cobalah untuk lebih fleksibel daripada mengasumsikan normalitas. Misalnya, lihat halaman 108 tentang HTF.

Di sisi lain, di halaman 210, HTF memperingatkan:

Jika klasifikasi adalah tujuan akhir, maka mempelajari kepadatan kelas yang terpisah dengan baik mungkin tidak perlu, dan sebenarnya bisa menyesatkan.

Pendekatan lain adalah hanya untuk mencari batas antara dua kelas, yang dilakukan perceptron. Versi yang lebih canggih dari ini adalah mesin vektor dukungan. Metode-metode ini juga dapat dikombinasikan dengan menambahkan fitur ke data menggunakan teknik yang disebut kernelisasi. Ini tidak bekerja dengan LDA karena tidak mempertahankan normalitas, tetapi tidak ada masalah untuk classifier yang hanya mencari hyperplane pemisah.

Perbedaan antara LDA dan classifier yang mencari hyperplane pemisah adalah seperti perbedaan antara uji-t dan beberapa alternatif nonparamteric dalam statistik biasa. Yang terakhir lebih kuat (untuk outlier, misalnya) tetapi yang pertama adalah optimal jika asumsi-asumsinya puas.

Satu komentar lagi: mungkin perlu disebutkan bahwa beberapa orang mungkin memiliki alasan budaya untuk menggunakan metode seperti LDA atau regresi logistik, yang mungkin dengan sukarela memuntahkan tabel ANOVA, tes hipotesis, dan meyakinkan hal-hal seperti itu. LDA ditemukan oleh Fisher; perceptron pada awalnya merupakan model untuk neuron manusia atau hewan dan tidak memiliki hubungan dengan statistik. Ini juga bekerja sebaliknya; beberapa orang mungkin lebih suka metode seperti mesin vektor dukungan karena mereka memiliki jenis kredit hipster mutakhir yang metode abad kedua puluh tidak bisa cocok. Itu tidak berarti bahwa mereka lebih baik. (Contoh yang baik dari ini dibahas dalam Machine Learning for Hacker , jika saya ingat dengan benar.)


"Beberapa orang mungkin lebih suka metode seperti mesin vektor dukungan karena mereka memiliki jenis kredit hipster mutakhir yang tidak bisa ditandingi metode abad kedua puluh." LOL! Benar sekali. Tapi Anda memiliki keahlian untuk menjelaskan hal-hal dengan sangat jelas dan akurat. Terima kasih! Saya membutuhkan 'peta' tentang bagaimana segala sesuatunya cocok dan Anda memberikannya.
Creatron

2

Untuk intuisi, pertimbangkan hal ini:

masukkan deskripsi gambar di sini

Garis mewakili "batas optimal" antara dua kelas o dan x.

LDA mencoba untuk menemukan hyperplane yang meminimalkan varians intersluster dan memaksimalkan varians intracluster, dan kemudian mengambil batas menjadi ortogonal ke hyperplane itu. Di sini, ini mungkin tidak akan berfungsi karena cluster memiliki varians yang besar dalam arah yang sama.

Sebaliknya, perceptron mungkin memiliki peluang yang lebih baik untuk menemukan hyperplane pemisah yang baik.

Dalam kasus kelas yang memiliki distribusi Gaussian, LDA mungkin akan melakukan lebih baik, karena perceptron hanya menemukan hyperplane pemisah yang konsisten dengan data, tanpa memberikan jaminan tentang hyperplane mana yang dipilihnya (mungkin ada angka tak terbatas hiperplanes yang konsisten). Namun, versi perceptron yang lebih canggih dapat memilih hyperplane dengan beberapa properti optimal, seperti memaksimalkan margin di antara kelas-kelas (inilah yang pada dasarnya dilakukan oleh Support Vector Machines).

Perhatikan juga bahwa LDA dan perceptron dapat diperluas ke batas keputusan non-linear melalui trik kernel .


1

Salah satu perbedaan terbesar antara LDA dan metode lain adalah bahwa itu hanya teknik pembelajaran mesin untuk data yang diasumsikan terdistribusi normal. Itu bisa menjadi hebat dalam kasus data yang hilang atau pemotongan di mana Anda dapat menggunakan algoritma EM untuk memaksimalkan kemungkinan dalam keadaan yang sangat aneh dan / atau menarik. Caveat emptor karena kesalahan spesifikasi model, seperti data multimodal, dapat menyebabkan prediksi berkinerja buruk di mana pengelompokan K-means akan dilakukan dengan lebih baik. Data multimodal juga dapat dipertanggungjawabkan dengan EM untuk mendeteksi variabel laten atau pengelompokan dalam LDA.

Misalnya, Anda ingin mengukur kemungkinan mengembangkan diagnosis positif AIDS dalam 5 tahun berdasarkan jumlah CD4. Anggap lebih jauh bahwa Anda tidak tahu nilai biomarker spesifik yang sangat memengaruhi jumlah CD4 dan dikaitkan dengan penekanan kekebalan lebih lanjut. Jumlah CD4 di bawah 400 berada di bawah batas bawah deteksi pada tes paling terjangkau. Algoritma EM memungkinkan kita untuk secara iteratif menghitung LDA dan penugasan biomarker serta sarana dan kovarian untuk CD4 untuk DF yang tidak dikunci.


Terima kasih Adam, walaupun sekarang saya lebih bingung. :-) Bagaimana LDA lebih baik / buruk yang mengatakan, Perceptron, atau teknik pembelajaran lainnya yang diawasi? Mengenai EM algo, Anda menggunakannya dalam lingkup mengatakan bahwa Anda dapat menyelesaikan untuk LDA, menggunakan EM algo, benar?
Creatron

1
@ AdamO, saya ingin menambahkan untuk kejelasan bahwa LDA sebagai teknik reduksi data tidak bergantung pada normalitas, seperti halnya PCA tidak. Normalitas dalam LDA adalah asumsi untuk 1) pengujian statistik (uji M Box dll), 2) klasifikasi.
ttnphns

@ttnphns dengan asumsi normalitas berarti bahwa LDA adalah teknik ML. ML adalah hal yang baik. Peringatan khusus dalam contoh yang saya sebutkan menggunakan ML untuk memecahkan masalah yang sulit. Solusi-solusi itu hanya mungkin dilakukan dengan simulasi dan / atau BUGS yang canggih.
AdamO

@TheGrapeBeyond LDA memaksimalkan jarak Mahal dengan dua kelompok. SLP (single layer perceptron, atau nnet) menarik hyperplane di ruang fitur yang menciptakan akurasi klasifikasi maksimum ... Saya pikir. Tempat awal yang baik adalah membaca buku Tibs / Hastie. Saya mungkin perlu memoles yang itu sendiri.
AdamO
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.