Seperti yang disarankan AdamO dalam komentar di atas, Anda tidak dapat benar-benar melakukan lebih baik daripada membaca Bab 4 dari Elemen Pembelajaran Statistik (yang akan saya sebut HTF) yang membandingkan LDA dengan metode klasifikasi linier lainnya, memberikan banyak contoh, dan juga membahas penggunaan LDA sebagai teknik reduksi dimensi dalam vena PCA yang, seperti yang ditunjukkan oleh ttnphns, agak populer.
Dari sudut pandang klasifikasi, saya pikir perbedaan utamanya adalah ini. Bayangkan Anda memiliki dua kelas dan Anda ingin memisahkannya. Setiap kelas memiliki fungsi kepadatan probabilitas. Situasi terbaik yang mungkin terjadi adalah jika Anda mengetahui fungsi kerapatan ini, karena dengan demikian Anda dapat memprediksi kelas mana yang akan dimiliki dengan mengevaluasi kerapatan khusus kelas pada titik itu.
Beberapa jenis classifier beroperasi dengan menemukan perkiraan fungsi kepadatan kelas. LDA adalah salah satunya; itu membuat asumsi bahwa kepadatan multivariat normal dengan matriks kovarians yang sama. Ini adalah asumsi yang kuat, tetapi jika kira-kira benar, Anda mendapatkan penggolong yang baik. Banyak pengklasifikasi lain juga mengambil pendekatan semacam ini, tetapi cobalah untuk lebih fleksibel daripada mengasumsikan normalitas. Misalnya, lihat halaman 108 tentang HTF.
Di sisi lain, di halaman 210, HTF memperingatkan:
Jika klasifikasi adalah tujuan akhir, maka mempelajari kepadatan kelas yang terpisah dengan baik mungkin tidak perlu, dan sebenarnya bisa menyesatkan.
Pendekatan lain adalah hanya untuk mencari batas antara dua kelas, yang dilakukan perceptron. Versi yang lebih canggih dari ini adalah mesin vektor dukungan. Metode-metode ini juga dapat dikombinasikan dengan menambahkan fitur ke data menggunakan teknik yang disebut kernelisasi. Ini tidak bekerja dengan LDA karena tidak mempertahankan normalitas, tetapi tidak ada masalah untuk classifier yang hanya mencari hyperplane pemisah.
Perbedaan antara LDA dan classifier yang mencari hyperplane pemisah adalah seperti perbedaan antara uji-t dan beberapa alternatif nonparamteric dalam statistik biasa. Yang terakhir lebih kuat (untuk outlier, misalnya) tetapi yang pertama adalah optimal jika asumsi-asumsinya puas.
Satu komentar lagi: mungkin perlu disebutkan bahwa beberapa orang mungkin memiliki alasan budaya untuk menggunakan metode seperti LDA atau regresi logistik, yang mungkin dengan sukarela memuntahkan tabel ANOVA, tes hipotesis, dan meyakinkan hal-hal seperti itu. LDA ditemukan oleh Fisher; perceptron pada awalnya merupakan model untuk neuron manusia atau hewan dan tidak memiliki hubungan dengan statistik. Ini juga bekerja sebaliknya; beberapa orang mungkin lebih suka metode seperti mesin vektor dukungan karena mereka memiliki jenis kredit hipster mutakhir yang metode abad kedua puluh tidak bisa cocok. Itu tidak berarti bahwa mereka lebih baik. (Contoh yang baik dari ini dibahas dalam Machine Learning for Hacker , jika saya ingat dengan benar.)