Analisis Diskriminan Linier dan data yang didistribusikan secara tidak normal

Jika saya mengerti dengan benar, Analisis Diskriminan Linier (LDA) mengasumsikan data terdistribusi normal, fitur independen, dan kovarian identik untuk setiap kelas untuk kriteria optimalitas.

Karena mean dan varians diperkirakan dari data pelatihan, bukankah itu sudah merupakan pelanggaran?

Saya menemukan kutipan dalam sebuah artikel (Li, Tao, Shenghuo Zhu, dan Mitsunori Ogihara. " Menggunakan Analisis Diskriminan untuk Klasifikasi Multi-Kelas: Investigasi Eksperimental ." Pengetahuan dan Sistem Informasi 10, no. 4 (2006): 453-72 .)

"Analisis diskriminan linear sering mencapai kinerja yang baik dalam tugas-tugas pengenalan wajah dan objek, meskipun asumsi matriks kovarians umum di antara kelompok dan normalitas sering dilanggar (Duda, et al., 2001)"

- sayangnya, saya tidak dapat menemukan bagian yang sesuai di Duda et. Al. "Klasifikasi Pola".

Adakah pengalaman atau pemikiran tentang penggunaan LDA (vs LDA atau QDA yang Diatur Resmi) untuk data tidak normal dalam konteks pengurangan dimensionalitas?

dimensionality-reduction normality-assumption discriminant-analysis

— amuba
sumber

Anda bertanya secara khusus tentang LDA multi-kelas. Apa yang membuat Anda berpikir bahwa LDA multi-kelas dan dua-kelas LDA berperilaku berbeda dalam hal ini (di bawah pelanggaran normalitas dan / atau asumsi kovarian umum)?

— amoeba

Jika saya tidak melewatkan sesuatu di sini, itu harus didasarkan pada asumsi yang sama, bukan? Saya hanya tidak melihat asumsi di koran Rao sehubungan dengan normalitas, tapi saya menggeneralisasi pertanyaan

Inilah yang Hastie et al. harus mengatakan tentang hal itu (dalam konteks LDA dua kelas) dalam The Elements of Statistics Learning, bagian 4.3:

Karena derivasi arah LDA ini melalui kuadrat terkecil tidak menggunakan asumsi Gaussian untuk fitur, penerapannya melampaui bidang data Gaussian. Namun derivasi dari intersep atau cut-point tertentu yang diberikan pada (4.11) memang membutuhkan data Gaussian. Jadi masuk akal untuk memilih titik potong yang secara empiris meminimalkan kesalahan pelatihan untuk dataset yang diberikan. Ini adalah sesuatu yang kami temukan bekerja dengan baik dalam praktik, tetapi belum melihatnya disebutkan dalam literatur.

~~Saya tidak sepenuhnya memahami derivasi melalui kuadrat terkecil yang mereka rujuk, tetapi secara umum~~ [Pembaruan: Saya akan meringkasnya secara singkat di beberapa titik] Saya pikir paragraf ini masuk akal: bahkan jika datanya sangat non Gaussian atau kelas kovarian sangat berbeda, sumbu LDA mungkin masih akan menghasilkan beberapa diskriminasi. Namun, titik potong pada sumbu ini (memisahkan dua kelas) yang diberikan oleh LDA dapat sepenuhnya dimatikan. Mengoptimalkannya secara terpisah dapat secara substansial meningkatkan klasifikasi.

Perhatikan bahwa ini hanya merujuk pada kinerja klasifikasi. Jika yang Anda inginkan adalah pengurangan dimensi, maka sumbu LDA adalah yang Anda butuhkan. Jadi tebakan saya adalah untuk pengurangan dimensi LDA akan sering melakukan pekerjaan yang layak bahkan jika asumsi dilanggar.

Mengenai rLDA dan QDA: rLDA harus digunakan jika tidak ada cukup titik data untuk memperkirakan kovarian dalam kelas dengan andal (dan sangat penting dalam kasus ini). Dan QDA adalah metode non-linear, jadi saya tidak yakin bagaimana menggunakannya untuk pengurangan dimensi.

— amuba
sumber

Sekali lagi terima kasih atas umpan balik yang berharga dan menyeluruh ini! Saya akan membiarkan pertanyaan terbuka selama beberapa hari untuk mengumpulkan beberapa pendapat lagi

Beberapa hari telah berlalu :)

— amoeba

Dapatkah saya tahu bahwa dalam konteks pengurangan dimensionalitas menggunakan LDA / FDA. LDA/FDA can start with n dimensions and end with k dimensions, where k < n. Apakah itu benar? Atau Outputnyac-1 where c is the number of classes and the dimensionality of the data is n with n>c.

— aan