Bagaimana MANOVA terkait dengan LDA?

Di beberapa tempat saya melihat klaim bahwa MANOVA seperti ANOVA plus linear diskriminant analysis (LDA), tetapi selalu dibuat dengan cara melambaikan tangan. Saya ingin tahu apa sebenarnya yang seharusnya berarti.

Saya menemukan berbagai buku teks yang menjelaskan semua detail perhitungan MANOVA, tetapi tampaknya sangat sulit untuk menemukan diskusi umum yang baik (apalagi gambar ) yang dapat diakses oleh seseorang yang bukan ahli statistik.

anova discriminant-analysis manova

— amuba kata Reinstate Monica
sumber

Akun lokal saya sendiri LDA relatif ANOVA dan MANOVA adalah ini , ini . Mungkin mereka melambaikan tangan, tetapi mereka membahas topik Anda sampai batas tertentu. Kata kuncinya ada bahwa "LDA adalah MANOVA terendam ke dalam struktur laten". MANOVA adalah fasilitas pengujian hipotesis yang sangat kaya; antara lain dapat menganalisis struktur laten dari perbedaan; analisis ini termasuk LDA.

— ttnphns

@ttnphns, saya khawatir komentar saya sebelumnya tidak terkirim (saya lupa memasukkan nama pengguna Anda), jadi izinkan saya ulangi: Wow, terima kasih banyak, jawaban tertaut Anda tampaknya sangat terkait dengan pertanyaan saya dan saya pasti melewatkannya dalam pencarian saya sebelum memposting. Saya perlu waktu untuk mencernanya dan saya mungkin akan kembali kepada Anda setelah itu, tetapi mungkin sekarang Anda sudah bisa mengarahkan saya ke beberapa makalah / buku yang membahas topik ini? Aku akan senang untuk melihat pembahasan rinci hal ini dalam gaya jawaban Anda terkait.

— Amoeba berkata Reinstate Monica

Hanya satu akun webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf yang lama dan klasik . BTW saya belum membacanya sendiri sejauh ini. Artikel terkait lainnya dl.acm.org/citation.cfm?id=1890259 .

— ttnphns

@ttnphns: Terima kasih. Saya menulis jawaban untuk pertanyaan saya sendiri, pada dasarnya memberikan beberapa ilustrasi dan contoh spesifik untuk balasan terkait Anda yang sangat baik pada LDA / MANOVA. Saya pikir mereka saling melengkapi dengan baik.

— Amoeba berkata Reinstate Monica

Pendeknya

MANOVA satu arah dan LDA mulai dengan mendekomposisi total matriks ke dalam matriks di dalam kelas dan matriks antara-kelas , sedemikian rupa sehingga . Catatan bahwa ini adalah sepenuhnya analog dengan bagaimana ANOVA satu arah terurai jumlah total-of-kotak ke dalam kelas dan antara kelas jumlah-of-kotak: . Dalam ANOVA rasio kemudian dihitung dan digunakan untuk menemukan nilai-p: semakin besar rasio ini, semakin kecil nilai-p. MANOVA dan LDA menyusun analog multivariat kuantitas . $\mathbf T$ $\mathbf W$ $\mathbf B$ $\mathbf T = \mathbf W + \mathbf B$ $T$ $T=B+W$ $B/W$ $\mathbf W^{-1} \mathbf B$

Dari sini mereka berbeda. Satu-satunya tujuan MANOVA adalah untuk menguji apakah sarana semua kelompok adalah sama; hipotesis nol ini akan berarti bahwa harus sama dengan ukuran . Jadi MANOVA melakukan komposisi eigend dari dan menemukan nilai eigennya . Idenya adalah sekarang untuk menguji apakah mereka cukup besar untuk menolak nol. Ada empat cara umum untuk membentuk statistik skalar dari seluruh rangkaian nilai eigen . Salah satu caranya adalah dengan mengambil jumlah semua nilai eigen. Cara lain adalah dengan mengambil nilai eigen maksimal. Dalam setiap kasus, jika statistik yang dipilih cukup besar, hipotesis nol ditolak. $\mathbf B$ $\mathbf W$ $\mathbf W^{-1} \mathbf B$ $\lambda_i$ $\lambda_i$

Sebaliknya, LDA melakukan komposisi eigend dari dan melihat vektor eigen (bukan nilai eigen). Vektor-vektor eigen ini menentukan arah dalam ruang variabel dan disebut sumbu diskriminan . Proyeksi data ke sumbu diskriminan pertama memiliki pemisahan kelas tertinggi (diukur sebagai ); ke yang kedua - tertinggi kedua; dll. Ketika LDA digunakan untuk pengurangan dimensi, data dapat diproyeksikan misalnya pada dua sumbu pertama, dan yang tersisa dibuang. $\mathbf W^{-1} \mathbf B$ $B/W$

Lihat juga jawaban yang sangat baik oleh @ttnphns di utas lain yang mencakup hampir semua bidang yang sama.

Contoh

Mari kita pertimbangkan kasus satu arah dengan variabel dependen dan kelompok pengamatan (yaitu satu faktor dengan tiga level). Saya akan mengambil dataset Iris Fisher yang terkenal dan hanya mempertimbangkan panjang sepal dan lebar sepal (untuk membuatnya dua dimensi). Berikut adalah plot pencar: $M=2$ $k=3$

Plot sebaran Fisher Iris

Kita dapat mulai dengan menghitung ANOVA dengan panjang / lebar sepal secara terpisah. Bayangkan titik data diproyeksikan secara vertikal atau horizontal pada sumbu x dan y, dan ANOVA 1 arah dilakukan untuk menguji apakah tiga kelompok memiliki cara yang sama. Kita mendapatkan dan untuk panjang sepal, dan dan untuk lebar sepal. Oke, jadi contoh saya cukup buruk karena tiga kelompok sangat berbeda dengan nilai-p yang konyol pada kedua ukuran, tetapi saya tetap akan tetap menggunakannya. $F_{2,147}=119$ $p=10^{-31}$ $F_{2,147}=49$ $p=10^{-17}$

Sekarang kita dapat melakukan LDA untuk menemukan sumbu yang secara maksimal memisahkan tiga cluster. Seperti dijelaskan di atas, kami menghitung matriks hamburan penuh , matriks dalam kelas dan matriks antar-kelas dan temukan vektor eigen dari . Saya dapat memplot kedua vektor eigen di sebar yang sama: $\mathbf{T}$ $\mathbf{W}$ $\mathbf{B}=\mathbf{T}-\mathbf{W}$ $\mathbf{W}^{-1}\mathbf{B}$

Fisher Iris LDA

Garis putus-putus adalah sumbu diskriminan. Saya memplotnya dengan panjang acak, tetapi sumbu yang lebih panjang menunjukkan vektor eigen dengan nilai eigen yang lebih besar (4,1) dan yang lebih pendek --- yang memiliki nilai eigen yang lebih kecil (0,02). Perhatikan bahwa mereka tidak ortogonal, tetapi matematika LDA menjamin bahwa proyeksi pada sumbu ini memiliki korelasi nol.

Jika sekarang kami memproyeksikan data kami pada sumbu diskriminan pertama (lebih panjang) dan kemudian menjalankan ANOVA, kami mendapatkan dan , yang lebih rendah dari sebelumnya, dan merupakan nilai serendah mungkin di antara semua linier proyeksi (itu adalah inti dari LDA). Proyeksi pada sumbu kedua hanya memberikan . $F=305$ $p=10^{-53}$ $p=10^{-5}$

Jika kita menjalankan MANOVA pada data yang sama, kita menghitung matriks yang sama dan melihat nilai eigennya untuk menghitung nilai-p. Dalam hal ini nilai eigen yang lebih besar sama dengan 4,1, yang sama dengan untuk ANOVA sepanjang diskriminan pertama (memang, , di mana adalah jumlah total poin data dan adalah jumlah kelompok). $\mathbf{W}^{-1}\mathbf{B}$ $B/W$ $F=B/W \cdot (N-k)/(k-1) = 4.1\cdot 147/2 = 305$ $N=150$ $k=3$

Ada beberapa tes statistik yang umum digunakan yang menghitung nilai p dari eigenspectrum (dalam hal ini dan ) dan memberikan hasil yang sedikit berbeda. MATLAB memberi saya tes Wilks, yang melaporkan . Perhatikan bahwa nilai ini lebih rendah dari yang kita miliki sebelumnya dengan ANOVA apa pun, dan intuisi di sini adalah bahwa nilai p MANOVA "menggabungkan" dua nilai p yang diperoleh dengan ANOVA pada dua sumbu diskriminan. $\lambda_1=4.1$ $\lambda_2=0.02$ $p=10^{-55}$

Apakah mungkin untuk mendapatkan situasi yang berlawanan: nilai p lebih tinggi dengan MANOVA? Ya itu. Untuk ini kita memerlukan situasi ketika hanya satu sumbu diskriminatif yang memberikan signifikan , dan yang kedua tidak membeda-bedakan sama sekali. Saya memodifikasi dataset di atas dengan menambahkan tujuh poin dengan koordinat ke kelas "hijau" (titik hijau besar mewakili tujuh titik identik ini): $F$ $(8,4)$

Fisher Iris LDA dimodifikasi

Sumbu diskriminan kedua hilang: nilai eigennya hampir nol. ANOVA pada dua sumbu diskriminan memberikan dan . Tetapi sekarang MANOVA melaporkan hanya , yang sedikit lebih tinggi dari ANOVA. Intuisi di baliknya adalah (saya percaya) bahwa peningkatan nilai p MANOVA menyumbang fakta bahwa kami memasang sumbu diskriminan untuk mendapatkan nilai minimum yang mungkin dan mengoreksi kemungkinan positif palsu. Lebih formal orang akan mengatakan bahwa MANOVA mengkonsumsi lebih banyak derajat kebebasan. Bayangkan ada 100 variabel, dan hanya sepanjang arah yang didapat $p=10^{-55}$ $p=0.26$ $p=10^{-54}$ $\sim 5$ $p\approx0.05$ makna; ini pada dasarnya adalah beberapa pengujian dan kelima kasus tersebut adalah positif palsu, sehingga MANOVA akan mempertimbangkannya dan melaporkan keseluruhan yang tidak signifikan . $p$

MANOVA vs LDA sebagai pembelajaran mesin vs statistik

Bagi saya sekarang ini adalah salah satu contoh teladan tentang bagaimana komunitas pembelajaran mesin dan komunitas statistik yang berbeda mendekati hal yang sama. Setiap buku teks tentang pembelajaran mesin mencakup LDA, menampilkan gambar-gambar yang bagus, dll. Tetapi tidak akan pernah menyebutkan MANOVA (mis. Uskup , Hastie , dan Murphy ). Mungkin karena orang di sana lebih tertarik pada akurasi klasifikasi LDA (yang kira-kira sesuai dengan ukuran efek), dan tidak tertarik pada signifikansi statistik perbedaan kelompok. Di sisi lain, buku teks tentang analisis multivariat akan membahas MANOVA ad mual, memberikan banyak data yang ditabulasi (arrrgh) tetapi jarang menyebutkan LDA dan bahkan lebih jarang menunjukkan plot apa pun (mis.Anderson , atau Harris ; namun, Rencher & Christensen do dan Huberty & Olejnik bahkan disebut "MANOVA and Discriminant Analysis").

MANOVA faktorial

MANOVA faktorial jauh lebih membingungkan, tetapi menarik untuk dipertimbangkan karena berbeda dari LDA dalam arti bahwa "faktorial LDA" tidak benar-benar ada, dan MANOVA faktorial tidak secara langsung sesuai dengan "LDA biasa".

Pertimbangkan MANOVA dua arah yang seimbang dengan dua faktor (atau variabel independen, infus). Satu faktor (faktor A) memiliki tiga level, dan faktor lain (faktor B) memiliki dua level, menjadikan "sel" dalam desain eksperimental (menggunakan terminologi ANOVA). Untuk kesederhanaan, saya hanya akan mempertimbangkan dua variabel dependen (DV): $3\cdot 2=6$

MANOVA faktorial

Pada gambar ini keenam "sel" (saya juga akan menyebutnya "kelompok" atau "kelas") dipisahkan dengan baik, yang tentu saja jarang terjadi dalam praktek. Perhatikan bahwa jelas ada efek utama yang signifikan dari kedua faktor di sini, dan juga efek interaksi yang signifikan (karena kelompok kanan atas bergeser ke kanan; jika saya memindahkannya ke posisi "grid", maka tidak akan ada efek interaksi).

Bagaimana cara kerja perhitungan MANOVA dalam kasus ini?

Pertama, MANOVA menghitung dikumpulkan dalam kelas scatter matrix . Tetapi matriks sebar antar-kelas tergantung pada apa efek yang kami uji. Pertimbangkan matriks pencar antar-kelas untuk faktor A. Untuk menghitungnya, kami menemukan rata-rata global (diwakili dalam gambar oleh bintang) dan sarana yang tergantung pada tingkat faktor A (diwakili dalam gambar dengan tiga salib) . Kami kemudian menghitung sebaran berarti bersyarat ini (dibobot dengan jumlah titik data di setiap tingkat A) relatif terhadap rata-rata global, tiba ke . Sekarang kita dapat mempertimbangkan matriks , menghitung komposisi eigendnya, dan menjalankan tes signifikansi MANOVA berdasarkan nilai eigen. $\mathbf W$ $\mathbf B_A$ $\mathbf B_A$ $\mathbf W^{-1} \mathbf B_A$

Untuk faktor B, akan ada lagi matriks antara-kelas , dan secara analog (sedikit lebih rumit, tetapi langsung) akan ada lagi matriks antara-kelas untuk efek interaksi, sehingga pada akhirnya total matriks diuraikan menjadi [catatan bahwa dekomposisi ini hanya berfungsi untuk dataset seimbang dengan jumlah titik data yang sama di setiap cluster. Untuk dataset yang tidak seimbang, tidak dapat secara unik didekomposisi menjadi jumlah dari tiga kontribusi faktor karena faktor-faktor tersebut tidak ortogonal lagi; ini mirip dengan diskusi Tipe I / II / III SS di ANOVA.] $\mathbf B_B$ $\mathbf B_{AB}$

T = B_{SEBUAH} + B_{B} + B_{SEBUAH B} + W .

$\mathbf T = \mathbf B_A + \mathbf B_B + \mathbf B_{AB} + \mathbf W.$ $\mathbf B$

Sekarang, pertanyaan utama kami di sini adalah bagaimana MANOVA sesuai dengan LDA. Tidak ada yang namanya "LDA faktorial". Pertimbangkan faktor A. Jika kita ingin menjalankan LDA untuk mengklasifikasikan tingkat faktor A (lupa tentang faktor B sama sekali), kita akan memiliki matriks antar-kelas , tetapi matriks pencar di dalam kelas yang berbeda (pikirkan menggabungkan dua ellipsoid kecil di setiap level faktor A pada gambar saya di atas). Hal yang sama berlaku untuk faktor-faktor lain. Jadi tidak ada "LDA sederhana" yang secara langsung sesuai dengan tiga tes yang dijalankan MANOVA dalam kasus ini. $\mathbf B_A$ $\mathbf W_A=\mathbf T - \mathbf B_A$

Namun, tentu saja tidak ada yang menghalangi kita untuk melihat vektor eigen dari , dan dari memanggil mereka "sumbu diskriminan" untuk faktor A di MANOVA. $\mathbf W^{-1} \mathbf B_A$

— amuba kata Reinstate Monica
sumber

+1, itu akun yang bagus. Saya berubah B^-1 Wmenjadi W^-1 B. Gambar Anda dengan pembeda sebagai sumbu mirip dengan plot saya sendiri ; Saya yakin Anda menggunakan pendekatan "rotasi non-stogonal yang sama sesuai dengan vektor vektor eigen yang dinormalisasi".

— ttnphns

Saya menemukan sedikit kabur

MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive

. MANOVA tentu saja tidak tahu tentang kami melakukan LDA. MANOVA hanya mengkonsumsi lebih banyak df daripada ANOVA, karena ini adalah tes 2 dimensi, itu sebabnya kekuatan nilai-p harus menjadi -54 bukannya -55.

— ttnphns

Saya ragu bahwa harus berbicara dalam hal nilai-p. Sebaliknya, titik kunci yang MANOVA menganalisis matriks yang sama W^-1 Bseperti LDA. LDA menyusun variabel laten (diskriminan) darinya. MANOVA tidak; Namun, ia menyelidiki matriks di atas secara lebih komprehensif, menghitung berbagai statistik (seperti jejak Pillai, jejak Hotteling), untuk mendasarkan pengujian pada mereka.

— ttnphns

Plot yang akan menjadi metafora MANOVA (dan saya pikir Anda mungkin ingin menambahkannya ke jawaban Anda) berbeda dengan LDA (gambar 2 Anda) akan menjadi plot di mana 3 centroid terhubung ke grand centroid dengan garis putus-putus .

— ttnphns

Akhirnya, saya tidak berpikir Anda benar bobot begitu tinggi perbedaan dalam statistik dan pembelajaran mesin. Saya belajar analisis data statistik sebelum saya mendengar kata machine learningpertama kali. Dan teks yang saya baca kemudian membahas LDA cukup banyak, bersama dengan MANOVA.

— ttnphns