Pendeknya
MANOVA satu arah dan LDA mulai dengan mendekomposisi total matriks ke dalam matriks di dalam kelas dan matriks antara-kelas , sedemikian rupa sehingga . Catatan bahwa ini adalah sepenuhnya analog dengan bagaimana ANOVA satu arah terurai jumlah total-of-kotak ke dalam kelas dan antara kelas jumlah-of-kotak: . Dalam ANOVA rasio kemudian dihitung dan digunakan untuk menemukan nilai-p: semakin besar rasio ini, semakin kecil nilai-p. MANOVA dan LDA menyusun analog multivariat kuantitas .W B T = W + B T T = B + W B / W W - 1 BTWBT = W + BTT= B + WB / WW- 1B
Dari sini mereka berbeda. Satu-satunya tujuan MANOVA adalah untuk menguji apakah sarana semua kelompok adalah sama; hipotesis nol ini akan berarti bahwa harus sama dengan ukuran . Jadi MANOVA melakukan komposisi eigend dari dan menemukan nilai eigennya . Idenya adalah sekarang untuk menguji apakah mereka cukup besar untuk menolak nol. Ada empat cara umum untuk membentuk statistik skalar dari seluruh rangkaian nilai eigen . Salah satu caranya adalah dengan mengambil jumlah semua nilai eigen. Cara lain adalah dengan mengambil nilai eigen maksimal. Dalam setiap kasus, jika statistik yang dipilih cukup besar, hipotesis nol ditolak.W W - 1 B λ i λ iBWW- 1Bλsayaλsaya
Sebaliknya, LDA melakukan komposisi eigend dari dan melihat vektor eigen (bukan nilai eigen). Vektor-vektor eigen ini menentukan arah dalam ruang variabel dan disebut sumbu diskriminan . Proyeksi data ke sumbu diskriminan pertama memiliki pemisahan kelas tertinggi (diukur sebagai ); ke yang kedua - tertinggi kedua; dll. Ketika LDA digunakan untuk pengurangan dimensi, data dapat diproyeksikan misalnya pada dua sumbu pertama, dan yang tersisa dibuang. B / WW- 1BB / W
Lihat juga jawaban yang sangat baik oleh @ttnphns di utas lain yang mencakup hampir semua bidang yang sama.
Contoh
Mari kita pertimbangkan kasus satu arah dengan variabel dependen dan kelompok pengamatan (yaitu satu faktor dengan tiga level). Saya akan mengambil dataset Iris Fisher yang terkenal dan hanya mempertimbangkan panjang sepal dan lebar sepal (untuk membuatnya dua dimensi). Berikut adalah plot pencar:k = 3M.= 2k = 3
Kita dapat mulai dengan menghitung ANOVA dengan panjang / lebar sepal secara terpisah. Bayangkan titik data diproyeksikan secara vertikal atau horizontal pada sumbu x dan y, dan ANOVA 1 arah dilakukan untuk menguji apakah tiga kelompok memiliki cara yang sama. Kita mendapatkan dan untuk panjang sepal, dan dan untuk lebar sepal. Oke, jadi contoh saya cukup buruk karena tiga kelompok sangat berbeda dengan nilai-p yang konyol pada kedua ukuran, tetapi saya tetap akan tetap menggunakannya.p = 10 - 31 F 2 , 147 = 49 p = 10 - 17F2 , 147= 119p = 10- 31F2 , 147= 49p = 10- 17
Sekarang kita dapat melakukan LDA untuk menemukan sumbu yang secara maksimal memisahkan tiga cluster. Seperti dijelaskan di atas, kami menghitung matriks hamburan penuh , matriks dalam kelas dan matriks antar-kelas dan temukan vektor eigen dari . Saya dapat memplot kedua vektor eigen di sebar yang sama:W B = T - W W - 1 BTWB = T - WW- 1B
Garis putus-putus adalah sumbu diskriminan. Saya memplotnya dengan panjang acak, tetapi sumbu yang lebih panjang menunjukkan vektor eigen dengan nilai eigen yang lebih besar (4,1) dan yang lebih pendek --- yang memiliki nilai eigen yang lebih kecil (0,02). Perhatikan bahwa mereka tidak ortogonal, tetapi matematika LDA menjamin bahwa proyeksi pada sumbu ini memiliki korelasi nol.
Jika sekarang kami memproyeksikan data kami pada sumbu diskriminan pertama (lebih panjang) dan kemudian menjalankan ANOVA, kami mendapatkan dan , yang lebih rendah dari sebelumnya, dan merupakan nilai serendah mungkin di antara semua linier proyeksi (itu adalah inti dari LDA). Proyeksi pada sumbu kedua hanya memberikan .p = 10 - 53 p = 10 - 5F= 305p = 10- 53p = 10- 5
Jika kita menjalankan MANOVA pada data yang sama, kita menghitung matriks yang sama dan melihat nilai eigennya untuk menghitung nilai-p. Dalam hal ini nilai eigen yang lebih besar sama dengan 4,1, yang sama dengan untuk ANOVA sepanjang diskriminan pertama (memang, , di mana adalah jumlah total poin data dan adalah jumlah kelompok). B / WF=B / W⋅(N-k) / (k-1)=4,1⋅147 / 2=305N=150k=3W- 1BB / WF= B / W⋅ ( N- k ) / ( k - 1 ) = 4,1 ⋅ 147 / 2 = 305N= 150k = 3
Ada beberapa tes statistik yang umum digunakan yang menghitung nilai p dari eigenspectrum (dalam hal ini dan ) dan memberikan hasil yang sedikit berbeda. MATLAB memberi saya tes Wilks, yang melaporkan . Perhatikan bahwa nilai ini lebih rendah dari yang kita miliki sebelumnya dengan ANOVA apa pun, dan intuisi di sini adalah bahwa nilai p MANOVA "menggabungkan" dua nilai p yang diperoleh dengan ANOVA pada dua sumbu diskriminan.λ1= 4.1λ2= 0,02p = 10- 55
Apakah mungkin untuk mendapatkan situasi yang berlawanan: nilai p lebih tinggi dengan MANOVA? Ya itu. Untuk ini kita memerlukan situasi ketika hanya satu sumbu diskriminatif yang memberikan signifikan , dan yang kedua tidak membeda-bedakan sama sekali. Saya memodifikasi dataset di atas dengan menambahkan tujuh poin dengan koordinat ke kelas "hijau" (titik hijau besar mewakili tujuh titik identik ini):F( 8 , 4 )
Sumbu diskriminan kedua hilang: nilai eigennya hampir nol. ANOVA pada dua sumbu diskriminan memberikan dan . Tetapi sekarang MANOVA melaporkan hanya , yang sedikit lebih tinggi dari ANOVA. Intuisi di baliknya adalah (saya percaya) bahwa peningkatan nilai p MANOVA menyumbang fakta bahwa kami memasang sumbu diskriminan untuk mendapatkan nilai minimum yang mungkin dan mengoreksi kemungkinan positif palsu. Lebih formal orang akan mengatakan bahwa MANOVA mengkonsumsi lebih banyak derajat kebebasan. Bayangkan ada 100 variabel, dan hanya sepanjang arah yang didapatp = 10- 55p = 0,26p = 10- 54∼ 5p ≈ 0,05makna; ini pada dasarnya adalah beberapa pengujian dan kelima kasus tersebut adalah positif palsu, sehingga MANOVA akan mempertimbangkannya dan melaporkan keseluruhan yang tidak signifikan .hal
MANOVA vs LDA sebagai pembelajaran mesin vs statistik
Bagi saya sekarang ini adalah salah satu contoh teladan tentang bagaimana komunitas pembelajaran mesin dan komunitas statistik yang berbeda mendekati hal yang sama. Setiap buku teks tentang pembelajaran mesin mencakup LDA, menampilkan gambar-gambar yang bagus, dll. Tetapi tidak akan pernah menyebutkan MANOVA (mis. Uskup , Hastie , dan Murphy ). Mungkin karena orang di sana lebih tertarik pada akurasi klasifikasi LDA (yang kira-kira sesuai dengan ukuran efek), dan tidak tertarik pada signifikansi statistik perbedaan kelompok. Di sisi lain, buku teks tentang analisis multivariat akan membahas MANOVA ad mual, memberikan banyak data yang ditabulasi (arrrgh) tetapi jarang menyebutkan LDA dan bahkan lebih jarang menunjukkan plot apa pun (mis.Anderson , atau Harris ; namun, Rencher & Christensen do dan Huberty & Olejnik bahkan disebut "MANOVA and Discriminant Analysis").
MANOVA faktorial
MANOVA faktorial jauh lebih membingungkan, tetapi menarik untuk dipertimbangkan karena berbeda dari LDA dalam arti bahwa "faktorial LDA" tidak benar-benar ada, dan MANOVA faktorial tidak secara langsung sesuai dengan "LDA biasa".
Pertimbangkan MANOVA dua arah yang seimbang dengan dua faktor (atau variabel independen, infus). Satu faktor (faktor A) memiliki tiga level, dan faktor lain (faktor B) memiliki dua level, menjadikan "sel" dalam desain eksperimental (menggunakan terminologi ANOVA). Untuk kesederhanaan, saya hanya akan mempertimbangkan dua variabel dependen (DV):3 ⋅ 2 = 6
Pada gambar ini keenam "sel" (saya juga akan menyebutnya "kelompok" atau "kelas") dipisahkan dengan baik, yang tentu saja jarang terjadi dalam praktek. Perhatikan bahwa jelas ada efek utama yang signifikan dari kedua faktor di sini, dan juga efek interaksi yang signifikan (karena kelompok kanan atas bergeser ke kanan; jika saya memindahkannya ke posisi "grid", maka tidak akan ada efek interaksi).
Bagaimana cara kerja perhitungan MANOVA dalam kasus ini?
Pertama, MANOVA menghitung dikumpulkan dalam kelas scatter matrix . Tetapi matriks sebar antar-kelas tergantung pada apa efek yang kami uji. Pertimbangkan matriks pencar antar-kelas untuk faktor A. Untuk menghitungnya, kami menemukan rata-rata global (diwakili dalam gambar oleh bintang) dan sarana yang tergantung pada tingkat faktor A (diwakili dalam gambar dengan tiga salib) . Kami kemudian menghitung sebaran berarti bersyarat ini (dibobot dengan jumlah titik data di setiap tingkat A) relatif terhadap rata-rata global, tiba ke . Sekarang kita dapat mempertimbangkan matriks , menghitung komposisi eigendnya, dan menjalankan tes signifikansi MANOVA berdasarkan nilai eigen.WBSEBUAHBSEBUAHW- 1BSEBUAH
Untuk faktor B, akan ada lagi matriks antara-kelas , dan secara analog (sedikit lebih rumit, tetapi langsung) akan ada lagi matriks antara-kelas untuk efek interaksi, sehingga pada akhirnya total matriks diuraikan menjadi [catatan bahwa dekomposisi ini hanya berfungsi untuk dataset seimbang dengan jumlah titik data yang sama di setiap cluster. Untuk dataset yang tidak seimbang, tidak dapat secara unik didekomposisi menjadi jumlah dari tiga kontribusi faktor karena faktor-faktor tersebut tidak ortogonal lagi; ini mirip dengan diskusi Tipe I / II / III SS di ANOVA.]B A B T = B A + B B + B A B + W . BBBBA B
T = BSEBUAH+ BB+ BA B+ W .
B
Sekarang, pertanyaan utama kami di sini adalah bagaimana MANOVA sesuai dengan LDA. Tidak ada yang namanya "LDA faktorial". Pertimbangkan faktor A. Jika kita ingin menjalankan LDA untuk mengklasifikasikan tingkat faktor A (lupa tentang faktor B sama sekali), kita akan memiliki matriks antar-kelas , tetapi matriks pencar di dalam kelas yang berbeda (pikirkan menggabungkan dua ellipsoid kecil di setiap level faktor A pada gambar saya di atas). Hal yang sama berlaku untuk faktor-faktor lain. Jadi tidak ada "LDA sederhana" yang secara langsung sesuai dengan tiga tes yang dijalankan MANOVA dalam kasus ini.W A = T - B ABSEBUAHWSEBUAH= T - BSEBUAH
Namun, tentu saja tidak ada yang menghalangi kita untuk melihat vektor eigen dari , dan dari memanggil mereka "sumbu diskriminan" untuk faktor A di MANOVA.W- 1BSEBUAH