Apakah regresi berganda dan multivariat benar-benar berbeda? Apa itu variasi?
Apakah regresi berganda dan multivariat benar-benar berbeda? Apa itu variasi?
Jawaban:
Sangat cepat, saya akan mengatakan: 'berganda' berlaku untuk jumlah prediktor yang memasuki model (atau ekuivalen dengan matriks desain) dengan hasil tunggal (respons Y), sedangkan 'multivariat' mengacu pada matriks vektor respons. Tidak dapat mengingat penulis yang memulai bagian pengantar tentang pemodelan multivarian dengan pertimbangan itu, tetapi saya pikir itu adalah Brian Everitt dalam buku teksnya An R dan S-Plus Companion to Multivariate Analysis . Untuk diskusi menyeluruh tentang ini, saya akan menyarankan untuk melihat buku terbarunya, Multivariable Modeling dan Multivariate Analysis for the Behavioral Sciences .
Untuk 'variate', saya akan mengatakan ini adalah cara yang umum untuk merujuk ke variabel acak apa pun yang mengikuti distribusi yang diketahui atau dihipotesiskan, misalnya kita berbicara tentang gaussian sebagai serangkaian pengamatan yang diambil dari distribusi normal (dengan parameter dan ). Dalam istilah probabilistik, kami mengatakan bahwa ini adalah beberapa realisasi acak X, dengan ekspektasi matematis , dan sekitar 95% di antaranya diperkirakan terletak pada kisaran .
Berikut adalah dua contoh terkait erat yang menggambarkan ide. Contohnya agak sentris AS tetapi ide-idenya dapat diekstrapolasi ke negara lain.
Contoh 1
Misalkan suatu universitas ingin memperbaiki kriteria penerimaannya sehingga mereka menerima siswa yang 'lebih baik'. Juga, anggaplah bahwa Indeks Prestasi Kumulatif (IPK) siswa adalah yang ingin digunakan universitas sebagai metrik kinerja bagi siswa. Mereka memiliki beberapa kriteria dalam pikiran seperti IPK sekolah menengah (HSGPA), skor SAT (SAT), Gender dll.
Solusi: Regresi Berganda
Dalam konteks di atas, ada satu variabel dependen (IPK) dan Anda memiliki beberapa variabel independen (HSGPA, SAT, Jenis Kelamin dll). Anda ingin mengetahui variabel independen mana yang merupakan prediktor yang baik untuk variabel dependen Anda. Anda akan menggunakan regresi berganda untuk membuat penilaian ini.
Contoh 2
Alih-alih situasi di atas, misalkan kantor penerimaan ingin melacak kinerja siswa sepanjang waktu dan ingin menentukan salah satu kriteria mereka yang mendorong kinerja siswa sepanjang waktu. Dengan kata lain, mereka memiliki skor IPK selama empat tahun dimana seorang siswa tetap bersekolah (katakanlah, IPK1, IPK2, IPK3, IPK) dan mereka ingin tahu mana salah satu variabel independen yang memprediksi skor IPK lebih baik pada tahun-oleh- dasar tahun. Kantor penerimaan berharap untuk menemukan bahwa variabel independen yang sama memprediksi kinerja di semua empat tahun sehingga pilihan mereka kriteria penerimaan memastikan bahwa kinerja siswa secara konsisten tinggi di semua empat tahun.
Solusi: Regresi Multivarian
Dalam contoh 2, kami memiliki beberapa variabel dependen (mis., GPA1, GPA2, GPA3, GPA4) dan beberapa variabel independen. Dalam situasi seperti itu, Anda akan menggunakan regresi multivarian.
Regresi sederhana berkaitan dengan satu variabel dependen ( ) dan satu variabel independen ( ):
Regresi berganda (alias regresi multivariabel) berkaitan dengan satu variabel dependen dan beberapa variabel independen:
Regresi multivarian berkaitan dengan beberapa variabel dependen dan beberapa variabel independen: . Anda mungkin mengalami masalah di mana variabel dependen dan independen disusun sebagai matriks variabel (misalnya dan ), jadi ekspresi dapat ditulis sebagai , di mana huruf kapital menunjukkan matriks.
Bacaan lebih lanjut:
Saya pikir wawasan kunci (dan pembeda) di sini selain dari jumlah variabel di kedua sisi persamaan adalah bahwa untuk kasus regresi multivariat, tujuannya adalah untuk memanfaatkan fakta bahwa ada (umumnya) korelasi antara variabel respon (atau hasil). Misalnya, dalam uji coba medis, prediktor mungkin berat, usia, dan ras, dan variabel hasil adalah tekanan darah dan kolesterol. Secara teori, kita dapat membuat dua model "regresi berganda", yang satu menurunkan tekanan darah pada berat badan, usia, dan ras, dan model kedua mengurangi kolesterol pada faktor-faktor yang sama. Namun, sebagai alternatif, kita dapat membuat model regresi multivariat tunggal yang memprediksi keduanyatekanan darah dan kolesterol secara bersamaan berdasarkan pada tiga variabel prediktor. Gagasannya adalah bahwa model regresi multivariat mungkin lebih baik (lebih prediktif) sejauh dapat belajar lebih banyak dari korelasi antara tekanan darah dan kolesterol pada pasien.
Dalam regresi multivariat ada lebih dari satu variabel dependen dengan varians (atau distribusi) yang berbeda. Variabel prediktor mungkin lebih dari satu atau beberapa. Jadi itu mungkin regresi berganda dengan matriks variabel dependen, yaitu beberapa varian. Tetapi ketika kita mengatakan regresi berganda, yang kami maksud hanya satu variabel dependen dengan distribusi tunggal atau varian. Variabel prediktor lebih dari satu. Untuk meringkas banyak merujuk pada lebih dari satu variabel prediktor tetapi multivariat mengacu pada lebih dari satu variabel dependen.