Apa itu matriks singular?
Matriks kuadrat adalah singular, yaitu determinannya adalah nol, jika mengandung baris atau kolom yang saling terkait secara proporsional; dengan kata lain, satu atau lebih barisnya (kolom) persis dapat diekspresikan sebagai kombinasi linier dari semua atau beberapa baris lainnya (kolom), kombinasi yang tanpa suku konstanta.
3×3Acol3=2.15⋅col1Arow2=1.6⋅row1−4⋅row3A, matriks juga singular karena setiap kolom kemudian merupakan kombinasi linear dari kolom lainnya. Secara umum, jika ada baris (kolom) dari matriks kuadrat adalah jumlah tertimbang dari baris lain (kolom), maka salah satu dari yang terakhir ini juga merupakan jumlah tertimbang dari baris lain (kolom).
Matriks singular atau hampir singular sering disebut sebagai matriks "dikondisikan" karena memberikan masalah dalam banyak analisis data statistik.
Data apa yang menghasilkan matriks korelasi singular variabel?
Seperti apa data multivariat itu agar korelasinya atau matriks kovariansnya menjadi matriks tunggal yang dijelaskan di atas? Itu adalah ketika ada saling ketergantungan linier antara variabel. Jika beberapa variabel adalah kombinasi linear yang tepat dari variabel lain, dengan istilah konstan diizinkan, matriks korelasi dan kovarian variabel akan tunggal. Ketergantungan yang diamati dalam matriks antara kolom-kolomnya sebenarnya adalah ketergantungan yang sama dengan ketergantungan antara variabel dalam data yang diamati setelah variabel dipusatkan (artinya dibawa ke 0) atau terstandarisasi (jika kita maksudkan korelasi daripada matriks kovarians).
Beberapa situasi tertentu yang sering terjadi ketika matriks korelasi / kovarians variabel adalah tunggal: (1) Jumlah variabel sama atau lebih besar dari jumlah kasus; (2) Dua atau lebih variabel jumlah hingga konstan; (3) Dua variabel identik atau berbeda hanya dalam mean (level) atau varians (skala).
Juga, menduplikasi pengamatan dalam dataset akan mengarahkan matriks menuju singularitas. Semakin sering Anda mengkloning suatu kasus semakin dekat singularitas. Jadi, ketika melakukan semacam imputasi nilai-nilai yang hilang itu selalu bermanfaat (dari kedua tampilan statistik dan matematika) untuk menambahkan beberapa noise ke data yang dimasukkan.
Singularitas sebagai collinearity geometris
Dalam sudut pandang geometris, singularitas adalah (multi) collinearity (atau "complanarity"): variabel yang ditampilkan sebagai vektor (panah) di ruang terletak di ruang dimentionality lebih rendah daripada jumlah variabel - dalam ruang yang dikurangi. (Dimensi itu dikenal sebagai peringkat matriks; sama dengan jumlah nilai eigen non-nol dari matriks.)
Dalam pandangan geometris yang lebih jauh atau "transendental", singularitas atau ketajaman-nol (presensi nilai eigen nol) adalah titik bengkok antara kepastian positif dan kepastian non-positif dari suatu matriks. Ketika beberapa variabel-vektor (yang merupakan matriks korelasi / kovarian) "melampaui" berbaring bahkan di ruang euclidean yang berkurang - sehingga mereka tidak dapat "menyatu" atau "sempurna merentang" ruang euclidean lagi, kepastian non-positif muncul , yaitu beberapa nilai eigen dari matriks korelasi menjadi negatif. (Lihat tentang matriks pasti non-positif, alias non-gram di sini .) Matriks pasti non-positif juga "dikondisikan buruk" untuk beberapa jenis analisis statistik.
Kolinearitas dalam regresi: penjelasan geometris dan implikasi
X1X2YY′eYY′b1b2
X1X2Y′edari regresi (satu-prediktor) itu, digambarkan pada gambar. Ada juga pendekatan lain, selain menjatuhkan variabel, untuk menghilangkan kolinearitas.
X1X2
X1X2X1X1X2begitu banyak berkorelasi kami berharap bidang X sangat berbeda dalam sampel berbeda dari populasi yang sama. Karena bidang X berbeda, prediksi, R-kuadrat, residual, koefisien - semuanya menjadi berbeda juga. Ini terlihat dengan baik pada gambar, di mana pesawat X berayun di suatu tempat 40 derajat. Dalam situasi seperti itu, perkiraan (koefisien, R-kuadrat dll) sangat tidak dapat diandalkan yang mana fakta dinyatakan oleh kesalahan standar besar mereka. Dan sebaliknya, dengan prediktor yang jauh dari collinear, estimasi dapat diandalkan karena ruang yang direntang oleh prediktor kuat terhadap fluktuasi sampel data tersebut.
Collinearity sebagai fungsi dari keseluruhan matriks
Bahkan korelasi yang tinggi antara dua variabel, jika di bawah 1, tidak harus membuat seluruh matriks korelasi tunggal; itu tergantung pada korelasi sisanya juga. Misalnya matriks korelasi ini:
1.000 .990 .200
.990 1.000 .100
.200 .100 1.000
memiliki determinan .00950
yang belum cukup berbeda dari 0 untuk dianggap memenuhi syarat dalam banyak analisis statistik. Tapi matriks ini:
1.000 .990 .239
.990 1.000 .100
.239 .100 1.000
memiliki determinan .00010
, tingkat lebih dekat ke 0.
Diagnosis kolinearitas: bacaan lebih lanjut
Analisis data statistik, seperti regresi, memasukkan indeks dan alat khusus untuk mendeteksi kolinearitas yang cukup kuat untuk mempertimbangkan menjatuhkan beberapa variabel atau kasus dari analisis, atau untuk melakukan cara penyembuhan lainnya. Silakan cari (termasuk situs ini) untuk "diagnostik collinearity", "multicollinearity", "singularitas / toleransi collinearity", "indeks kondisi", "proporsi penguraian varian", "variance inflation factors (VIF)".