SVD dari matriks berkorelasi harus bersifat aditif tetapi tampaknya tidak

Saya hanya mencoba untuk mereplikasi klaim yang dibuat dalam makalah berikut, Finding Bicerust Correlated dari Gene Expression Data , yaitu:

Proposisi 4. Jika . maka kita memiliki: $X_{IJ}=R_{I}C^{T}_{J}$

saya. Jika adalah bicluster sempurna dengan model aditif, maka adalah bicluster sempurna dengan korelasi pada kolom; ii. Jika adalah sempurna dengan model aditif, maka adalah bicluster sempurna dengan korelasi pada baris; aku aku aku. Jika kedua dan adalah sempurna dengan model aditif, maka adalah bicluster berkorelasi sempurna. $R_{I}$ $X_{IJ}$
$C_J$ $X_{IJ}$
$R_I$ $C_J$ $X_{IJ}$

Proposisi ini dapat dengan mudah dibuktikan ...

... tapi tentu saja, mereka tidak membuktikannya.

Saya menggunakan beberapa contoh sederhana di koran plus basis + kode R kustom untuk melihat apakah saya dapat menunjukkan Proposisi ini.

corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4)

(dari Tabel 1F)

beberapa kode kustom untuk mengonversi bentuk X = svd standar ke seperti yang dijelaskan dalam makalah: $UdV^T$ $X=RC^{T}$

svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) {
#convert standard SVD decomposed matrices UEV' to RC' form
#x -> output of svd(M)
#r -> rank of matrix (defaults to length of singular values vector)
            # but really is the number of non-zero singular values
#ignoreRank -> return the full decomposition (ignore zero singular values)
#zerothresh -> how small is zero?

    R <- with(x, t(t(u) * sqrt(d)))
    C <- with(x, t(t(v) * sqrt(d)))

    if (!ignoreRank) {
        ind <- which(x$d >= zerothresh)
    } else {
        ind <- 1:r
    }

    return(list(R=as.matrix(R[,ind]), C=as.matrix(C[,ind])))
}

terapkan fungsi ini ke dataset:

 > svdToRC(svd(corbic))
$R
           [,1]       [,2]
[1,]  0.8727254 -0.9497284
[2,] -2.5789775 -1.1784221
[3,]  4.3244283 -0.7210346
[4,] -0.8531261 -1.0640752

$C
          [,1]       [,2]
[1,] -1.092343 -1.0037767
[2,]  1.223860 -0.9812343
[3,]  3.540063 -0.9586919
[4,] -3.408546 -1.0263191

Kecuali saya berhalusinasi, matriks ini bukan aditif, meskipun corbic menunjukkan korelasi sempurna antara baris dan kolom. Tampaknya aneh bahwa contoh yang mereka berikan tidak memperlihatkan properti yang mereka katakan seharusnya ... kecuali jika saya melewatkan semacam langkah transformasi sebelum atau sesudah DVD?

correlation multivariate-analysis svd

— zzk
sumber

Hai, zzk: Mungkin membantu untuk secara singkat memberikan definisi bicluster sempurna di sini karena (a) tidak semua orang dapat mengakses kertas dan (b) itu dapat berarti beberapa hal yang berbeda tergantung pada umumnya yang diasumsikan.

— kardinal

pada dasarnya, nilai absolut dari skor korelasi berpasangan antara semua baris vs baris dan kolom vs kolom dari matriks adalah 1.

— zzk

Saya bingung. Tidak 4iiimengatakan itu P(R), P(C), additivity => P(X)? (Saya menyingkat " Yadalah bicluster sempurna" sebagai P(Y)). Tampaknya Anda pergi ke arah lain, mengharapkan aditivitas dari kondisi lain. Tolong jelaskan lebih lanjut.

— Stumpy Joe Pete

Stumpy - Saya mengharapkan aditivitas dalam R & C karena saya tahu matriks I supply (corbic) menunjukkan korelasi sempurna - ini adalah bicluster sempurna seperti yang diberikan di koran itu sendiri.

— zzk

Saya masih berpikir Anda akan ke arah yang salah. 4iii tidak mengatakan bahwa jika Xadalah berkorelasi sempurna bicluster kemudian Rdan Cakan aditif. Implikasinya mengarah ke arah lain. Sekarang, saya setuju bahwa aneh bahwa contoh yang mereka berikan tampaknya tidak cocok dengan teorema yang ada di sebelahnya. Mungkin ada beberapa informasi lain yang bisa Anda berikan? Apakah ada teorema lain yang mengarah ke arah lain?

— Stumpy Joe Pete

Perhatikan bahwa 'bicluster' dalam artikel ini mengacu pada subset dari matriks, "subset dari baris yang menunjukkan perilaku yang sama di seluruh subset kolom, atau sebaliknya." Identifikasi biclusters umumnya dilakukan dalam algoritma data mining. Para penulis sedang mengajukan 'model bicluster berkorelasi' baru yang berbeda dari model sebelumnya yang digunakan untuk mengidentifikasi himpunan bagian ini. Saya tidak tahu apa-apa tentang genetika, tetapi kebingungan di sini tampaknya cukup jelas dan berasal dari dua sumber:

1. Penggunaan kata 'aditif'

Tidak ada dalam tulisan ini yang menyiratkan bahwa dua matriks yang diberikan dalam output fungsi harus 'aditif', jika dengan 'aditif', aditif invers adalah apa yang dimaksud oleh OP. Penulis tidak menggunakan kata tambahan dalam pengertian ini. Mereka mengacu pada mendapatkan bicluster dengan model aditif, "di mana setiap baris atau kolom dapat diperoleh dengan menambahkan konstanta ke baris atau kolom lain."

2. Proposisi salah baca 4.3

Mengikuti dari komentar oleh @StumpyJoePete, proposisi mengatakan bahwa jika dan adalah biclusters sempurna dengan model aditif, maka adalah bicluster berkorelasi sempurna. Para penulis tidak mengatakan bahwa yang sebaliknya akan benar. Penulis tidak berpendapat bahwa jika adalah bicluster berkorelasi sempurna, maka dan akan menjadi aditif - dalam arti kata 'aditif'. Mereka tidak mengatakan bahwa dan harus aditif terbalik atau mereka harus bisa cocok dengan model aditif. $R_I$ $C_J$ $X_{IJ}$ $X_{IJ}$ $R_I$ $C_J$ $R_I$ $C_J$

* Juga, contoh data berasal dari bagian yang sama sekali berbeda dari makalah ini daripada proposisi yang dibahas dalam pertanyaan.

— 5ayat
sumber

Sangat menyenangkan melihat [sejauh ini] pertanyaan yang belum terjawab yang paling banyak dijawab di situs web kami akhirnya dijawab! +1 walaupun saya belum membaca makalah dan tidak dapat memastikan bahwa apa yang Anda tulis benar; tetapi tampaknya masuk akal.

— Amoeba berkata Reinstate Monica