Berapa banyak regularisasi yang ditambahkan untuk membuat SVD stabil?

Saya telah menggunakan Intel MKL SVD ( dgesvdmelalui SciPy) dan memperhatikan bahwa hasilnya sangat berbeda ketika saya mengubah presisi di antara float32dan float64ketika matriks saya dikondisikan secara buruk / bukan peringkat penuh. Apakah ada panduan tentang jumlah minimum regularisasi yang harus saya tambahkan untuk membuat hasil tidak sensitif terhadap float32-> float64perubahan?

Secara khusus, melakukan , saya melihat bahwa norma bergerak sekitar 1 ketika saya mengubah presisi antara dan . Norma dari adalah dan memiliki sekitar 200 nilai eigen nol dari total 784. $A=UDV^{T}$ $L_\infty$ $V^{T}X$ float32float64 $L_2$ $A$ $10^5$

Melakukan SVD pada dengan membuat perbedaan menghilang. $\lambda I + A$ $\lambda=10^{-3}$

— Yaroslav Bulatov
sumber

Berapa ukuran dari sebuah matriks untuk contoh itu (apakah itu bahkan matriks persegi)? 200 nol nilai eigen atau nilai tunggal? Norma Frobenius untuk contoh yang representatif juga akan membantu.

N

$N$

N \times N

$N\times N$

A

$A$

| | A | |_{F}

$||A||_\text{F}$

— Anton Menshov

Dalam hal ini 784 x 784 matriks, tapi saya lebih tertarik pada teknik umum untuk menemukan nilai yang baik dari lambda

— Yaroslav Bulatov

Jadi, apakah perbedaan dalam hanya pada kolom terakhir yang sesuai dengan nilai nol tunggal?

V

$V$

— Nick Alger

Jika ada beberapa nilai singular yang sama, svd tidak unik. Dalam contoh Anda, saya kira masalahnya berasal dari beberapa nilai singular nol dan bahwa ketelitian yang berbeda mengarah ke pilihan dasar yang berbeda untuk ruang singular masing-masing. Saya tidak tahu mengapa itu berubah ketika Anda mengatur ...

— Dirk

... apa itu ?

X

$X$

— Federico Poloni

Jawaban:

Meskipun pertanyaannya memiliki jawaban yang bagus, berikut adalah aturan praktis untuk nilai tunggal kecil, dengan plot.

Jika nilai singular adalah nol tetapi sangat kecil, Anda harus mendefinisikan kebalikannya menjadi nol, karena nilainya yang jelas mungkin merupakan artefak kesalahan pembulatan, bukan angka yang berarti. Jawaban yang masuk akal untuk pertanyaan "seberapa kecil kecil?" adalah mengedit dengan cara ini semua nilai singular yang rasio terhadap yang terbesar kurang dari kali presisi mesin . $N$ $\epsilon$

$\qquad$ - Resep Numerik hal. 795

Ditambahkan: beberapa baris berikut menghitung aturan praktis ini.

#!/usr/bin/env python2

from __future__ import division
import numpy as np
from scipy.sparse.linalg import svds  # sparse, dense or LinOp

#...............................................................................
def howsmall( A, singmax=None ):
    """ singular values < N float_eps sing_max  may be iffy, questionable
        "How small is small ?"
        [Numerical Recipes p. 795](http://apps.nrbook.com/empanel/index.html?pg=795)
    """
        # print "%d singular values are small, iffy" % (sing < howsmall(A)).sum()
        # small |eigenvalues| too ?
    if singmax is None:
        singmax = svds( A, 1, return_singular_vectors=False )[0]  # v0=random

    return max( A.shape ) * np.finfo( A.dtype ).eps * singmax

Matriks Hilbert tampaknya banyak digunakan sebagai uji kasus untuk kesalahan pembulatan:

Di sini bit orde rendah dalam mantisa dari matriks Hilbert adalah nol A.astype(np.float__).astype(np.float64),, kemudian np.linalg.svddijalankan float64. (Hasil dengan svdsemua float32hampir sama.)

Cukup memotong float32mungkin bahkan berguna untuk denoising data dimensi tinggi, misalnya untuk klasifikasi kereta / uji.

Kasus uji nyata akan diterima.

— denis
sumber

btw, Scipy sepertinya menambahkan faktor 1e3 untuk float32 dan 1e6 untuk float64, penasaran dari mana asalnya

— Yaroslav Bulatov

@Yaroslav Bulatov, numpydan scipy.linalg.svdpanggil LAPACK gesdd , lihat parameter JOBRdi dgejsv: "Menentukan RANGE untuk nilai singular. Terbitkan lisensi untuk menetapkan nol nilai singular positif kecil jika mereka di luar ..." ( scipy.sparse.linalg.svdsmembungkus ARPACK dan memiliki parameter tol, Toleransi untuk nilai singular.)

— denis

$A=A^{T}$ $M=U \Sigma V^T$

H = [\begin{matrix} 0 & M \\ M^{T} & 0 \end{matrix}] = [\begin{matrix} U & 0 \\ 0 & V \end{matrix}] [\begin{matrix} 0 & Σ \\ Σ & 0 \end{matrix}] {[\begin{matrix} U & 0 \\ 0 & V \end{matrix}]}^{T}

$H=\begin{bmatrix}0 & M\\ M^{T} & 0 \end{bmatrix}=\begin{bmatrix}U & 0\\ 0 & V \end{bmatrix}\begin{bmatrix}0 & \Sigma\\ \Sigma & 0 \end{bmatrix}\begin{bmatrix}U & 0\\ 0 & V \end{bmatrix}^{T}$

$\epsilon>0$

A_{ϵ} = [\begin{matrix} 1 & ϵ \\ ϵ & 1 \end{matrix}] = V Λ_{ϵ} V^{T}, B_{ϵ} = [\begin{matrix} 1 + ϵ & 0 \\ 0 & 1 - ϵ \end{matrix}] = U Λ_{ϵ} U^{T}

$A_{\epsilon}=\begin{bmatrix}1 & \epsilon\\ \epsilon & 1 \end{bmatrix}=V\Lambda_{\epsilon}V^{T},\qquad B_{\epsilon}=\begin{bmatrix}1+\epsilon & 0\\ 0 & 1-\epsilon \end{bmatrix}=U\Lambda_{\epsilon}U^{T}$

Λ_{ϵ} = d i a g (1 + ϵ, 1 - ϵ)

$\Lambda_{\epsilon}=\mathrm{diag}(1+\epsilon,1-\epsilon)$

V = \frac{1}{\sqrt{2}} [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}], U = [\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}] .

$V=\frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1\\ 1 & -1 \end{bmatrix},\qquad U=\begin{bmatrix}1 & 0\\ 0 & 1 \end{bmatrix}.$

A_{ϵ} \approx B_{ϵ}

$A_{\epsilon} \approx B_{\epsilon}$

V

$V$

U

$U$

ϵ > 0

$\epsilon>0$

U, V

$U,V$

U \approx V

$U\approx V$

$M_{0}=U_{0}\Sigma_{0}V_{0}^{T}$ float64 $M_{\epsilon}=U_{\epsilon}\Sigma_{\epsilon}V_{\epsilon}^{T}$ float32 $\Sigma_{0},\Sigma_{\epsilon}$ $\epsilon\approx10^{-7}$ $U_{0},U_{\epsilon}$ $V_{0},V_{\epsilon}$

— Richard Zhang
sumber

Apakah ini contoh dari: users.math.msu.edu/users/markiwen/Teaching/MTH995/Papers/… ?

— Memming

Itu referensi yang bagus. Saya tidak tahu, saya belajar contoh khusus ini bertahun-tahun yang lalu di kelas matematika :-)

— Richard Zhang