Batas generalisasi pada SVM

Saya tertarik pada hasil teoretis untuk kemampuan generalisasi dari Support Vector Machines, misalnya terikat pada probabilitas kesalahan klasifikasi dan pada dimensi Vapnik-Chervonenkis (VC) dari mesin-mesin ini. Namun, membaca literatur saya memiliki kesan bahwa beberapa hasil berulang yang serupa cenderung sedikit berbeda dari penulis ke penulis, terutama mengenai kondisi teknis yang diperlukan untuk suatu ikatan tertentu.

Berikut ini saya akan mengingat struktur masalah SVM dan menyatakan 3 hasil generalisasi utama yang saya temukan berulang kali dalam satu bentuk atau yang lain saya memberikan 3 referensi utama di seluruh eksposisi. $-$

Pengaturan masalah :

Asumsikan kita memiliki sampel data pasangan independen (terdistribusi dan identik) mana untuk semua , dan . Kami membangun mesin vektor dukungan (SVM) yang memaksimalkan margin minimal antara hyperplane pemisah yang ditentukan oleh , dan , dan titik terdekat di antara untuk memisahkan dua kelas yang didefinisikan oleh dan . Kami membiarkan SVM mengakui beberapa kesalahan melalui margin lunak dengan memperkenalkan variabel slack $(x_i,y_i)_{1\leq i\leq n}$ $i$ $x_i \in \mathbb{R}^p$ $y_i \in \{-1,1\}$ $m^*$ $\{x : w \cdot x + b = 0\}$ $w \in \mathbb{R}^p$ $b \in \mathbb{R}$ $x_1,\cdots,x_n$ $y = -1$ $y = 1$ $\xi_1,\cdots,\xi_n$ $-$ tetapi untuk kesederhanaan notasi kita mengabaikan kemungkinan kernel. Parameter solusi dan diperoleh dengan menyelesaikan program optimisasi kuadratik cembung berikut: $w^*$ $b^*$

\begin{aligned} min_{w, b, ξ_{1}, \dots, ξ_{n}} & \frac{1}{2} ‖ w ‖^{2} + C \sum_{i = 1}^{n} ξ_{i} \\ s.t. : & y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i} & , \forall i \in {1, \dots, n} \\ ξ_{i} \geq 0 & , \forall i \in {1, \dots, n} \end{aligned}

$\begin{align} \min_{w, \, b, \, \xi_1, \, \cdots, \, \xi_n} \; & \; \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n\xi_i \\ \text{s.t.} \; : \; & \; y_i(w\cdot x_i+b) \geq 1 - \xi_i \, & , \, \forall \, i \in \{1,\cdots,n\} \\ & \; \xi_i \geq 0\, & , \, \forall \, i \in \{1,\cdots,n\} \end{align}$

Kami tertarik pada kemampuan generalisasi mesin ini.

Vapnik-Chervonenkis dimensi $VC$ :

Hasil pertama adalah karena (Vapnik, 2000), di mana ia mengikat dimensi VC dari hyperplane pemisah, teorema 5.1. Membiarkan, kita punya: $R = \max_{x_i} \|x_i\|$

V C \leq min ({(\frac{R}{m^{*}})}^{2}, p) + 1

$VC \leq \min \left( \left( \frac{R}{m^*}\right)^2, \, p\right) + 1$

Hasil ini lagi dapat ditemukan dalam (Burges, 1998), teorema 6. Namun, tampaknya teorema Burges lebih membatasi daripada hasil yang sama oleh Vapnik, karena ia perlu mendefinisikan kategori pengklasifikasi khusus, yang dikenal sebagai pengklasifikasi toleransi-celah. milik SVM , untuk menyatakan teorema. $-$ $-$

Batas kemungkinan kesalahan :

Dalam (Vapnik, 2000), teorema 5.2 di halaman 139 memberikan batasan berikut pada kemampuan generalisasi SVM:

E [P_{error}] \leq \frac{1}{n} E [min (p, n_{S V}, (R ‖ w ‖)^{2})]

$\mathbb{E}[P_{\text{error}}] \leq \frac{1}{n}\mathbb{E} \left[ \min\left(p,n_{SV},(R \, \|w\|)^2 \right) \right]$

di mana adalah jumlah vektor dukungan dari SVM. Hasil ini tampaknya ditemukan lagi dalam (Burges, 1998), persamaan (86) dan (93) masing-masing. Tetapi sekali lagi, Burges tampaknya berbeda dari Vapnik ketika ia memisahkan komponen dalam fungsi minimum di atas dalam teorema yang berbeda, dengan kondisi yang berbeda. $n_{SV}$

Hasil lain yang muncul di (Vapnik, 2000), hal.133, adalah sebagai berikut. Dengan asumsi lagi bahwa, untuk semua , dan membiarkan dan , kami mendefinisikan sama dengan: $i$ $\|x_i\|^2 \leq R^2$ $h \equiv VC$ $\epsilon \in [0,1]$ $\zeta$

ζ = 4 \frac{h (ln \frac{2 n}{h} + 1) - ln \frac{ϵ}{4}}{n}

$\zeta = 4 \frac{h\left( \text{ln}\frac{2n}{h} + 1\right) - \text{ln}\frac{\epsilon}{4}}{n}$

Kami juga mendefinisikan sebagai jumlah contoh pelatihan yang salah diklasifikasikan oleh SVM. Kemudian dengan probabilitas kita dapat menyatakan bahwa probabilitas bahwa contoh uji tidak akan dipisahkan dengan benar oleh hyperplane -margin yaitu SVM dengan margin memiliki batas: $n_{\text{error}}$ $1-\epsilon$ $m^*$ $-$ $m^*$ $-$

P_{error} \leq \frac{n_{error}}{n} + \frac{ζ}{2} (1 + \sqrt{1 + \frac{4 n_{error}}{n ζ}})

$P_{\text{error}} \leq \frac{n_{\text{error}}}{n} + \frac{\zeta}{2} \left( 1 + \sqrt{1+ \frac{4 \, n_{\text{error}}}{n \, \zeta}} \right)$

Namun, dalam (Hastie, Tibshirani dan Friedman, 2009), hal.438, hasil yang sangat mirip ditemukan:

{Error}_{Test} \leq ζ

$\text{Error}_{\text{Test}} \leq \zeta$

Kesimpulan :

Tampaknya bagi saya bahwa ada tingkat konflik tertentu antara hasil ini. Di sisi lain, dua referensi ini, meskipun kanonik dalam literatur SVM, mulai sedikit lama (1998 dan 2000), terutama jika kami menganggap bahwa penelitian algoritma SVM dimulai pada pertengahan tahun sembilan puluhan.

Pertanyaan saya adalah:

Apakah hasil ini masih valid hari ini, atau sudahkah terbukti salah?
Apakah batas yang lebih ketat dengan kondisi yang relatif longgar telah diturunkan sejak saat itu? Jika demikian, oleh siapa dan di mana saya dapat menemukannya?
Akhirnya, apakah ada bahan referensi yang mensintesis hasil generalisasi utama tentang SVM?

Referensi :

Burges, JC (1998). "Tutorial tentang Mesin Vektor Pendukung untuk Pengenalan Pola", Penambangan Data dan Penemuan Pengetahuan , 2: 121-167

Hastie, T., Tibshirani, R. dan Friedman, J. (2009). Elemen Pembelajaran Statistik , edisi ke-2, Springer

Vapnik, VN (1998). Teori Belajar Statistik , edisi 1, John Wiley & Sons

Vapnik, VN (1999). "Tinjauan Teori Pembelajaran Statistik", Transaksi IEEE di Jaringan Saraf , 10 (5): 988-999

Vapnik, VN (2000). Sifat Teori Pembelajaran Statistik , edisi ke-2, Springer

machine-learning svm vc-dimension

— Daneel Olivaw
sumber

referensi yang meringkas batas risiko terkini (untuk 2008) untuk SVM: "Support Vector Machines" (Ingo Steinwart, Andreas Christmann, Springer 2008) .

— daftar

Saya tidak tahu literatur yang Anda rujuk secara terperinci, tetapi saya pikir ringkasan komprehensif batas generalisasi yang harus diperbarui dapat ditemukan di Boucheron et al. (2004) (Link: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australia-Februari-2-14-2003-Tuebingen-Jerman-Agustus-4-16-2003-Direvisi-Lectures.pdf # page = 176 )

Saya akan membuat sketsa bagian dari SVM terikat di berikut ini, meninggalkan detail dan membuktikan.

Sebelum menguraikan secara spesifik tentang SVM terikat, kita perlu memahami apa yang berusaha dicapai batas generalisasi.

Pertama mari kita asumsikan bahwa probabilitas sebenarnya diketahui maka classifier terbaik yang mungkin adalah bayes classifier, yaitu $P(Y = +1| X = x)$

\begin{aligned} g * = {\begin{cases} + 1 i f P (Y = 1 | X = x) > 0.5 \\ - 1 o t h e r w i s e \end{cases} \end{aligned}

$\begin{align} g* = \begin{cases} + 1 \ \ if P(Y = 1| X = x) > 0.5 \\ -1 \ \ otherwise \end{cases} \end{align}$

Tujuan teori pembelajaran statistik sekarang adalah untuk menemukan perbedaan antara classifier kelas (misalnya SVM) dan bayes classifier, yaitu Perhatikan bahwa adalah diharapkan hilangnya diberikan data dan adalah mungkin classifier terbaik di kelas model . Istilah disebut kesalahan estimasi dan seringkali fokus karena dapat dibatasi jauh lebih mudah daripada kesalahan perkiraan (istilah lainnya). Saya juga akan menghilangkan kesalahan aproksimasi di sini. $C$

\begin{aligned} {\hat{g}}_{n} = a r g min_{g \in C} L_{n} (g) \end{aligned}

$\begin{align} \hat{g}_n = arg \min_{g \in C} L_n(g) \end{align}$

\begin{aligned} L ({\hat{g}}_{n}) - L (g *) = L ({\hat{g}}_{n}) - L (g_{c}^{*}) + L (g_{c}^{*}) - L (g *) . \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g*) = L(\hat{g}_n) - L(g^{*}_c) + L(g^{*}_c) - L(g*). \end{align}$

L (g) = E l (g (X), Y)

$L(g) = \mathbb{E}l(g(X),Y)$

g_{c}^{*}

$g^{*}_c$

C

$C$

Z =: L (g *) - L ({\hat{g}}_{n})

$Z =: L(g*) - L(\hat{g}_n)$

Kesalahan estimasi dapat didekomposisi lebih lanjut dengan Sekarang ini dapat dibatasi oleh dua langkah: $Z$

\begin{aligned} Z = Z - E Z + E Z . \end{aligned}

$\begin{align} Z = Z - \mathbb{E}Z + \mathbb{E}Z. \end{align}$

Bound menggunakan ketidaksetaraan McDiarmid $Z - \mathbb{E}Z$
Terikat dengan kompleksitas Rademacher $\mathbb{E}Z$ $R_n(C) = \mathbb{E}sup_{g \in C}|1/n \sum_{i=1}^{n} l(g(X_i),Y_i)|$

Menggunakan ketidaksetaraan McDiarmids orang dapat menunjukkan bahwa jika fungsi kerugian berkisar dalam interval tidak lebih dari , langkah satu menghasilkan batas mana adalah tingkat kepercayaan. Untuk langkah kedua kita dapat menunjukkan bahwa Jika Anda memiliki fungsi kerugian terpisah, yaitu non-Lipschitz seperti 0-1 -loss, kamu perlu VC-Dimension untuk lebih jauh mengikat Kompleksitas Rademacher. Namun, untuk fungsi L-lipschitz seperti Hinge-loss, ini dapat dibatasi oleh mana $B$

\begin{aligned} Z - E Z \leq 2 B \sqrt{\frac{l n (1 / δ)}{2 n}}, \end{aligned}

$\begin{align} Z - \mathbb{E}Z \leq 2 B \sqrt{\dfrac{ln(1/\delta)}{2n}}, \end{align}$

δ

$\delta$

\begin{aligned} E Z \leq 2 R_{n} (C), \end{aligned}

$\begin{align} \mathbb{E}Z \leq 2R_n(C), \end{align}$

\begin{aligned} R_{n} (C) \leq λ L R / \sqrt{n}, \end{aligned}

$\begin{align} R_n(C) \leq \lambda L R/\sqrt{n}, \end{align}$

λ

$\lambda$ menunjukkan regulator. Karena untuk Hinge-Loss dan (buktikan dengan ketidakmerataan Gauchy-Schwartz) ini semakin menyederhanakan. Akhirnya dengan menyatukan semua hasil, kita dapat terikat dengan

L = 1

$L = 1$

B = 1 + λ R

$B = 1 + \lambda R$

\begin{aligned} L ({\hat{g}}_{n}) - L (g_{c}^{*}) \leq 2 (1 + λ R) \sqrt{\frac{l n (1 / δ)}{2 n}} + 4 λ L R / \sqrt{n} \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g^{*}_c) \leq 2(1 + \lambda R) \sqrt{\dfrac{ln(1/\delta)}{2n}} + 4 \lambda L R/\sqrt{n} \end{align}$

— dkoehn
sumber