Mengapa dimensi VC penting?

12

Wikipedia mengatakan bahwa:

Dimensi VC adalah kardinalitas set poin terbesar yang dapat dihancurkan algoritma.

Sebagai contoh, classifier linier memiliki kardinalitas n +1. Pertanyaan saya adalah mengapa kita peduli? Sebagian besar dataset yang Anda lakukan klasifikasi linier cenderung sangat besar dan mengandung banyak poin.

classification algorithms vc-dimension

— Pelajar tingkat bawah
sumber

4

Apa dimensi VC

Seperti yang disebutkan oleh @CPerkins, dimensi VC adalah ukuran dari kompleksitas model. Ini juga dapat didefinisikan berkenaan dengan kemampuan untuk menghancurkan titik data seperti, seperti yang Anda sebutkan, wikipedia tidak.

Masalah dasarnya

Kami menginginkan model (misalnya beberapa classifier) yang menggeneralisasi dengan baik pada data yang tidak terlihat .
Kami terbatas pada jumlah data sampel tertentu.

$\mathcal{S_1}$ $\mathcal{S_k}$ $h$

Gambar menunjukkan bahwa dimensi VC yang lebih tinggi memungkinkan risiko empiris yang lebih rendah (kesalahan model membuat pada data sampel), tetapi juga memperkenalkan interval kepercayaan yang lebih tinggi. Interval ini dapat dilihat sebagai kepercayaan pada kemampuan model untuk menggeneralisasi.

Dimensi VC rendah (bias tinggi)

Jika kita menggunakan model dengan kompleksitas rendah, kami memperkenalkan beberapa jenis asumsi (bias) mengenai dataset misalnya ketika menggunakan classifier linier kami menganggap data dapat digambarkan dengan model linier. Jika ini bukan masalahnya, masalah kami tidak dapat diselesaikan dengan model linier, misalnya karena masalahnya bersifat nonlinear. Kami akan berakhir dengan model berperforma buruk yang tidak akan dapat mempelajari struktur data. Karena itu kita harus mencoba menghindari bias yang kuat.

Dimensi VC tinggi (interval kepercayaan lebih besar)

Di sisi lain dari sumbu-x kita melihat model-model dengan kompleksitas yang lebih tinggi yang mungkin memiliki kapasitas yang sedemikian besar sehingga lebih baik menghafal data daripada mempelajari struktur dasar yang mendasarinya yaitu model yang overfits. Setelah menyadari masalah ini, tampaknya kita harus menghindari model yang rumit.

Ini mungkin tampak kontroversial karena kami tidak akan memperkenalkan bias yaitu memiliki dimensi VC rendah tetapi juga tidak boleh memiliki dimensi VC tinggi. Masalah ini berakar dalam pada teori pembelajaran statistik dan dikenal sebagai bias-variance-tradeoff . Apa yang harus kita lakukan dalam situasi ini adalah menjadi serumit yang diperlukan dan sesederhana mungkin, jadi ketika membandingkan dua model yang berakhir dengan kesalahan empiris yang sama, kita harus menggunakan yang kurang rumit.

Saya harap saya bisa menunjukkan kepada Anda bahwa ada lebih banyak di belakang gagasan dimensi VC.

— Minato
sumber

1

$N$

$VC$

$N$ $N$ $log_2(N)$ bit informasi - mirip dengan masalah pencarian biner dengan array yang diurutkan.

$N$ $x$ $N$ $D=\{(x_1,y_1), (x_2, y_2), ..., (x_l, y_l)\}$ $x_i$ $x_i$ $N$ $x_i$ $\epsilon$ $\epsilon$ $1-\delta$ $(\epsilon, \delta)$ $\frac{log_2N/\delta}{\epsilon}$

$N$ $\epsilon$ $1-\delta$ $\frac{log_2N/\delta}{\epsilon^2}$

$log_2N$

$\epsilon$ $1-\delta$ $\epsilon$

^{___________________Kedua baris (fungsi) akan mengklasifikasikan poin dengan keberhasilan yang sama___________________}

$VC$ $log_2N$ $VC$ $\frac{VC -log(\delta)}{\epsilon}$ $\frac{VC - log(\delta)}{\epsilon^2}$

$VC$ $\epsilon$ $1-\delta$

— Vlad
sumber

0

Dimensi VC adalah ukuran dari kompleksitas model. Sebagai contoh, mengingat dimensi VC Dvc, aturan praktis yang baik adalah Anda harus memiliki n = 10xDvc titik data mengingat kompleksitas model Anda.

Anda juga dapat menggunakannya untuk membuat batas atas pada kesalahan tes.

— CPerkins
sumber