Saya tertarik pada hasil teoretis untuk kemampuan generalisasi dari Support Vector Machines, misalnya terikat pada probabilitas kesalahan klasifikasi dan pada dimensi Vapnik-Chervonenkis (VC) dari mesin-mesin ini. Namun, membaca literatur saya memiliki kesan bahwa beberapa hasil berulang yang serupa cenderung sedikit berbeda dari penulis ke penulis, terutama mengenai kondisi teknis yang diperlukan untuk suatu ikatan tertentu.
Berikut ini saya akan mengingat struktur masalah SVM dan menyatakan 3 hasil generalisasi utama yang saya temukan berulang kali dalam satu bentuk atau yang lain saya memberikan 3 referensi utama di seluruh eksposisi.
Pengaturan masalah :
Asumsikan kita memiliki sampel data pasangan independen (terdistribusi dan identik) mana untuk semua , dan . Kami membangun mesin vektor dukungan (SVM) yang memaksimalkan margin minimal antara hyperplane pemisah yang ditentukan oleh , dan , dan titik terdekat di antara untuk memisahkan dua kelas yang didefinisikan oleh dan . Kami membiarkan SVM mengakui beberapa kesalahan melalui margin lunak dengan memperkenalkan variabel slack tetapi untuk kesederhanaan notasi kita mengabaikan kemungkinan kernel. Parameter solusi dan diperoleh dengan menyelesaikan program optimisasi kuadratik cembung berikut:
Kami tertarik pada kemampuan generalisasi mesin ini.
Vapnik-Chervonenkis dimensi :
Hasil pertama adalah karena (Vapnik, 2000), di mana ia mengikat dimensi VC dari hyperplane pemisah, teorema 5.1. Membiarkan, kita punya:
Hasil ini lagi dapat ditemukan dalam (Burges, 1998), teorema 6. Namun, tampaknya teorema Burges lebih membatasi daripada hasil yang sama oleh Vapnik, karena ia perlu mendefinisikan kategori pengklasifikasi khusus, yang dikenal sebagai pengklasifikasi toleransi-celah. milik SVM , untuk menyatakan teorema.
Batas kemungkinan kesalahan :
Dalam (Vapnik, 2000), teorema 5.2 di halaman 139 memberikan batasan berikut pada kemampuan generalisasi SVM:
di mana adalah jumlah vektor dukungan dari SVM. Hasil ini tampaknya ditemukan lagi dalam (Burges, 1998), persamaan (86) dan (93) masing-masing. Tetapi sekali lagi, Burges tampaknya berbeda dari Vapnik ketika ia memisahkan komponen dalam fungsi minimum di atas dalam teorema yang berbeda, dengan kondisi yang berbeda.
Hasil lain yang muncul di (Vapnik, 2000), hal.133, adalah sebagai berikut. Dengan asumsi lagi bahwa, untuk semua , dan membiarkan dan , kami mendefinisikan sama dengan:
Kami juga mendefinisikan sebagai jumlah contoh pelatihan yang salah diklasifikasikan oleh SVM. Kemudian dengan probabilitas kita dapat menyatakan bahwa probabilitas bahwa contoh uji tidak akan dipisahkan dengan benar oleh hyperplane -margin yaitu SVM dengan margin memiliki batas:
Namun, dalam (Hastie, Tibshirani dan Friedman, 2009), hal.438, hasil yang sangat mirip ditemukan:
Kesimpulan :
Tampaknya bagi saya bahwa ada tingkat konflik tertentu antara hasil ini. Di sisi lain, dua referensi ini, meskipun kanonik dalam literatur SVM, mulai sedikit lama (1998 dan 2000), terutama jika kami menganggap bahwa penelitian algoritma SVM dimulai pada pertengahan tahun sembilan puluhan.
Pertanyaan saya adalah:
- Apakah hasil ini masih valid hari ini, atau sudahkah terbukti salah?
- Apakah batas yang lebih ketat dengan kondisi yang relatif longgar telah diturunkan sejak saat itu? Jika demikian, oleh siapa dan di mana saya dapat menemukannya?
- Akhirnya, apakah ada bahan referensi yang mensintesis hasil generalisasi utama tentang SVM?
Referensi :
Vapnik, VN (1998). Teori Belajar Statistik , edisi 1, John Wiley & Sons
Vapnik, VN (2000). Sifat Teori Pembelajaran Statistik , edisi ke-2, Springer