Apa kelebihan metode Multiple Kernel Learning (MKL)?

Metode Multiple Kernel Learning bertujuan untuk membangun model kernel di mana kernel merupakan kombinasi linear dari kernel basis tetap. Mempelajari kernel kemudian terdiri dari mempelajari koefisien pembobotan untuk setiap kernel dasar, daripada mengoptimalkan parameter kernel dari satu kernel.

Kelemahan dari beberapa pembelajaran kernel tampaknya adalah mereka kurang dapat ditafsirkan dan mahal secara komputasi (untuk mengevaluasi output model yang Anda butuhkan untuk mengevaluasi semua kernel dasar). Jadi, jika kinerja serupa dapat dicapai hanya dengan mengoptimalkan satu kernel, apa kelebihan MKL?

machine-learning svm kernel-trick

— Dikran Marsupial
sumber

Apa yang dimaksud dengan "mengoptimalkan parameter dari satu kernel"? kita parameterkan matriks gram k (x, y)? atau pemetaan fitur Phi (x)? Apakah ada cara sistematis untuk melakukan ini? Atau seperti, menjalankan validasi silang pada sekelompok kernel kemudian memilih yang terbaik?

— Geralt of Rivia

@GeraltofRivia Maksud saya menyetel hiper-parameter dari fungsi kernel dasar (misalnya parameter skala kernel RBF). Kernel RBF secara mengejutkan sulit dikalahkan dalam hal kinerja generalisasi dan jumlah kernel tertimbang (yang mungkin termasuk RBF) tampaknya agak kurang dapat ditafsirkan, setidaknya bagi saya.

— Dikran Marsupial

Ada dua keuntungan (atau lebih tepatnya dua use-case):

Untuk setiap aplikasi SVM, pengguna harus memilih kernel mana yang akan digunakan dan kadang-kadang bahkan harus merancang matriks kernel mereka sendiri. Apakah mungkin untuk mengurangi pemilihan kernel atau desain kernel khusus? MKL adalah langkah menuju itu.
Kasus IMHO kedua adalah kasus yang jauh lebih menarik. Pertimbangkan bahwa input data Anda adalah data video + cc. Representasi fitur dari setiap video terdiri dari fitur video, fitur audio dan fitur teks. Data semacam itu dikenal sebagai data multi-modal. Setiap set fitur ini mungkin memerlukan gagasan kesamaan yang berbeda (kernel yang berbeda). Alih-alih membangun kernel khusus untuk aplikasi seperti itu, apakah mungkin untuk hanya mendefinisikan kernel untuk masing-masing mode ini dan menggabungkannya secara linear?

— TenaliRaman
sumber

+1 Namun saya tidak yakin bahwa [1] lebih mudah menggunakan MKL daripada hanya memiliki kombinasi linear kernel dan memilih faktor-faktor pembobotan melalui misalnya cross-validation. Ini juga meningkatkan kemungkinan over-fitting karena sekarang ada lebih banyak parameter untuk diestimasi. Seperti yang Anda katakan, [2] jauh lebih menarik.

— Dikran Marsupial

Kalian akan tertarik dengan makalah ini oleh McFee dan Lanckriet di JMLR 2011 - jmlr.csail.mit.edu/papers/v12/mcfee11a.html

— TenaliRaman