Baru-baru ini di kelas Pembelajaran Mesin dari profesor Oriol Pujol di UPC / Barcelona ia menggambarkan algoritma, prinsip dan konsep yang paling umum digunakan untuk berbagai tugas terkait pembelajaran mesin. Di sini saya membaginya dengan Anda dan bertanya:
- apakah ada kerangka kerja komprehensif yang mencocokkan tugas dengan pendekatan atau metode yang terkait dengan berbagai jenis masalah terkait pembelajaran mesin?
Bagaimana saya belajar Gaussian sederhana? Probabilitas, variabel acak, distribusi; estimasi, konvergensi dan asimptotik, interval kepercayaan.
Bagaimana cara mempelajari campuran Gaussians (MoG)? Kemungkinan, Ekspektasi-Maksimalisasi (EM); generalisasi, pemilihan model, validasi silang; k-means, model markov tersembunyi (HMM)
Bagaimana saya mempelajari kepadatan? Estimasi parametrik vs non-parametrik, Sobolev, dan ruang fungsional lainnya; l ́ 2 kesalahan; Estimasi kepadatan kernel (KDE), kernel optimal, teori KDE
Bagaimana cara memprediksi variabel kontinu (regresi)? Regresi linier, regularisasi, regresi ridge, dan LASSO; regresi linier lokal; estimasi kepadatan bersyarat.
Bagaimana cara memprediksi variabel diskrit (klasifikasi)? Pengelompokan Bayes, Bayes naif, generatif vs diskriminatif; perceptron, pembusukan berat, mesin vektor dukungan linier; teori dan klasifikasi tetangga terdekat
Fungsi kerugian mana yang harus saya gunakan? Teori estimasi kemungkinan maksimum; l -2 estimasi; Estimasi Bayessian; minimax dan teori keputusan, Bayesianisme vs frequentism
Model mana yang harus saya gunakan? AIC dan BIC; Teori Vapnik-Chervonenskis; teori cross-validasi; bootstrap; Teori Kemungkinan Sekitar (PAC); Batas yang diturunkan dari Hoeffding
Bagaimana saya bisa belajar model yang lebih mewah (gabungan)? Teori belajar ensemble; meningkatkan; mengantongi; menumpuk
Bagaimana saya bisa belajar model yang lebih mewah (nonlinier)? Model linier umum, regresi logistik; Teorema Kolmogorov, model aditif umum; kernelisasi, mereproduksi ruang kernel Hilbert, SVM non-linear, regresi proses Gaussian
Bagaimana saya bisa belajar model yang lebih bagus (komposisi)? Model rekursif, pohon keputusan, pengelompokan hierarkis; jaringan saraf, propagasi balik, jaringan kepercayaan mendalam; model grafis, campuran HMM, bidang acak bersyarat, jaringan Markov max-margin; model log-linear; tata bahasa
Bagaimana cara saya mengurangi atau menghubungkan fitur? Pemilihan fitur vs pengurangan dimensi, metode pembungkus untuk pemilihan fitur; kausalitas vs korelasi, korelasi parsial, pembelajaran struktur Bayes net
Bagaimana cara membuat fitur baru? analisis komponen utama (PCA), analisis komponen independen (ICA), penskalaan multidimensi, pembelajaran berjenis, pengurangan dimensi yang diawasi, pembelajaran metrik
Bagaimana cara mengurangi atau menghubungkan data? Clustering, bi-clustering, dibatasi clustering; aturan asosiasi dan analisis keranjang pasar; peringkat / regresi ordinal; analisis tautan; data relasional
Bagaimana saya memperlakukan rangkaian waktu? ARMA; Filter Kalman dan model stat-space, filter partikel; analisis data fungsional; deteksi titik-perubahan; validasi silang untuk deret waktu
Bagaimana cara saya memperlakukan data yang tidak ideal? pergeseran kovariat; ketidakseimbangan kelas; data yang hilang, data sampel yang tidak teratur, kesalahan pengukuran; deteksi anomali, ketahanan
Bagaimana cara mengoptimalkan parameter? Unconstrained vs constrained / Convex optimization, metode bebas derivatif, metode urutan pertama dan kedua, backfitting; gradien alami; optimasi terikat dan EM
Bagaimana cara mengoptimalkan fungsi linear? aljabar linier komputasi, inversi matriks untuk regresi, dekomposisi nilai singular (SVD) untuk reduksi dimensi
Bagaimana cara saya mengoptimalkan dengan kendala? Convexity, pengganda Lagrange, kondisi Karush-Kuhn-Tucker, metode titik interior, algoritma SMO untuk SVM
Bagaimana saya mengevaluasi jumlah yang bersarang mendalam? Inferensi model grafis yang tepat, batas variasi pada jumlah, perkiraan inferensi model grafis, propagasi harapan
Bagaimana cara saya mengevaluasi jumlah besar dan pencarian? Masalah umum N-body (GNP), struktur data hierarkis, pencarian tetangga terdekat, banyak metode cepat; Integrasi Monte Carlo, Rantai Markov Monte Carlo, Monte Carlo SVD
Bagaimana cara saya menangani masalah yang lebih besar? EM paralel / terdistribusi, GNP paralel / terdistribusi; metode subgradien stokastik, pembelajaran online
Bagaimana saya menerapkan semua ini di dunia nyata? Tinjauan bagian-bagian ML, memilih antara metode yang akan digunakan untuk setiap tugas, pengetahuan sebelumnya dan asumsi; analisis data eksplorasi dan visualisasi informasi; evaluasi dan interpretasi, menggunakan interval kepercayaan dan uji hipotesis, kurva ROC; di mana masalah penelitian di ML adalah