Apa "algoritme panas" untuk pembelajaran mesin?


14

Ini adalah pertanyaan naif dari seseorang yang mulai belajar belajar mesin. Saya membaca hari ini buku "Pembelajaran Mesin: Perspektif algoritmik" dari Marsland. Saya merasa buku ini bermanfaat sebagai pengantar, tetapi sekarang saya ingin membahas algoritma canggih, yang saat ini memberikan hasil terbaik. Saya sebagian besar tertarik pada bioinformatika: pengelompokan jaringan biologis dan menemukan pola dalam sekuens biologis, terutama diterapkan pada analisis single nucleotide polymorphism (SNP). Bisakah Anda merekomendasikan saya beberapa ulasan atau buku untuk dibaca?

Jawaban:


15

Pembelajaran yang mendalam mendapat banyak fokus sejak 2006. Ini pada dasarnya adalah pendekatan untuk melatih jaringan saraf yang dalam dan mengarah ke hasil yang sangat mengesankan pada kumpulan data yang sangat sulit (seperti pengelompokan dokumen atau pengenalan objek). Beberapa orang berbicara tentang kebangkitan jaringan saraf kedua (misalnya dalam pembicaraan Google ini dengan Schmidhuber).

Jika Anda ingin terkesan, Anda harus melihat makalah Science ini Mengurangi Dimensi Data dengan Neural Networks, Hinton & Salakhutdinov.

(Ada begitu banyak pekerjaan yang terjadi sekarang di daerah itu, bahwa hanya ada dua buku mendatang yang saya tahu yang akan mengobatinya: pembelajaran mesin skala besar , Langford et al dan Machine Learning: perspektif probabilistik oleh Kevin Murphy.)

Jika Anda ingin tahu lebih banyak, lihat apa yang dilakukan kelompok belajar mendalam utama: Stanford , Montreal dan yang paling penting Toronto # 1 dan Toronto # 2 .


8

Sebagian besar jawaban yang diberikan sejauh ini merujuk pada "Pembelajaran Supervisi" (yaitu di mana Anda memiliki label untuk sebagian dari dataset Anda, yang dapat Anda gunakan untuk melatih algoritma). Pertanyaannya secara khusus menyebutkan pengelompokan, yang merupakan pendekatan "Tanpa pengawasan" (yaitu tidak ada label yang diketahui sebelumnya). Dalam skenario ini saya sarankan melihat:

  • k-means dan kernel k-means
  • Clustering Agglomerative
  • Faktorisasi Matriks Non-negatif
  • Alokasi Dirichlet Laten
  • Proses Dirichlet dan Proses Dirichlet Hierarkis

Tetapi sebenarnya Anda mungkin akan menemukan bahwa kesamaan / ukuran jarak Anda lebih penting daripada algoritma spesifik yang Anda gunakan.

Jika Anda memiliki beberapa data berlabel, maka pendekatan "Pembelajaran Semi-Supervisi" semakin populer dan bisa sangat kuat. Titik awal yang baik untuk SSL adalah LapSVM (Laplacian Support Vector Machine).


7

Ini adalah buku yang mungkin bisa membantu:

  • Pengantar Penambangan Data oleh Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Ini adalah buku yang disarankan selama kelas Penambangan Data saya di universitas. Saya suka tata letak dan pendekatan teoretisnya;
  • Penambangan Data: Alat dan Teknik Pembelajaran Mesin Praktis oleh Ian H. Witten, Eibe Frank, Mark A. Hall. Buku yang sangat menarik. Buku ini juga mencakup banyak teknik yang diimplementasikan dengan Kerangka Tambang Data Mining WEKA ;
  • Pembelajaran Mesin oleh Thomas Mitchell. Ini buku yang agak lama tetapi bisa bermanfaat.

Maka ingatlah bahwa Anda dapat menghadiri kelas gratis pembelajaran Mesin di Stanford yang baru saja dimulai: www.ml-class.com .

Dan untuk masalah khusus Anda, yaitu analisis SNP, saya sarankan untuk melihat-lihat kelompok Di Camillo di University of Padova.


5

Berikut adalah artikel dan buku hebat yang menjelaskan alasan, teori, dan penerapan sebagian besar metode paling populer:

10 Algoritma Teratas dalam Penambangan Data

Ini sangat rapi karena merupakan "10 besar" yang dipilih oleh para ahli polling di lapangan.

Juga, untuk data gen secara umum, pemilihan fitur sangat penting karena banyak fitur. Misalnya, penghapusan fitur rekursif SVM (SVM-RFE) dan metode terkait sangat populer dan sedang dikembangkan dan diterapkan secara aktif dalam konteks data gen.


4

Pohon yang ditingkatkan dan beberapa bentuk svm memenangkan banyak kompetisi, tetapi selalu tergantung konteks. Manifold regularisasi ada di ujung tombak juga.


4

Saya merekomendasikan "Elemen Pembelajaran Statistik", oleh Hastie, Tibshirani, dan Friedman. Jangan hanya membacanya, bermainlah dengan beberapa algoritme yang dijelaskan oleh mereka (kebanyakan dari mereka diimplementasikan dalam R, atau Anda bahkan bisa mengimplementasikannya sendiri), dan pelajari titik lemah dan kuatnya.



3

Proses Gaussian untuk Pembelajaran Mesin oleh Rasmussen dan Williams (MIT Press) adalah suatu keharusan. Proses Gaussian adalah salah satu dari algoritma panas untuk pembelajaran mesin sekarang bahwa Propagasi Ekspektasi dan algoritma inferensi variasional tersedia. Buku ini ditulis dengan sangat baik, memiliki toolbox MATLAB gratis (kit yang bagus), dan buku itu dapat diunduh secara gratis.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.