Bagaimana memilih antara algoritma pembelajaran

21

Saya perlu mengimplementasikan program yang akan mengklasifikasikan catatan ke dalam 2 kategori (benar / salah) berdasarkan beberapa data pelatihan, dan saya bertanya-tanya di algoritma / metodologi mana yang harus saya perhatikan. Tampaknya ada banyak dari mereka untuk dipilih - Jaringan Syaraf Tiruan, Algoritma Genetika, Pembelajaran Mesin, Optimasi Bayesian dll. Dll., Dan saya tidak yakin harus mulai dari mana. Jadi, pertanyaan saya adalah: Bagaimana saya harus memilih algoritma pembelajaran yang harus saya gunakan untuk masalah saya?

Jika ini membantu, inilah masalah yang harus saya pecahkan.

Data pelatihan: Data
pelatihan terdiri dari banyak baris seperti ini:

Precursor1, Precursor2, Boolean (true/false)

Lari
saya akan diberi banyak prekursor.
Kemudian,

Saya memilih algoritma A dari berbagai algoritma (atau menghasilkan algoritma secara dinamis), dan menerapkannya pada setiap kemungkinan kombinasi prekursor ini dan mengumpulkan "catatan" yang dipancarkan. "Catatan" terdiri dari beberapa pasangan nilai kunci *.
Saya menerapkan beberapa algoritma yang luar biasa dan mengklasifikasikan catatan ini ke dalam 2 kategori (benar / salah).
Saya akan menghasilkan tabel yang memiliki format yang sama dengan data kereta:
Precursor1, Precursor2, Boolean

Dan seluruh program dinilai berdasarkan berapa banyak benar / salah saya benar.

*: "Rekam" akan terlihat seperti ini (harap ini masuk akal)

Record         [1...*] Score
-Precursor1             -Key
-Precursor2             -Value

Hanya ada sejumlah Kunci yang mungkin. Catatan berisi subset berbeda dari kunci-kunci ini (beberapa catatan memiliki key1, key2, key3 ... catatan lain memiliki key3, key4 ... dll).

Saya sebenarnya butuh 2 pembelajaran. Salah satunya adalah untuk langkah 1. Saya perlu memiliki modul yang melihat pasangan Prekursor dll dan memutuskan algoritma apa yang akan diterapkan untuk memancarkan catatan untuk perbandingan. Lain untuk langkah 2. Saya membutuhkan modul yang menganalisis koleksi catatan dan mengkategorikannya ke dalam 2 kategori (benar / salah).

Terima kasih sebelumnya!

— Enno Shioji
sumber

16

Ada paket untuk " R " yang disebut " caret ," yang merupakan singkatan dari "klasifikasi dan pengujian regresi." Saya pikir ini akan menjadi tempat yang baik bagi Anda untuk memulai, karena akan dengan mudah memungkinkan Anda untuk menerapkan selusin algoritma pembelajaran yang berbeda pada data Anda, dan kemudian melakukan validasi silang untuk memperkirakan seberapa akuratnya masing-masing.

Berikut adalah contoh yang dapat Anda modifikasi dengan data Anda sendiri / metode lain:

install.packages('caret',dependencies = c('Depends','Suggests'))
library(caret)

set.seed(999)
Precursor1 <- runif(25)
Precursor2 <- runif(25)
Target <- sample(c('T','F'),25,replace=TRUE)
MyData <- data.frame(Precursor1,Precursor2,Target)
str(MyData)

#Try Logistic regression
model_Logistic <- train(Target~Precursor1+Precursor2,data=MyData,method='glm')

#Try Neural Network
model_NN <- train(Target~Precursor1+Precursor2,data=MyData,method='nnet',trace=FALSE)

#Try Naive Bayes
model_NB <- train(Target~Precursor1+Precursor2,data=MyData,method='nb')

#Try Random Forest
model_RF <- train(Target~Precursor1+Precursor2,data=MyData,method='rf')

#Try Support Vector Machine
model_SVM<- train(Target~Precursor1+Precursor2,data=MyData,method='svmLinear')

#Try Nearest Neighbors
model_KNN<- train(Target~Precursor1+Precursor2,data=MyData,method='knn')

#Compare the accuracy of each model
cat('Logistic:',max(model_Logistic$results$Accuracy))
cat('Neural:',max(model_NN$results$Accuracy))
cat('Bayes:',max(model_NB$results$Accuracy))
cat('Random Forest:',max(model_RF$results$Accuracy))
cat('Support Vector Machine:',max(model_SVM$results$Accuracy))
cat('Nearest Neighbors:',max(model_KNN$results$Accuracy))

#Look at other available methods
?train

Gagasan lain adalah memecah data Anda ke dalam set pelatihan dan set tes, dan kemudian membandingkan kinerja setiap model pada set tes. Jika Anda suka, saya bisa menunjukkan kepada Anda bagaimana melakukannya.

— Zach
sumber

8

$T$ $X$ $Y$ $I$

$Y$

P (Y | T, X, saya)

$P(Y|T,X,I)$

Sekarang kita dapat menggunakan salah satu aturan teori probabilitas untuk memanipulasi ini menjadi hal-hal yang kita tahu bagaimana cara menghitungnya. Jadi menggunakan teorema Bayes, Anda mendapatkan:

P (Y | T, X, saya) = \frac{P (Y | T, saya) P (X | Y, T, saya)}{P (X | T, saya)}

$P(Y|T,X,I)=\frac{P(Y|T,I)P(X|Y,T,I)}{P(X|T,I)}$

$P(Y|T,I)$ $Y$ $Y$

$P(X|Y,T,I)$ $P(X|T,I)$ $Y$ $\overline{Y}$ $Y$

HAI (Y | T, X, saya) = \frac{P (Y | T, X, saya)}{P (\bar{Y} | T, X, saya)} = \frac{P (Y | T, saya)}{P (\bar{Y} | T, saya)} \frac{P (X | Y, T, saya)}{P (X | \bar{Y}, T, saya)}

$O(Y|T,X,I)=\frac{P(Y|T,X,I)}{P(\overline{Y}|T,X,I)}=\frac{P(Y|T,I)}{P(\overline{Y}|T,I)}\frac{P(X|Y,T,I)}{P(X|\overline{Y},T,I)}$

$Y$

$P(X|Y,T,I)$ $\theta_{Y}$

P (X | Y, T, saya) = \int P (X, θ_{Y} | Y, T, saya) d θ = \int P (X | θ_{Y}, Y, T, saya) P (θ_{Y} | Y, T, saya) d θ_{Y}

$P(X|Y,T,I)=\int P(X,\theta_{Y}|Y,T,I) d\theta = \int P(X|\theta_{Y},Y,T,I)P(\theta_{Y}|Y,T,I) d\theta_{Y}$

$P(X|\theta_{Y},Y,T,I)=P(X|\theta_{Y},Y,I)$ $T$ $P(\theta_{Y}|Y,T,I)$ adalah distribusi posterior untuk parameter dalam model - ini adalah bagian yang akan ditentukan oleh data pelatihan. Dan ini mungkin ke mana sebagian besar pekerjaan akan pergi.

$\theta_{Y}$ $M_i$ $\theta^{(i)}_{Y}$

P (X | Y, T, saya) = \sum_{saya} P ({M.}_{saya} | Y, T, saya) \int P (X | θ_{Y}^{(saya)}, {M.}_{saya}, Y, T, saya) P (θ_{Y}^{(saya)} | {M.}_{saya}, Y, T, saya) d θ_{Y}^{(saya)}

$P(X|Y,T,I)= \sum_{i}P(M_{i}|Y,T,I)\int P(X|\theta_{Y}^{(i)},M_{i},Y,T,I)P(\theta_{Y}^{(i)}|M_{i},Y,T,I) d\theta_{Y}^{(i)}$

P ({M.}_{saya} | Y, T, saya) = P ({M.}_{saya} | Y, saya) \int P (θ_{Y}^{(saya)} | {M.}_{saya}, Y, saya) P (T | θ_{Y}^{(saya)}, {M.}_{saya}, Y, saya) d θ_{Y}^{(saya)}

$P(M_{i}|Y,T,I)=P(M_{i}|Y,I)\int P(\theta_{Y}^{(i)}|M_{i},Y,I)P(T|\theta_{Y}^{(i)},M_{i},Y,I) d\theta_{Y}^{(i)}$

$M_i$

Sekarang, sampai titik ini, semua hasil tepat dan optimal (ini adalah opsi 2 - menerapkan beberapa algoritma yang luar biasa untuk data). Tapi ini tugas yang berat untuk dilakukan. Di dunia nyata, matematika yang dibutuhkan mungkin tidak layak untuk dilakukan dalam praktik - sehingga Anda harus berkompromi. Anda harus selalu "mencoba" melakukan persamaan yang tepat, karena matematika apa pun yang dapat Anda sederhanakan akan menghemat waktu Anda di PC. Namun, langkah pertama ini penting, karena ini menetapkan "target", dan memperjelas apa yang harus dilakukan. Kalau tidak, Anda akan dibiarkan (seperti yang terlihat) dengan sejumlah opsi potensial tanpa ada yang bisa dipilih.

Sekarang pada tahap ini, kita masih berada di dunia "logika simbolik", di mana tidak ada yang benar-benar masuk akal. Jadi, Anda perlu menautkan ini ke masalah spesifik Anda:

$P(M_{i}|Y,I)$
$P(\theta_{Y}^{(i)}|M_{i},Y,I)$
$P(T|\theta_{Y}^{(i)},M_{i},Y,I)$
$P(\theta_{Y}^{(i)}|T,M_{i},Y,I)$
$P(M_{i}|Y,T,I)$

$\overline{Y}$

$P(M_{j}|Y,T,I)\approx 1$

P (X | Y, T, saya) \approx P (X | θ_{Y}^{(j)}, {M.}_{j}, Y, T, saya)_{θ_{Y}^{(j)} = {\hat{θ}}_{Y}^{(j)}}

$P(X|Y,T,I)\approx P(X|\theta_{Y}^{(j)},M_{j},Y,T,I)_{\theta_{Y}^{(j)}=\hat{\theta}_{Y}^{(j)}}$

Yang merupakan pendekatan "standar" untuk masalah semacam ini.

— probabilityislogic
sumber