Pertanyaan yang diberi tag «machine-learning»

Algoritma pembelajaran mesin membangun model data pelatihan. Istilah "pembelajaran mesin" secara samar didefinisikan; itu termasuk apa yang juga disebut pembelajaran statistik, pembelajaran penguatan, pembelajaran tanpa pengawasan, dll. SELALU MENAMBAH TAG LEBIH SPESIFIK.

5
Apakah curang untuk menjatuhkan outlier berdasarkan pada boxplot Mean Absolute Error untuk meningkatkan model regresi
Saya memiliki model prediksi yang diuji dengan empat metode seperti yang Anda lihat pada gambar boxplot di bawah ini. Atribut yang diprediksi model berada dalam kisaran 0-8. Anda mungkin memperhatikan bahwa ada satu outlier batas atas dan tiga outlier batas bawah yang ditunjukkan oleh semua metode. Saya ingin tahu apakah …

1
Penurunan perubahan variabel dari fungsi kepadatan probabilitas?
Dalam pengenalan pola buku dan pembelajaran mesin (rumus 1.27), itu memberi di manax=g(y),px(x)adalah pdf yang sesuai denganpy(y)py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) |x=g(y)x=g(y)x=g(y)px(x)px(x)p_x(x)py(y)py(y)p_y(y) sehubungan dengan perubahan variabel. Buku-buku mengatakan itu karena pengamatan jatuh dalam kisaran akan, untuk nilai-nilai kecil δ x , ditransformasikan menjadi kisaran ( …

1
Bagaimana penurunan gradien stokastik dapat menghemat waktu dibandingkan dengan penurunan gradien standar?
Keturunan Gradien Standar akan menghitung gradien untuk seluruh dataset pelatihan. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Untuk jumlah zaman yang ditentukan sebelumnya, pertama-tama kita menghitung vektor gradien weights_grad dari fungsi kerugian untuk seluruh dataset menggunakan parameter vektor parameter kami. Stochastic …

4
Akurasi mesin peningkat gradien menurun karena jumlah iterasi meningkat
Saya bereksperimen dengan algoritma mesin peningkat gradien melalui caretpaket di R. Menggunakan dataset penerimaan perguruan tinggi kecil, saya menjalankan kode berikut: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Apa saja pertanyaan wawancara yang baik untuk kandidat pengembang algoritma statistik?
Saya mewawancarai orang-orang untuk posisi pengembang algoritma / peneliti dalam konteks statistik / pembelajaran mesin / data mining. Saya mencari pertanyaan untuk ditanyakan untuk menentukan, secara khusus, keakraban, pemahaman dan kelenturan kandidat dengan teori yang mendasarinya, misalnya sifat dasar dari harapan dan perbedaan, beberapa distribusi umum, dll. Saya saat masuk …

2
Apa arti teori belajar PAC?
Saya baru dalam pembelajaran mesin. Saya belajar kursus dalam pembelajaran mesin (Stanford University) dan saya tidak mengerti apa yang dimaksud dengan teori ini dan apa kegunaannya. Saya bertanya-tanya apakah seseorang dapat merinci teori ini untuk saya. Teori ini didasarkan pada persamaan ini.

3
Di Kneser-Ney smoothing, bagaimana kata-kata yang tidak terlihat ditangani?
Dari apa yang saya lihat, formula smoothing Kneser-Ney (dalam urutan kedua) dalam beberapa hal diberikan sebagai P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} dengan faktor normalisasi diberikan sebagaiλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} dan …


3
Saran untuk pembelajaran yang sensitif biaya dalam lingkungan yang sangat tidak seimbang
Saya memiliki dataset dengan beberapa juta baris dan ~ 100 kolom. Saya ingin mendeteksi sekitar 1% dari contoh dalam dataset, yang termasuk kelas umum. Saya memiliki batasan presisi minimum, tetapi karena biaya yang sangat asimetris, saya tidak terlalu tertarik pada penarikan tertentu (selama saya tidak dibiarkan dengan 10 pertandingan positif!) …

1
Apa intuisi di balik sampel yang dapat ditukar di bawah hipotesis nol?
Tes permutasi (juga disebut tes pengacakan, uji pengacakan ulang, atau tes yang tepat) sangat berguna dan berguna ketika asumsi distribusi normal yang diperlukan misalnya, t-testtidak terpenuhi dan ketika transformasi nilai dengan peringkat dari tes non-parametrik seperti Mann-Whitney-U-testakan menyebabkan lebih banyak informasi hilang. Namun, satu dan hanya satu asumsi yang tidak …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
Arti istilah output dalam paket gbm?
Saya menggunakan paket gbm untuk klasifikasi. Seperti yang diharapkan, hasilnya bagus. Tetapi saya mencoba memahami output dari classifier. Ada lima istilah dalam output. `Iter TrainDeviance ValidDeviance StepSize Improve` Adakah yang bisa menjelaskan arti setiap istilah, terutama arti Meningkatkan .

3
Apa itu pencampuran data?
Istilah ini sering muncul di utas terkait metode . Apakah memadukan metode khusus dalam penambangan data dan pembelajaran statistik? Saya tidak bisa mendapatkan hasil yang relevan dari google. Tampaknya pencampuran adalah mencampur hasil dari banyak model dan menghasilkan hasil yang lebih baik. Apakah ada sumber daya yang membantu saya mengetahui …

2
Menggabungkan classifier dengan membalik koin
Saya sedang mempelajari kursus pembelajaran mesin dan slide kuliah berisi informasi apa yang saya temukan bertentangan dengan buku yang direkomendasikan. Masalahnya adalah sebagai berikut: ada tiga pengklasifikasi: classifier A memberikan kinerja yang lebih baik di kisaran ambang yang lebih rendah, classifier B memberikan kinerja yang lebih baik dalam rentang ambang …


2
Meningkatnya jumlah fitur menghasilkan penurunan akurasi tetapi peningkatan sebelum / penarikan
Saya baru belajar Mesin. Saat ini saya menggunakan classifier Naive Bayes (NB) untuk mengklasifikasikan teks kecil dalam 3 kelas sebagai positif, negatif atau netral, menggunakan NLTK dan python. Setelah melakukan beberapa tes, dengan dataset yang terdiri dari 300.000 instance (16.924 positif, 7.477 negatif, dan 275.599 netral), saya menemukan bahwa ketika …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.