Statistik dan Big Data machine-learning

5

Apakah curang untuk menjatuhkan outlier berdasarkan pada boxplot Mean Absolute Error untuk meningkatkan model regresi

Saya memiliki model prediksi yang diuji dengan empat metode seperti yang Anda lihat pada gambar boxplot di bawah ini. Atribut yang diprediksi model berada dalam kisaran 0-8. Anda mungkin memperhatikan bahwa ada satu outlier batas atas dan tiga outlier batas bawah yang ditunjukkan oleh semua metode. Saya ingin tahu apakah …

15 regression machine-learning multiple-regression predictive-models outliers

1

Penurunan perubahan variabel dari fungsi kepadatan probabilitas?

Dalam pengenalan pola buku dan pembelajaran mesin (rumus 1.27), itu memberi di manax=g(y),px(x)adalah pdf yang sesuai denganpy(y)py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) |x=g(y)x=g(y)x=g(y)px(x)px(x)p_x(x)py(y)py(y)p_y(y) sehubungan dengan perubahan variabel. Buku-buku mengatakan itu karena pengamatan jatuh dalam kisaran akan, untuk nilai-nilai kecil δ x , ditransformasikan menjadi kisaran ( …

15 machine-learning probability self-study derivative jacobian

1

Bagaimana penurunan gradien stokastik dapat menghemat waktu dibandingkan dengan penurunan gradien standar?

Keturunan Gradien Standar akan menghitung gradien untuk seluruh dataset pelatihan. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Untuk jumlah zaman yang ditentukan sebelumnya, pertama-tama kita menghitung vektor gradien weights_grad dari fungsi kerugian untuk seluruh dataset menggunakan parameter vektor parameter kami. Stochastic …

15 machine-learning optimization gradient-descent computational-statistics sgd

4

Akurasi mesin peningkat gradien menurun karena jumlah iterasi meningkat

Saya bereksperimen dengan algoritma mesin peningkat gradien melalui caretpaket di R. Menggunakan dataset penerimaan perguruan tinggi kecil, saya menjalankan kode berikut: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

Apa saja pertanyaan wawancara yang baik untuk kandidat pengembang algoritma statistik?

Saya mewawancarai orang-orang untuk posisi pengembang algoritma / peneliti dalam konteks statistik / pembelajaran mesin / data mining. Saya mencari pertanyaan untuk ditanyakan untuk menentukan, secara khusus, keakraban, pemahaman dan kelenturan kandidat dengan teori yang mendasarinya, misalnya sifat dasar dari harapan dan perbedaan, beberapa distribusi umum, dll. Saya saat masuk …

15 machine-learning probability distributions

2

Apa arti teori belajar PAC?

Saya baru dalam pembelajaran mesin. Saya belajar kursus dalam pembelajaran mesin (Stanford University) dan saya tidak mengerti apa yang dimaksud dengan teori ini dan apa kegunaannya. Saya bertanya-tanya apakah seseorang dapat merinci teori ini untuk saya. Teori ini didasarkan pada persamaan ini.

15 machine-learning probability pac-learning

3

Di Kneser-Ney smoothing, bagaimana kata-kata yang tidak terlihat ditangani?

Dari apa yang saya lihat, formula smoothing Kneser-Ney (dalam urutan kedua) dalam beberapa hal diberikan sebagai P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} dengan faktor normalisasi diberikan sebagaiλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} dan …

15 machine-learning natural-language naive-bayes smoothing language-models

1

Tesaurus untuk statistik dan istilah pembelajaran mesin

Apakah ada tesaurus referensi untuk statistik dan istilah pembelajaran mesin? Saya tahu bahwa artikel Wikipedia sering mengandung sinonim, tetapi saya ingin memiliki tesaurus belaka yang bisa saya lalui dengan mudah (vs. ensiklopedia lengkap) untuk memastikan saya tahu semua jargon.

15 machine-learning terminology

3

Saran untuk pembelajaran yang sensitif biaya dalam lingkungan yang sangat tidak seimbang

Saya memiliki dataset dengan beberapa juta baris dan ~ 100 kolom. Saya ingin mendeteksi sekitar 1% dari contoh dalam dataset, yang termasuk kelas umum. Saya memiliki batasan presisi minimum, tetapi karena biaya yang sangat asimetris, saya tidak terlalu tertarik pada penarikan tertentu (selama saya tidak dibiarkan dengan 10 pertandingan positif!) …

15 machine-learning classification unbalanced-classes precision-recall

1

Apa intuisi di balik sampel yang dapat ditukar di bawah hipotesis nol?

Tes permutasi (juga disebut tes pengacakan, uji pengacakan ulang, atau tes yang tepat) sangat berguna dan berguna ketika asumsi distribusi normal yang diperlukan misalnya, t-testtidak terpenuhi dan ketika transformasi nilai dengan peringkat dari tes non-parametrik seperti Mann-Whitney-U-testakan menyebabkan lebih banyak informasi hilang. Namun, satu dan hanya satu asumsi yang tidak …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

Arti istilah output dalam paket gbm?

Saya menggunakan paket gbm untuk klasifikasi. Seperti yang diharapkan, hasilnya bagus. Tetapi saya mencoba memahami output dari classifier. Ada lima istilah dalam output. `Iter TrainDeviance ValidDeviance StepSize Improve` Adakah yang bisa menjelaskan arti setiap istilah, terutama arti Meningkatkan .

15 r machine-learning

3

Apa itu pencampuran data?

Istilah ini sering muncul di utas terkait metode . Apakah memadukan metode khusus dalam penambangan data dan pembelajaran statistik? Saya tidak bisa mendapatkan hasil yang relevan dari google. Tampaknya pencampuran adalah mencampur hasil dari banyak model dan menghasilkan hasil yang lebih baik. Apakah ada sumber daya yang membantu saya mengetahui …

15 machine-learning data-mining unsupervised-learning statistical-learning

2

Menggabungkan classifier dengan membalik koin

Saya sedang mempelajari kursus pembelajaran mesin dan slide kuliah berisi informasi apa yang saya temukan bertentangan dengan buku yang direkomendasikan. Masalahnya adalah sebagai berikut: ada tiga pengklasifikasi: classifier A memberikan kinerja yang lebih baik di kisaran ambang yang lebih rendah, classifier B memberikan kinerja yang lebih baik dalam rentang ambang …

15 machine-learning probability data-visualization classification roc

2

Analisis run-time dari algoritma pembelajaran mesin umum

Apakah ada yang punya referensi ke ringkasan analisis run-time untuk algoritma pembelajaran mesin umum (rasa yang berbeda dari NN, SVM, dll)?

15 machine-learning references algorithms

2

Meningkatnya jumlah fitur menghasilkan penurunan akurasi tetapi peningkatan sebelum / penarikan

Saya baru belajar Mesin. Saat ini saya menggunakan classifier Naive Bayes (NB) untuk mengklasifikasikan teks kecil dalam 3 kelas sebagai positif, negatif atau netral, menggunakan NLTK dan python. Setelah melakukan beberapa tes, dengan dataset yang terdiri dari 300.000 instance (16.924 positif, 7.477 negatif, dan 275.599 netral), saya menemukan bahwa ketika …

15 machine-learning classification naive-bayes precision-recall

Pertanyaan yang diberi tag «machine-learning»