Statistik dan Big Data machine-learning

3

Saya menggunakan kernel Squared Exponential (SE) untuk Regresi Proses Gaussian. Kelebihan dari kernel ini adalah: 1) sederhana: hanya 3 hiperparameter; 2) smooth: kernel ini adalah Gaussian. Mengapa orang sangat menyukai 'kehalusan'? Saya tahu bahwa kernel Gaussian terdiferensiasi tanpa batas, tetapi apakah itu sangat penting? (Tolong beri tahu saya jika ada …

10 machine-learning

2

Mengapa PCA memaksimalkan varian total dari proyeksi?

Christopher Bishop menulis dalam bukunya Pattern Recognition dan Machine Learning sebagai bukti, bahwa setiap komponen utama berturut-turut memaksimalkan varian proyeksi ke satu dimensi, setelah data diproyeksikan ke ruang ortogonal ke komponen yang sebelumnya dipilih. Lainnya menunjukkan bukti serupa. Namun, ini hanya membuktikan bahwa setiap komponen berturut-turut adalah proyeksi terbaik untuk …

10 machine-learning variance pca dimensionality-reduction eigenvalues

4

Mengapa KNN tidak “berbasis model”?

ESL bab 2.4 tampaknya mengklasifikasikan regresi linier sebagai "berbasis model", karena mengasumsikan , sedangkan tidak ada perkiraan serupa yang dinyatakan untuk k-tetangga terdekat. Tapi bukankah kedua metode membuat asumsi tentang ?f ( x )f( x ) ≈ x ⋅ βf(x)≈x⋅βf(x) \approx x\cdot\betaf( x )f(x)f(x) Kemudian di 2.4 bahkan dikatakan: Kuadrat …

10 machine-learning model k-nearest-neighbour

1

Dapatkah Random Forests melakukan jauh lebih baik daripada 2,8% test error pada MNIST?

Saya belum menemukan literatur tentang penerapan Hutan Acak untuk MNIST, CIFAR, STL-10, dll. Jadi saya pikir saya akan mencobanya sendiri dengan permutasi MNIST invarian . Di R , saya mencoba: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Ini berjalan selama 2 jam dan mendapat 2,8% kesalahan pengujian. Saya juga mencoba scikit-belajar , …

10 r machine-learning classification random-forest scikit-learn

2

Klasifikasi hanya untuk satu kelas

Dalam klasifikasi sederhana, kami memiliki dua kelas: kelas-0 dan kelas-1. Dalam beberapa data saya hanya memiliki nilai untuk kelas-1, jadi tidak ada untuk kelas-0. Sekarang saya berpikir untuk membuat model untuk memodelkan data untuk kelas-1. Jadi, ketika data baru datang, model ini diterapkan pada data baru dan menemukan probabilitas yang …

10 machine-learning one-class

1

Apa keterbatasan metode Kernel dan kapan harus menggunakan metode kernel?

Metode kernel sangat efektif dalam banyak tugas klasifikasi yang diawasi. Jadi apa saja batasan metode kernel dan kapan harus menggunakan metode kernel? Terutama di era data skala besar, apa kemajuan metode kernel? Apa perbedaan antara metode kernel dan pembelajaran banyak instance? Jika datanya 500x10000, 500apakah jumlah sampel, dan 10000apakah dimensi …

10 machine-learning kernel-trick

2

Variabel kepentingan nilai-nilai negatif randomForest acak

Saya bertanya pada diri sendiri apakah itu ide yang baik untuk menghapus variabel-variabel dengan nilai penting variabel negatif ("% IncMSE") dalam konteks regresi. Dan apakah itu memberi saya prediksi yang lebih baik? Bagaimana menurut anda?

10 machine-learning feature-selection random-forest importance

3

Algoritma pembelajaran mesin untuk peringkat

Aku punya satu set unsur yang saya bisa menggambarkan sesuai dengan karakteristik. Jadi:nXXXnnn xi:{ci1,ci2,…,cin}∣xi∈Xxi:{ci1,ci2,…,cin}∣xi∈Xx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X di mana adalah evaluasi (numerik) untuk elemen sesuai dengan karakteristik . Jadi elemen saya dapat dilihat sebagai titik dalam ruang dimensi. i j ncijcijc_{ij}iiijjjnnn Menurut bacaan saya, ada …

10 machine-learning algorithms ranking feature-construction

2

Regresi Proses Gaussian untuk set data dimensi tinggi

Hanya ingin melihat apakah ada yang punya pengalaman menerapkan Gaussian process regression (GPR) ke set data dimensi tinggi. Saya sedang melihat ke beberapa metode GPR yang jarang (mis. Input pseudo-input GPR yang jarang) untuk melihat apa yang bisa bekerja untuk set data dimensi tinggi di mana pemilihan fitur yang ideal …

10 machine-learning predictive-models large-data gaussian-process

1

Nilai variabel tersembunyi regresi linear R "bernilai"

Ini hanya contoh yang saya temui beberapa kali, jadi saya tidak punya data sampel. Menjalankan model regresi linier di R: a.lm = lm(Y ~ x1 + x2) x1adalah variabel kontinu. x2bersifat kategorikal dan memiliki tiga nilai, mis. "Rendah", "Sedang" dan "Tinggi". Namun output yang diberikan oleh R akan menjadi seperti: …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

3

Apakah kita perlu mengatur set pelatihan dan set pengujian untuk pengelompokan?

Ketika kami melakukan klasifikasi dan regresi, kami biasanya menetapkan set pengujian dan pelatihan untuk membantu kami membangun dan meningkatkan model. Namun, ketika kita melakukan pengelompokan, apakah kita juga perlu mengatur pengujian dan pelatihan? Mengapa?

10 machine-learning clustering unsupervised-learning

2

Penyaringan Kolaborasi Item-Item vs Analisis Keranjang Pasar

Apa perbedaan mendasar antara Penyaringan Kolaboratif berdasarkan Item dan Analisis Berbasis Pasar? Apakah yang terakhir merupakan kasus khusus yang pertama?

10 machine-learning recommender-system

1

Apa subruang utama dalam PCA probabilistik?

jika diamati matriks data dan adalah variabel laten makaXXXYYY X=WY+μ+ϵX=WY+μ+ϵX=WY+\mu+\epsilon Di mana adalah rata-rata dari data yang diamati, dan adalah kesalahan Gaussian / noise dalam data, dan disebut subruang utama.μμ\muϵϵ\epsilonWWW Pertanyaan saya adalah ketika PCA biasa digunakan kita akan mendapatkan satu set ortonormal vektor eigen yang berikut benarEEE Y=EXY=EXY=EX Tetapi …

10 machine-learning pca latent-variable eigenvalues

2

Interval kepercayaan bootstrap dari prediksi regresi

Untuk pekerjaan rumah, saya diberi data untuk membuat / melatih alat prediksi yang menggunakan regresi laso. Saya membuat prediktor dan melatihnya menggunakan pustaka laso python dari scikit belajar. Jadi sekarang saya memiliki prediktor ini bahwa ketika input yang diberikan dapat memprediksi output. Pertanyaan kedua adalah "Perpanjang prediksi Anda untuk melaporkan …

10 regression machine-learning self-study confidence-interval bootstrap

1

Periksa status proses pelatihan dalam R [ditutup]

Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 4 tahun yang lalu . Saya melatih model menggunakan caretpaket dalam R selama hampir 3 hari. Perhitungan berjalan secara paralel (beberapa proses). Sayangnya tidak ada …

10 r machine-learning svm caret

Pertanyaan yang diberi tag «machine-learning»