Statistik dan Big Data machine-learning

1

Apakah akan ada masalah pemilihan model jika kami memiliki akses ke oracle yang memberi kami kesalahan generalisasi yang tepat?

Membiarkan E( h )E(h)\mathcal{E(h)} sebuah fungsi yang diberi beberapa hipotesis hhh mengembalikan kesalahan generalisasi untuk perbaikan itu hhh. Saya membaca beberapa catatan tentang pemilihan model dan kesalahan generalisasi dan dikatakan: "Jika kita memiliki akses ke E( h )E(h)\mathcal{E(h)}, tidak akan ada masalah pemilihan model juga. Kami hanya akan memilih gambut …

8 machine-learning model

2

membangun model klasifikasi untuk data biner ketat

saya punya satu set data yang benar-benar biner. setiap set nilai variabel berada di domain: true, false. properti "khusus" dari kumpulan data ini adalah bahwa mayoritas dari nilai-nilai itu "salah". Saya telah menggunakan algoritma pembelajaran jaringan bayesian untuk mempelajari jaringan dari data. Namun, untuk salah satu node target saya (yang …

8 machine-learning classification svm random-forest bayesian-network

2

Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Bagaimana dan mengapa MLP untuk klasifikasi berbeda dari MLP untuk regresi? Backpropagation dan fungsi transfer yang berbeda?

Saya menggunakan dua 3-layer feedforward multi-layer perceptrons (MLPs). Dengan data input yang sama (14 neuron input), saya melakukan satu klasifikasi (benar / salah), dan satu regresi (jika benar, "berapa banyak") ¹. Sampai sekarang, saya sudah malas menggunakan Matlabs patternnet dan fitnet , masing-masing. Lazily, karena saya belum meluangkan waktu untuk …

8 regression machine-learning backpropagation

4

Bagaimana cara memilih split di Random forest untuk prediktor kategoris (fitur)?

Saya mengerti bagaimana pemisahan terbaik dipilih untuk forest acak untuk prediktor numerik (fitur). Prediktor numerik diurutkan kemudian untuk setiap nilai Gini kenajisan atau entropi dihitung dan ambang dipilih yang memberikan perpecahan terbaik. Tetapi bagaimana pemisahan terbaik dipilih untuk prediktor kategori karena tidak ada pemesanan khusus?

8 machine-learning random-forest

1

Mengapa Proses Dirichlet tidak cocok untuk aplikasi di Bayesian nonparametrics?

Sifat diskrit dari DP membuatnya tidak cocok untuk aplikasi umum dalam Bayesian nonparametrics, tetapi sangat cocok untuk masalah penempatan prior pada komponen campuran dalam pemodelan campuran. Kutipan ini dari Hierarchical Dirichlet Processes (Teh, et al, (2006) ) dan saya mencari penjelasan tentang apa artinya. Nonparametrik Bayesian sepertinya terlalu samar untuk …

8 machine-learning mcmc dirichlet-process

3

Bagaimana cara melakukan klasifikasi Hutan Acak tanpa pengawasan menggunakan kode Breiman?

Saya bekerja dengan kode hutan acak Breiman ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) untuk klasifikasi data satelit (supervised learning). Saya menggunakan dataset pelatihan dan tes yang memiliki ukuran sampel 2000 dan ukuran variabel 10. Data diklasifikasikan ke dalam dua kelas, A dan B. Dalam mode pembelajaran terawasi, algoritma berkinerja baik dengan kesalahan klasifikasi …

8 machine-learning classification random-forest

2

Dapatkah metode pembelajaran mesin entah bagaimana membantu dalam menyelesaikan persamaan diferensial?

Saya mencatat bahwa tugas regresi dalam pembelajaran mesin entah bagaimana terkait dengan penyelesaian persamaan diferensial sekitar - keduanya mencoba untuk memperkirakan fungsi yang tidak diketahui. Lalu, pertanyaan saya adalah: Dapatkah ML entah bagaimana membantu dalam menyelesaikan persamaan diferensial? Terima kasih sebelumnya.

8 machine-learning

1

Memprediksi pemenang pertandingan sepak bola hanya berdasarkan hasil pertandingan sebelumnya antara kedua tim

Saya penggemar berat sepakbola dan tertarik pada pembelajaran mesin juga. Sebagai proyek untuk kursus ML saya, saya mencoba membangun model yang akan memprediksi peluang menang untuk tim tuan rumah, mengingat nama-nama tim tuan rumah dan tandang. (Saya menanyakan dataset saya dan karenanya membuat titik data berdasarkan pertandingan sebelumnya antara kedua …

8 regression machine-learning predictive-models neural-networks

2

Bagaimana cara membandingkan dua algoritma secara statistik pada tiga dataset dalam pemilihan dan klasifikasi fitur?

Latar belakang masalah: Sebagai bagian dari penelitian saya, saya telah menulis dua algoritma yang dapat memilih satu set fitur dari set data (data ekspresi gen dari pasien kanker). Fitur-fitur ini kemudian diuji untuk melihat seberapa baik mereka dapat mengklasifikasikan sampel yang tidak terlihat sebagai kanker atau non-kanker. Untuk setiap rangkaian …

8 machine-learning statistical-significance computational-statistics standardization genetic-algorithms

1

Apa kelebihan metode Multiple Kernel Learning (MKL)?

Metode Multiple Kernel Learning bertujuan untuk membangun model kernel di mana kernel merupakan kombinasi linear dari kernel basis tetap. Mempelajari kernel kemudian terdiri dari mempelajari koefisien pembobotan untuk setiap kernel dasar, daripada mengoptimalkan parameter kernel dari satu kernel. Kelemahan dari beberapa pembelajaran kernel tampaknya adalah mereka kurang dapat ditafsirkan dan …

8 machine-learning svm kernel-trick

2

Contoh prediksi deret waktu menggunakan jaringan saraf pada R

Adakah yang punya contoh pendidikan singkat yang cepat bagaimana menggunakan jaringan saraf ( nnetdalam R misalnya) untuk tujuan prediksi? Berikut adalah contoh, dalam R, dari deret waktu T <- seq(0,20,length=200) Y <- 1 + 3*cos(4*T+2) +.2*T^2 + rnorm(200) plot(T,Y,type="l") Ini hanya sebuah contoh tetapi yang saya miliki adalah data musiman …

8 r time-series machine-learning neural-networks nnet

2

Bagaimana saya bisa mengubah data deret waktu sehingga saya bisa menggunakan teknik yang lebih sederhana untuk prediksi kesalahan?

Saya tahu ini terutama adalah situs statistik, jadi jika saya di luar topik, harap redirect saya. Saya memiliki sistem dengan pompa yang kadang pecah dan perlu diganti. Saya ingin dapat memprediksi kegagalan, dan dengan demikian memberikan peringatan dini kepada orang-orang yang mengganti pompa. Saya memiliki data historis untuk proses pompa, …

8 time-series machine-learning data-transformation

1

Kesalahan klasifikasi lebih rendah ketika saya tidak melakukan pembelajaran pada dataset?

Saya memiliki satu set data kata-kata. Saya secara acak memilih beberapa poin dan menggunakannya untuk pengujian dan yang lainnya digunakan untuk pelatihan. kasus (1) Saya hanya mengambil setiap titik data dari set tes dan mengklasifikasikannya memiliki label kelas yang sama dengan titik terdekat dari set kereta. kasus (2) Saya melakukan …

8 machine-learning classification

6

Apakah menggunakan data yang sama untuk pemilihan fitur dan validasi silang bias atau tidak?

Kami memiliki kumpulan data kecil (sekitar 250 sampel * 100 fitur) yang kami inginkan untuk membangun klasifikasi biner setelah memilih subset fitur terbaik. Katakanlah bahwa kita mempartisi data menjadi: Pelatihan, Validasi dan Pengujian Untuk pemilihan fitur, kami menerapkan model pembungkus berdasarkan pada pemilihan fitur yang mengoptimalkan kinerja pengklasifikasi X, Y …

8 machine-learning cross-validation feature-selection train

Pertanyaan yang diberi tag «machine-learning»