Statistik dan Big Data machine-learning

1

Merekonsiliasi boosted regression trees (BRT), generalized boosted model (GBM), dan gradient boosting machine (GBM)

Pertanyaan: Apa perbedaan antara pohon regresi yang dikuatkan (BRT) dan model yang dikembangkan secara umum (GBM)? Bisakah mereka digunakan secara bergantian? Apakah satu bentuk khusus dari yang lain? Mengapa Ridgeway menggunakan frasa "Generalized Boosted Regression Models" (GBM), untuk menggambarkan apa yang sebelumnya diusulkan Friedman sebagai "Gradient Boosting Machine" (GBM)? Kedua …

9 machine-learning boosting gbm

2

Perkiraan kesalahan out-of-bag untuk meningkatkan?

Dalam Random Forest, masing-masing pohon ditanam secara paralel pada sampel pendamping data yang unik. Karena setiap sampel boostrap diharapkan mengandung sekitar 63% dari pengamatan unik, ini menyisakan sekitar 37% dari pengamatan, yang dapat digunakan untuk menguji pohon. Sekarang, tampaknya dalam Stochastic Gradient Boosting, ada juga perkiraan serupa dengan yang ada …

9 machine-learning cross-validation data-mining random-forest boosting

1

Bagaimana cara mencari dan mengevaluasi diskritisasi optimal untuk variabel kontinu dengan kriteria ?

Saya memiliki kumpulan data dengan variabel kontinu dan variabel target biner (0 dan 1). Saya perlu menentukan variabel kontinu (untuk regresi logistik) sehubungan dengan variabel target dan dengan batasan bahwa frekuensi pengamatan dalam setiap interval harus seimbang. Saya mencoba algoritma pembelajaran mesin seperti Chi Merge, pohon keputusan. Chi merge memberi …

9 r machine-learning chi-squared discrete-data supervised-learning

2

Apakah pohon CART menangkap interaksi di antara para prediktor?

Makalah ini mengklaim bahwa dalam CART, karena pemisahan biner dilakukan pada kovariat tunggal pada setiap langkah, semua pemisahan bersifat ortogonal dan oleh karena itu interaksi di antara kovariat tidak dipertimbangkan. Namun, banyak referensi yang sangat serius mengklaim, sebaliknya, bahwa struktur hierarki pohon menjamin bahwa interaksi antara para prediktor secara otomatis …

9 machine-learning classification data-mining cart

1

Apa perbedaan antara filter yang dipelajari dalam autoencoder dan jaringan saraf convolutional?

Di CNN, kita akan mempelajari filter untuk menghasilkan peta fitur dalam lapisan convolutional. Dalam Autoencoder, unit tersembunyi tunggal setiap lapisan dapat dianggap sebagai filter. Apa perbedaan antara filter yang dipelajari dalam dua jaringan ini?

9 machine-learning neural-networks conv-neural-network autoencoders

3

ImageNet: apa artinya kesalahan lima besar?

Salah satu metode evaluasi untuk Kompetisi ImageNet (mengklasifikasikan 1.000 kategori gambar) adalah kesalahan top-5, apa artinya itu? Lihat: http://www.image-net.org/challenges/LSVRC/

9 machine-learning classification computer-vision

2

Bagaimana membuktikan bahwa asumsi berlipat ganda itu benar?

Dalam pembelajaran mesin, sering diasumsikan bahwa set data terletak pada manifold dimensi rendah yang halus (asumsi berlipat ganda), tetapi adakah cara untuk membuktikan bahwa dengan asumsi kondisi tertentu terpenuhi, maka set data memang (kurang-lebih) dihasilkan dari manifold halus dimensi rendah? Misalnya, diberi urutan data mana (katakanlah urutan gambar wajah dengan …

9 machine-learning dimensionality-reduction manifold-learning

2

Clustering data yang berisik atau dengan outlier

Saya memiliki data berisik dari dua variabel seperti ini. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, …

9 r machine-learning clustering

2

Bagaimana menemukan nilai optimal untuk parameter tuning dalam meningkatkan pohon?

Saya menyadari bahwa ada 3 parameter penyetelan dalam model meningkatkan pohon, yaitu jumlah pohon (jumlah iterasi) parameter penyusutan jumlah pemisahan (ukuran masing-masing pohon penyusun) Pertanyaan saya adalah: untuk setiap parameter penyetelan, bagaimana saya harus menemukan nilai optimalnya? Dan metode apa? Perhatikan bahwa: parameter susut dan jumlah parameter pohon beroperasi bersama, …

9 machine-learning cross-validation computational-statistics boosting gbm

4

Bagaimana cara melakukan pembelajaran mesin multivarian? (memprediksi beberapa variabel dependen)

Saya mencari untuk memprediksi kelompok item yang akan dibeli seseorang ... yaitu, saya memiliki beberapa variabel dependen colinear. Daripada membangun 7 atau lebih model independen untuk memprediksi probabilitas seseorang membeli masing-masing dari 7 item, dan kemudian menggabungkan hasilnya, metode apa yang harus saya perhatikan untuk memiliki satu model yang menjelaskan …

9 r machine-learning multivariate-analysis

1

Kapan aturan penilaian yang tepat merupakan estimasi generalisasi yang lebih baik dalam pengaturan klasifikasi?

Pendekatan khas untuk memecahkan masalah klasifikasi adalah mengidentifikasi kelas model kandidat, dan kemudian melakukan pemilihan model menggunakan beberapa prosedur seperti validasi silang. Biasanya seseorang memilih model dengan akurasi tertinggi, atau beberapa fungsi terkait yang menyandikan informasi spesifik masalah, seperti .FβFβ\text{F}_\beta Dengan asumsi tujuan akhir adalah untuk menghasilkan classifier yang akurat …

9 machine-learning model-selection error scoring-rules

2

Menggabungkan informasi deret waktu dari sumber dengan berbagai resolusi / skala spasial

Saya memiliki banyak gambar raster satelit yang tersedia dari berbagai sensor. Dari ini, yang lebih kasar memiliki resolusi temporal yang sangat berlimpah. Raster resolusi menengah cenderung memiliki lebih sedikit tanggal akuisisi tetapi masih ada beberapa tingkat informasi yang tersedia. Resolusi yang lebih halus memiliki resolusi temporal yang sangat rendah, berkisar …

9 time-series machine-learning predictive-models multivariate-regression

1

Model Markov tersembunyi untuk prediksi acara

Pertanyaan : Apakah pengaturan di bawah ini merupakan implementasi yang masuk akal dari model Hidden Markov? Saya memiliki satu set data 108,000pengamatan (diambil selama 100 hari) dan kira-kira 2000peristiwa di seluruh rentang waktu pengamatan. Data terlihat seperti gambar di bawah ini di mana variabel yang diamati dapat mengambil 3 nilai …

9 time-series machine-learning predictive-models markov-chain hidden-markov-model

6

Algoritma pembelajaran mesin mana yang dapat diskalakan menggunakan hadoop / mengurangi peta

Algoritma pembelajaran mesin yang skalabel tampak seperti buzz hari ini. Setiap perusahaan menangani kekurangan data besar . Apakah ada buku teks yang membahas algoritma pembelajaran mesin apa yang dapat diskalakan menggunakan arsitektur paralel seperti Map-Reduce, dan algoritma mana yang tidak bisa? Atau beberapa makalah yang relevan?

9 machine-learning large-data

1

R / caret: set kereta dan uji vs validasi silang?

Ini mungkin pertanyaan yang konyol, tetapi ketika membuat model dengan tanda sisipan dan menggunakan sesuatu seperti LOOCVatau (bahkan lebih tepatnya) LGOCV, apa manfaat membagi data ke dalam kereta dan set tes jika ini pada dasarnya merupakan langkah validasi silang ngomong-ngomong Saya membaca beberapa pertanyaan terkait dan mereka menyarankan bahwa beberapa …

9 r machine-learning cross-validation caret

Pertanyaan yang diberi tag «machine-learning»