Statistik dan Big Data machine-learning

3

Apa yang bisa dikatakan seorang anak sekolah tentang statistik dan pembelajaran mesin?

Minggu depan kita memiliki magang dari sekolah lokal di rumah. Konsep di balik magang singkatnya adalah untuk mendapatkan ide bagaimana dunia nyata bekerja dan bagaimana pekerjaan tertentu, seperti apa pekerjaan sehari-hari, dll. Sekarang saya bertanya-tanya, apa yang bisa dikatakan / ditunjukkan / didemonstrasikan anak muda tentang Statistik dan Pembelajaran Mesin …

14 machine-learning teaching

2

Pengkodean fitur kategorikal ke angka untuk pembelajaran mesin

Banyak algoritma pembelajaran mesin, misalnya jaringan saraf, mengharapkan untuk berurusan dengan angka. Jadi, ketika Anda memiliki data kategorikal, Anda perlu mengubahnya. Maksud saya kategorikal, misalnya: Merek mobil: Audi, BMW, Chevrolet ... ID Pengguna: 1, 25, 26, 28 ... Meskipun id pengguna adalah angka, itu hanya label, dan tidak berarti apa …

14 machine-learning many-categories

5

Algoritme klasifikasi statistik manakah yang dapat memprediksi benar / salah untuk urutan input?

Diberikan urutan input, saya perlu menentukan apakah urutan ini memiliki properti yang diinginkan. Properti hanya bisa benar atau salah, yaitu, hanya ada dua kelas yang mungkin dimiliki urutan. Hubungan yang tepat antara urutan dan properti tidak jelas, tetapi saya percaya itu sangat konsisten dan harus memberikan klasifikasi statistik. Saya memiliki …

14 machine-learning classification modeling

1

Ketika over / under-sampling kelas tidak seimbang, apakah memaksimalkan akurasi berbeda dari meminimalkan biaya kesalahan klasifikasi?

Pertama-tama, saya ingin menjelaskan beberapa tata letak umum yang digunakan buku Penambangan Data yang menjelaskan cara menangani Kumpulan Data Tidak Seimbang . Biasanya bagian utama dinamai Dataset Tidak Seimbang dan mencakup dua subbagian ini: Klasifikasi Sensitif Biaya dan Teknik Pengambilan Sampel. Tampaknya menghadapi masalah dengan kelas langka, Anda dapat melakukan …

14 machine-learning classification unbalanced-classes

8

Apa "algoritme panas" untuk pembelajaran mesin?

Ini adalah pertanyaan naif dari seseorang yang mulai belajar belajar mesin. Saya membaca hari ini buku "Pembelajaran Mesin: Perspektif algoritmik" dari Marsland. Saya merasa buku ini bermanfaat sebagai pengantar, tetapi sekarang saya ingin membahas algoritma canggih, yang saat ini memberikan hasil terbaik. Saya sebagian besar tertarik pada bioinformatika: pengelompokan jaringan …

14 machine-learning clustering bioinformatics

1

Menafsirkan jarak dari hyperplane di SVM

Saya memiliki beberapa keraguan dalam memahami SVM secara intuitif. Asumsikan kita telah melatih model SVM untuk klasifikasi menggunakan beberapa alat standar seperti SVMLight atau LibSVM. Ketika kami menggunakan model ini untuk prediksi pada data uji, model menghasilkan file yang memiliki nilai "alpha" untuk setiap titik uji. Jika nilai alpha positif, …

14 machine-learning svm max-margin

1

Kapan seseorang ingin menggunakan AdaBoost?

Seperti yang saya pernah mendengar tentang classifier AdaBoost berulang kali disebutkan di tempat kerja, saya ingin mendapatkan perasaan yang lebih baik tentang cara kerjanya dan ketika seseorang mungkin ingin menggunakannya. Saya telah maju dan membaca sejumlah makalah dan tutorial tentang hal itu yang saya temukan di Google, tetapi ada beberapa …

14 machine-learning boosting adaboost

2

Memesan seri waktu untuk pembelajaran mesin

Setelah membaca salah satu "Tip penelitian" RJ Hyndman tentang validasi silang dan rangkaian waktu, saya kembali ke pertanyaan lama saya yang akan saya coba rumuskan di sini. Idenya adalah bahwa dalam masalah klasifikasi atau regresi, pemesanan data tidak penting, dan karenanya k- lipatan validasi silang dapat digunakan. Di sisi lain, …

14 time-series machine-learning cross-validation

2

Mengapa estimasi kesalahan OOB hutan acak meningkat ketika jumlah fitur yang dipilih berkurang?

Saya menerapkan algoritma hutan acak sebagai penggolong pada dataset microarray yang dibagi menjadi dua kelompok yang dikenal dengan ribuan fitur. Setelah menjalankan awal saya melihat pentingnya fitur dan menjalankan algoritma pohon lagi dengan 5, 10 dan 20 fitur paling penting. Saya menemukan bahwa untuk semua fitur, top 10 dan 20 …

14 r machine-learning classification random-forest

1

Apa perbedaan lembut dari AdaBoost?

Ada varian peningkatan yang disebut gentleboost . Apa perbedaan lembut dari AdaBoost yang lebih terkenal ?

14 machine-learning boosting

3

Berapa nilai maksimum divergensi Kullback-Leibler (KL)

Saya akan menggunakan KL divergence dalam kode python saya dan saya mendapatkan tutorial ini . Pada tutorial itu, untuk mengimplementasikan KL divergence cukup sederhana. kl = (model * np.log(model/actual)).sum() Seperti yang saya pahami, distribusi probabilitas modeldan actualharus <= 1. Pertanyaan saya adalah, apa nilai maksimum k / terikat maksimum? Saya …

14 machine-learning distance kullback-leibler

1

Caret glmnet vs cv.glmnet

Tampaknya ada banyak kebingungan dalam perbandingan menggunakan di glmnetdalam caretuntuk mencari lambda yang optimal dan menggunakan cv.glmnetuntuk melakukan tugas yang sama. Banyak pertanyaan diajukan, misalnya: Klasifikasi model train.glmnet vs. cv.glmnet? Apa cara yang tepat untuk menggunakan glmnet dengan caret? Validasi silang `glmnet` menggunakan` caret` tetapi tidak ada jawaban yang diberikan, …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

4

Interval prediksi untuk algoritma pembelajaran mesin

Saya ingin tahu apakah proses yang dijelaskan di bawah ini valid / dapat diterima dan ada pembenaran yang tersedia. Idenya: Algoritma pembelajaran terawasi tidak mengasumsikan struktur / distribusi yang mendasari tentang data. Pada akhirnya mereka membuat estimasi titik keluaran. Saya berharap bisa mengukur ketidakpastian estimasi tersebut. Sekarang, proses pembuatan model …

14 machine-learning confidence-interval bootstrap supervised-learning gbm

3

Bagaimana memodelkan data besar longitudinal?

Secara tradisional kami menggunakan model campuran untuk memodelkan data longitudinal, yaitu data seperti: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 kita dapat mengasumsikan intersep atau lereng acak …

14 machine-learning data-transformation random-forest panel-data large-data

1

GAM vs LOESS vs splines

Konteks : Saya ingin menggambar garis di sebar yang tidak tampak parametrik, oleh karena itu saya gunakan geom_smooth()di ggplotdalam R. Secara otomatis mengembalikan geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

Pertanyaan yang diberi tag «machine-learning»