Statistik dan Big Data machine-learning

1

Statistik untuk pembelajaran mesin, makalah untuk memulai?

Saya memiliki latar belakang dalam pemrograman komputer dan teori bilangan dasar, tetapi tidak ada pelatihan statistik nyata, dan baru-baru ini "menemukan" bahwa dunia yang menakjubkan dari berbagai teknik sebenarnya adalah dunia statistik. Tampaknya faktorisasi matriks, penyelesaian matriks, tensor dimensi tinggi, embedding, estimasi kepadatan, inferensi Bayesian, partisi Markov, perhitungan eigenvektor, PageRank …

10 machine-learning estimation

1

Bisakah model P (Y | X) dilatih melalui stochastic gradient descent dari sampel non-iid P (X) dan sampel iid dari P (Y | X)?

Ketika melatih model parameter (misalnya untuk memaksimalkan kemungkinan) melalui penurunan gradien stokastik pada beberapa set data, umumnya diasumsikan bahwa sampel pelatihan diambil di awal dari distribusi data pelatihan. Jadi, jika tujuannya adalah untuk memodelkan distribusi bersama , maka setiap sampel pelatihan harus diambil iid dari distribusi itu.P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Jika tujuannya adalah …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

3

Apa cara paling efisien untuk melatih data menggunakan sedikit memori?

Ini adalah data pelatihan saya: 200.000 Contoh x 10.000 Fitur. Jadi matriks data pelatihan saya adalah - 200.000 x 10.000. Saya berhasil menyimpan ini dalam file datar tanpa memiliki masalah memori dengan menyimpan setiap dataset satu per satu (satu contoh demi satu) karena saya menghasilkan fitur untuk setiap contoh. Tapi, …

10 machine-learning dataset algorithms python

2

Regularisasi norma

Ada banyak metode untuk melakukan regularisasi - , , dan regularisasi berbasis misalnya. Menurut Friedman Hastie & Tibsharani , pembuat peraturan terbaik tergantung pada masalah: yaitu sifat fungsi target yang sebenarnya, dasar tertentu yang digunakan, rasio sinyal terhadap kebisingan, dan ukuran sampel.L 1 L 2L.0L0L_0L.1L1L_1L.2L2L_2 Adakah penelitian empiris yang membandingkan …

10 r regression machine-learning regularization

3

Bagaimana membandingkan akurasi dua model yang berbeda menggunakan signifikansi statistik

Saya sedang mengerjakan prediksi deret waktu. Aku punya dua set data D 1 = { x1, x2, . . . . xn}D1={x1,x2,....xn}D1=\{x_1, x_2,....x_n\} dan D 2 = { xn+ 1 , xn+ 2 , xn+ 3 , . . . . , xn+ k }D2={xn+1,xn+2,xn+3,....,xn+k}D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\} . Saya …

10 time-series machine-learning statistical-significance classification model-evaluation

3

Mengenai menggunakan model bigram (N-gram) untuk membangun vektor fitur untuk dokumen teks

Pendekatan tradisional konstruksi fitur untuk penambangan teks adalah pendekatan bag-of-words, dan dapat ditingkatkan menggunakan tf-idf untuk mengatur vektor fitur yang menjadi ciri dokumen teks yang diberikan. Saat ini, saya mencoba menggunakan model bahasa bi-gram atau (N-gram) untuk membangun vektor fitur, tetapi tidak cukup tahu bagaimana melakukannya? Bisakah kita cukup mengikuti …

10 machine-learning data-mining text-mining natural-language language-models

1

Di luar kernel Fisher

Untuk sementara, sepertinya Fisher Kernels mungkin menjadi populer, karena mereka tampaknya menjadi cara untuk membangun kernel dari model probabilistik. Namun, saya jarang melihat mereka digunakan dalam praktik, dan saya memiliki otoritas yang baik sehingga mereka cenderung tidak bekerja dengan baik. Mereka mengandalkan perhitungan Informasi Fisher - mengutip Wikipedia: informasi Fisher …

10 machine-learning probability kernel-trick generative-models

1

Berurusan dengan dataset time-series yang sangat besar

Saya memiliki akses ke dataset yang sangat besar. Data tersebut dari rekaman MEG dari orang yang mendengarkan kutipan musik, dari satu dari empat genre. Data adalah sebagai berikut: 6 mata pelajaran 3 pengulangan Eksperimental (zaman) 120 Percobaan per zaman 8 detik data per percobaan pada 500Hz (= 4000 sampel) dari …

10 machine-learning feature-selection large-data feature-construction

3

Pendekatan saat belajar dari kumpulan data besar?

Pada dasarnya, ada dua cara umum untuk belajar melawan kumpulan data besar (ketika Anda dihadapkan pada batasan waktu / ruang): Kecurangan :) - gunakan hanya subset "dikelola" untuk pelatihan. Hilangnya keakuratan dapat diabaikan karena hukum pengembalian yang semakin menurun - kinerja prediktif dari model tersebut seringkali mendatar jauh sebelum semua …

10 machine-learning large-data model-evaluation train

1

Apakah MFCC adalah metode optimal untuk merepresentasikan musik ke sistem pengambilan?

Teknik pemrosesan sinyal, Mel frekuensi Cepstrum , sering digunakan untuk mengekstraksi informasi dari karya musik untuk digunakan dalam tugas pembelajaran mesin. Metode ini memberikan spektrum daya jangka pendek, dan koefisien digunakan sebagai input. Dalam mendesain sistem pengambilan musik, koefisien seperti itu dianggap sebagai karakteristik dari sebuah karya (jelas tidak harus …

10 machine-learning classification signal-processing mfcc

8

Algoritma apa yang dapat digunakan untuk memprediksi penggunaan bahan habis pakai yang diberikan data dari pembelian sebelumnya?

Berpikir tentang masalah yang seharusnya sederhana namun menarik, saya ingin menulis beberapa kode untuk memperkirakan konsumsi yang akan saya butuhkan dalam waktu dekat mengingat sejarah lengkap pembelian saya sebelumnya. Saya yakin masalah semacam ini memiliki beberapa definisi yang lebih umum dan dipelajari dengan baik (seseorang menyarankan ini terkait dengan beberapa …

10 time-series machine-learning forecasting

6

Bandingkan R-kuadrat dari dua model Hutan Acak yang berbeda

Saya menggunakan paket randomForest dalam R untuk mengembangkan model hutan acak untuk mencoba menjelaskan hasil yang berkelanjutan dalam dataset "lebar" dengan lebih banyak prediktor daripada sampel. Secara khusus, saya memasang satu model RF yang memungkinkan prosedur untuk memilih dari serangkaian ~ 75 variabel prediktor yang menurut saya penting. Saya menguji …

10 r machine-learning hypothesis-testing model-selection random-forest

2

Dasar pemikiran menggunakan AUC?

Terutama di sisi yang berorientasi pada ilmu komputer dari literatur pembelajaran mesin, AUC (area di bawah kurva karakteristik operator penerima) adalah kriteria populer untuk mengevaluasi pengklasifikasi. Apa justifikasi untuk menggunakan AUC? Misalnya, apakah ada fungsi kerugian tertentu yang keputusan optimalnya adalah pengklasifikasi dengan AUC terbaik?

10 machine-learning roc

1

Signifikansi koefisien regresi (GAM) ketika kemungkinan model tidak secara signifikan lebih tinggi dari nol

Saya menjalankan regresi berbasis GAM menggunakan gamls paket R dan mengasumsikan distribusi beta data nol. Saya hanya memiliki variabel penjelas tunggal dalam model saya, jadi pada dasarnya: mymodel = gamlss(response ~ input, family=BEZI). Algoritme memberi saya koefisien untuk dampak variabel penjelas ke dalam mean ( ) dan nilai-p terkait untuk …

10 nonlinear-regression gamlss machine-learning svm

2

Metode terbaik pemilihan fitur untuk regresi nonparametrik

Pertanyaan pemula di sini. Saat ini saya sedang melakukan regresi nonparametrik menggunakan paket np di R. Saya memiliki 7 fitur dan menggunakan pendekatan brute force saya mengidentifikasi yang terbaik 3. Tapi, segera saya akan memiliki lebih dari 7 fitur! Pertanyaan saya adalah apa metode terbaik saat ini untuk pemilihan fitur …

10 r machine-learning nonparametric feature-selection

Pertanyaan yang diberi tag «machine-learning»