Statistik dan Big Data machine-learning

4

Koefisien korelasi Matthews dengan multi-kelas

Koefisien korelasi Matthews ( ) adalah ukuran untuk mengukur kualitas klasifikasi biner ([Wikipedia] [1]). diberikan untuk klasifikasi biner yang menggunakan true positive ( ), false positive ( ), false negative ( ), dan nilai true negative ( ) seperti yang diberikan di bawah ini:MCCMCC\textrm{MCC}MCCMCC\textrm{MCC}TPTPTPFPFPFPFNFNFNTNTNTN MCC =TP× TN- FP× FN( TP+ …

9 machine-learning classification multi-class agreement-statistics

2

Rumus AIC dalam Pengantar Pembelajaran Statistik

Saya sedikit bingung dengan formula yang disajikan dalam "Pengantar Pembelajaran Statistik" Hastie. Dalam Bab 6, halaman 212 (pencetakan keenam, tersedia di sini ), dinyatakan bahwa: AIC=RSSnσ^2+2dnAIC=RSSnσ^2+2dnAIC = \frac{RSS}{n\hat\sigma^2} + \frac{2d}{n} Untuk model linier dengan noise Gaussian, ddd menjadi jumlah prediktor dan σ^σ^\hat\sigmamenjadi estimasi varians kesalahan. Namun, σ^2=RSS(n−2)σ^2=RSS(n−2)\hat\sigma^2 = \frac{RSS}{(n-2)} Yang …

9 regression machine-learning aic

2

Pemodelan pelanggan churn - Pembelajaran mesin versus model bahaya / kelangsungan hidup

Apakah mereka rasional (teoretis, substansial, statistik) untuk memilih pembelajaran mesin atau model bahaya saat memodelkan pelanggan churn (atau lebih umum, kejadian peristiwa)?

9 machine-learning survival hazard churn

5

Mengapa (dan kapan) seseorang harus mempelajari fungsi hadiah dari sampel dalam pembelajaran penguatan?

Dalam pembelajaran penguatan, kami memiliki fungsi hadiah yang menginformasikan agen seberapa baik tindakan dan negara saat ini dilakukan. Dalam beberapa pengaturan umum fungsi hadiah adalah fungsi dari tiga variabel: Keadaan saat iniSSS Tindakan saat ini pada kondisi saat iniπ(s)=aπ(s)=a\pi(s) = a Keadaan selanjutnyaS′S′S' Jadi terlihat seperti: R(S,a,S′)R(S,a,S′)R(S, a, S') Apa …

9 machine-learning reinforcement-learning

2

Vektorisasi Rugi Entropi Silang

Saya berurusan dengan masalah yang berkaitan dengan menemukan gradien fungsi Cross entropy loss wrt parameter θθ\theta dimana: CE(θ)=−∑iyi∗log(y^i)CE(θ)=−∑iyi∗log(y^i)CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})} Dimana, y^i=softmax(θi)y^i=softmax(θi)\hat{y}_{i} = softmax(\theta_i) dan θiθi\theta_i adalah input vektor. Juga, yyy adalah satu vektor panas dari kelas yang benar dan y^y^\hat{y} adalah prediksi untuk setiap kelas menggunakan fungsi softmax. Oleh …

9 machine-learning neural-networks

1

Bagaimana menangani perubahan panjang vektor input dengan jaringan saraf

Saya ingin melatih jaringan saraf dengan urutan karakter sebagai vektor input. Contoh pembelajaran memiliki panjang yang berbeda dan untuk alasan ini saya tidak tahu bagaimana cara mewakili mereka. Katakanlah saya memiliki dua contoh urutan, di sini nama: john doe maurice delanoe Contoh pertama adalah panjang 8, kedua panjang 15. Apakah …

9 machine-learning neural-networks feature-selection natural-language

2

Mereproduksi plot proyeksi analisis diskriminan linier

Saya berjuang dengan poin proyeksi dalam analisis diskriminan linier (LDA). Banyak buku tentang metode statistik multivariat menggambarkan gagasan LDA dengan gambar di bawah ini. Deskripsi masalahnya adalah sebagai berikut. Pertama, kita perlu menggambar batas keputusan, menambahkan garis tegak lurus dan kemudian memplot proyeksi titik data di atasnya. Saya ingin tahu …

9 r machine-learning classification discriminant-analysis

2

Bagaimana menyiapkan interaksi variabel kategorikal dalam scikit-learning?

Apa cara terbaik untuk mempersiapkan interaksi fitur-fitur kategorikal sebelum disesuaikan dengan scikit-learn? Dengan statsmodelssaya bisa dengan mudah mengatakan dalam gaya R smf.ols(formula = 'depvar ~ C(var1)*C(var2)', data=df).fit()(sama di Stata dengan regress depvar i.var1##i.var2). Bisakah sklearn.preprocessing.PolynomialFeatures(dalam v0.15, saat ini dev) digunakan dengan variabel kategori?

9 machine-learning interaction python scikit-learn

2

Divergensi Kontrasif Persisten untuk RBM

Saat menggunakan algoritme pembelajaran CD persisten untuk Mesin Bolzmann Terbatas, kami memulai rantai pengambilan sampel Gibbs kami pada iterasi pertama pada titik data, tetapi bertentangan dengan CD normal, dalam mengikuti iterasi kami tidak memulai rantai kami. Alih-alih, kita mulai dari mana rantai sampel Gibbs dalam iterasi sebelumnya berakhir. Dalam algoritma …

9 machine-learning neural-networks rbm

4

Mengevaluasi model regresi

Untuk masalah klasifikasi saya telah menggunakan Neural Networks dan mengukur kesalahan Tipe I dan II menggunakan matriks kebingungan dan ukurannya sesuai sumber daya ini ( mirror ), yang cukup mudah. Ketika dihadapkan dengan masalah estimasi, bagaimana seseorang menilai kinerja model? Dengan asumsi bahwa tidak ada kelas dan output ditafsirkan dalam …

9 regression machine-learning estimation model-evaluation

1

Mencoba memahami Proses Gaussian

Saya membaca buku GPML dan dalam Bab 2 (halaman 15) , buku ini menceritakan cara melakukan regresi menggunakan Proses Gaussian (GP), tetapi saya mengalami kesulitan mencari cara kerjanya. Dalam inferensi Bayesian untuk model parametrik, pertama-tama kita memilih prior pada parameter model θθ\theta, itu adalah p(θ)p(θ)p(\theta); kedua, diberikan data pelatihanDDD, kami …

9 machine-learning gaussian-process

3

Mengapa svm tidak sebagus pohon keputusan pada data yang sama?

Saya baru mengenal pembelajaran mesin dan mencoba menggunakan scikit-learning (sklearn) untuk menangani masalah klasifikasi. Baik DecisionTree dan SVM dapat melatih classifier untuk masalah ini. Saya menggunakan sklearn.ensemble.RandomForestClassifierdan sklearn.svm.SVCmenyesuaikan data pelatihan yang sama (sekitar 500.000 entri dengan 50 fitur per entri). The RandomForestClassifier keluar dengan classifier di sekitar satu menit. The …

9 machine-learning classification svm scikit-learn

2

Kumpulan data uji yang sangat tidak seimbang dan data pelatihan yang seimbang dalam klasifikasi

Saya memiliki satu set pelatihan dengan sekitar 3000 contoh positif dan 3000 contoh negatif. Tetapi kumpulan data pengujian saya sangat tidak seimbang. Set positif hanya memiliki 50 instance dan negatif memiliki 1500 instance. Hal ini menyebabkan presisi sangat rendah. Apakah ada pendekatan untuk menyelesaikan masalah ini? Saya menggunakan SVM untuk …

9 machine-learning classification data-mining svm

1

Pisau cukur Occam sudah usang?

Saya melihat buku-buku Vapnik tentang pembelajaran statistik ... Saya membaca beberapa bab pertama. Ngomong-ngomong, yang paling mengejutkanku adalah dia berpikir pisau cukur Occam sudah usang. Saya pikir itu terkait dengan situasi di mana dengan asumsi dimensi yang lebih tinggi meningkatkan kecocokan secara signifikan. Apakah saya mengerti benar? Benarkah pisau cukur …

9 machine-learning svm

4

Bagaimana cara menangani perkiraan deret waktu online?

Saya telah berurusan dengan masalah berikut. Saya memiliki semacam sistem waktu nyata dan setiap kerangka waktu saya membaca nilai saat ini, membuat rangkaian waktu (seperti 1, 12, 2, 3, 5, 9, 1, ...). Saya ingin mengetahui metode (statistik dan pembelajaran mesin) untuk memperkirakan nilai selanjutnya secara online (artinya setiap kali …

9 time-series machine-learning online forecasting

Pertanyaan yang diberi tag «machine-learning»