Statistik dan Big Data machine-learning

1

Apakah saya baru saja menemukan metode Bayesian untuk analisis kurva ROC?

Pembukaan Ini posting yang panjang. Jika Anda membaca ulang ini, harap perhatikan bahwa saya telah merevisi bagian pertanyaan, meskipun materi latar belakangnya tetap sama. Selain itu, saya percaya bahwa saya telah menemukan solusi untuk masalah ini. Solusi itu muncul di bagian bawah pos. Terima kasih kepada CliffAB untuk menunjukkan bahwa …

21 machine-learning bayesian sampling roc auc

2

Teknik augmentasi data untuk dataset umum?

Dalam banyak aplikasi pembelajaran mesin, metode augmentasi data yang disebut telah memungkinkan membangun model yang lebih baik. Misalnya, asumsikan satu set pelatihan gambar kucing dan anjing. Dengan memutar, mirroring, menyesuaikan kontras, dll. Dimungkinkan untuk menghasilkan gambar tambahan dari yang asli.100100100 Dalam hal gambar, augmentasi data relatif mudah. Namun, anggaplah (misalnya) …

21 machine-learning predictive-models dataset independence data-augmentation

3

Apa yang terjadi ketika Anda menerapkan SVD ke masalah pemfilteran kolaboratif? Apa perbedaan keduanya?

Dalam pemfilteran Kolaboratif, kami memiliki nilai yang tidak diisi. Misalkan pengguna tidak menonton film maka kami harus meletakkan 'na' di sana. Jika saya akan mengambil SVD dari matriks ini, maka saya harus memasukkan beberapa angka di sana - katakan 0. Sekarang, jika saya membuat faktorisasi matriks, saya punya metode untuk …

21 machine-learning svd recommender-system

3

Langkah pertama untuk data besar ( , )

Misalkan Anda menganalisis kumpulan data besar dengan jumlah milyaran pengamatan per hari, di mana setiap pengamatan memiliki beberapa ribu variabel yang mungkin jarang dan variabel numerik dan kategororial yang berlebihan. Katakanlah ada satu masalah regresi, satu masalah klasifikasi biner yang tidak seimbang, dan satu tugas "mencari tahu prediktor mana yang …

21 r machine-learning data-mining large-data

2

Membandingkan pengelompokan: Indeks Rand vs Variasi Informasi

Saya bertanya-tanya apakah ada yang punya wawasan atau intuisi di balik perbedaan antara Variasi Informasi dan Indeks Rand untuk membandingkan pengelompokan. Saya telah membaca makalah " Membandingkan Clusterings - Sebuah Jarak Berbasis Informasi " oleh Marina Melia (Journal of Multivariate Analysis, 2007), tetapi, selain memperhatikan perbedaan dalam definisi, saya tidak …

21 machine-learning clustering metric

4

Sejauh mana perbedaan antara korelasi dan sebab-akibat relevan bagi Google?

Konteks Pertanyaan populer di situs ini adalah " Apa dosa statistik umum? ". Salah satu dosa yang disebutkan adalah dengan asumsi bahwa tautan "korelasi menyiratkan hubungan sebab akibat ..." Kemudian, dalam komentar dengan 5 upvotes disarankan bahwa: "Google menghasilkan $ 65 miliar setahun tidak peduli dengan perbedaannya." Dengan risiko terlalu …

21 machine-learning causality

4

Apakah pohon keputusan hampir selalu pohon biner?

Hampir setiap contoh pohon keputusan yang saya temui kebetulan merupakan pohon biner. Apakah ini cukup universal? Apakah sebagian besar algoritma standar (C4.5, CART, dll.) Hanya mendukung pohon biner? Dari apa yang saya kumpulkan, CHAID tidak terbatas pada pohon biner, tapi itu sepertinya pengecualian. Perpecahan dua arah diikuti oleh perpecahan dua …

21 machine-learning data-mining cart

2

Validasi Silang (generalisasi kesalahan) setelah pemilihan model

Catatan: Kasing adalah n >> p Saya membaca Elemen Pembelajaran Statistik dan ada berbagai menyebutkan tentang cara "benar" untuk melakukan validasi silang (misalnya halaman 60, halaman 245). Secara khusus, pertanyaan saya adalah bagaimana mengevaluasi model akhir (tanpa set tes terpisah) menggunakan k-fold CV atau bootstrap ketika telah ada pencarian model? …

21 machine-learning model-selection data-mining cross-validation

2

Bagaimana memilih antara algoritma pembelajaran

Saya perlu mengimplementasikan program yang akan mengklasifikasikan catatan ke dalam 2 kategori (benar / salah) berdasarkan beberapa data pelatihan, dan saya bertanya-tanya di algoritma / metodologi mana yang harus saya perhatikan. Tampaknya ada banyak dari mereka untuk dipilih - Jaringan Syaraf Tiruan, Algoritma Genetika, Pembelajaran Mesin, Optimasi Bayesian dll. Dll., …

21 machine-learning bayesian optimization genetic-algorithms

1

Haruskah saya membuat keputusan berdasarkan langkah-langkah evaluasi mikro-rata-rata atau rata-rata makro?

Saya menjalankan validasi silang 10 kali lipat pada algoritma klasifikasi biner yang berbeda, dengan dataset yang sama, dan menerima hasil rata-rata Mikro dan Makro. Harus disebutkan bahwa ini adalah masalah klasifikasi multi-label. Dalam kasus saya, negatif sejati dan positif sejati juga diberi bobot yang sama. Itu berarti memprediksi dengan benar …

21 machine-learning cross-validation

1

Fungsi apa yang bisa menjadi kernel?

Dalam konteks pembelajaran mesin dan pengenalan pola, ada konsep yang disebut Kernel Trick . Menghadapi masalah di mana saya diminta untuk menentukan apakah suatu fungsi bisa menjadi fungsi kernel atau tidak, apa sebenarnya yang harus dilakukan? Haruskah saya periksa dulu apakah mereka dalam bentuk tiga atau empat fungsi kernel seperti …

21 machine-learning kernel-trick

3

Kehilangan pelatihan meningkat seiring waktu [duplikat]

Pertanyaan ini sudah memiliki jawaban di sini : Bagaimana perubahan fungsi biaya menjadi positif? (1 jawaban) Apa yang harus saya lakukan ketika jaringan saraf saya tidak belajar? (5 jawaban) Ditutup bulan lalu . Saya melatih model (Recurrent Neural Network) untuk mengklasifikasikan 4 jenis urutan. Ketika saya menjalankan pelatihan saya, saya …

21 machine-learning neural-networks loss-functions rnn training-error

1

Perbedaan antara model Hidden Markov dan Particle Filter (dan Kalman Filter)

Ini pertanyaan lama saya Saya ingin bertanya apakah seseorang mengetahui perbedaan (jika ada perbedaan) antara model Hidden Markov (HMM) dan Particle Filter (PF), dan sebagai konsekuensinya, Kalman Filter, atau dalam kondisi apa kami menggunakan algoritma mana. Saya seorang siswa dan saya harus melakukan proyek, tetapi pertama-tama saya harus memahami beberapa …

21 machine-learning self-study hidden-markov-model kalman-filter particle-filter

4

Bagaimana cara mengetahui apakah data dapat dipisahkan secara linear?

Data memiliki banyak fitur (mis. 100) dan jumlah instance adalah 100.000. Data jarang. Saya ingin mencocokkan data menggunakan regresi logistik atau svm. Bagaimana saya tahu apakah fitur linear atau non-linear sehingga saya bisa menggunakan trik kernel jika non-linear?

21 machine-learning logistic svm data-mining

2

Apa manfaat menggunakan ReLU dibandingkan softplus sebagai fungsi aktivasi?

Sering disebutkan bahwa unit linear yang diperbaiki (ReLU) telah menggantikan unit softplus karena mereka linier dan lebih cepat untuk dikomputasi. Apakah softplus itu masih memiliki keuntungan menginduksi sparsity atau apakah itu terbatas pada ReLU? Alasan saya bertanya adalah saya bertanya-tanya tentang konsekuensi negatif dari kemiringan nol ReLU. Bukankah properti ini …

21 machine-learning neural-networks

Pertanyaan yang diberi tag «machine-learning»