Statistik dan Big Data machine-learning

1

Pengawasan jauh: diawasi, semi-diawasi, atau keduanya?

"Pengawasan jauh" adalah skema pembelajaran di mana pengklasifikasi dipelajari dengan perangkat pelatihan yang berlabel lemah (data pelatihan diberi label secara otomatis berdasarkan heuristik / aturan). Saya pikir baik pembelajaran yang diawasi, dan pembelajaran semi-diawasi dapat mencakup "pengawasan yang jauh" jika data yang diberi label secara heuristik / secara otomatis diberi …

20 machine-learning data-mining dataset references unsupervised-learning

1

Diskusi tentang pakaian dalam xgboost

Pengaturan saya adalah sebagai berikut: Saya mengikuti garis pedoman dalam "Pemodelan Prediktif Terapan". Jadi saya telah memfilter fitur-fitur terkait dan berakhir dengan yang berikut: 4900 titik data di set latihan dan 1600 titik data di set tes. Saya memiliki 26 fitur dan targetnya adalah variabel kontinu. Saya menerapkan validasi silang …

20 machine-learning boosting overfitting

1

Bagaimana cara kerja pengambilan sampel negatif di word2vec?

Saya telah berusaha keras untuk memahami konsep pengambilan sampel negatif dalam konteks word2vec. Saya tidak dapat mencerna ide pengambilan sampel [negatif]. Misalnya dalam makalah Mikolov, harapan pengambilan sampel negatif dirumuskan sebagai catatanσ( ⟨ W , c ⟩ ) + k ⋅ EcN∼ P.D[ logσ( - ⟨ w , cN⟩ ) …

19 machine-learning word2vec word-embeddings

3

Apakah tunggul keputusan merupakan model linier?

Decision stump adalah pohon keputusan dengan hanya satu split. Ini juga dapat ditulis sebagai fungsi piecewise. Misalnya, anggap adalah vektor, dan adalah komponen pertama , dalam pengaturan regresi, beberapa tunggul keputusan dapatxxxx1x1x_1xxx f(x)={35x1≤2x1>2f(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} Tetapi apakah ini model linier? …

19 machine-learning cart linear boosting

5

Apa beberapa dataset yang baik untuk mempelajari algoritma pembelajaran mesin dasar dan mengapa?

Saya baru mengenal pembelajaran mesin dan mencari beberapa set data yang melaluinya saya dapat membandingkan dan membedakan perbedaan antara algoritma pembelajaran mesin yang berbeda (Decision Trees, Boosting, SVM, dan Neural Networks) Di mana saya dapat menemukan kumpulan data tersebut? Apa yang harus saya cari saat mempertimbangkan dataset? Akan lebih bagus …

19 machine-learning dataset

2

Boosting: mengapa laju pembelajaran disebut parameter regularisasi?

The tingkat belajar parameter ( ) di Gradient Meningkatkan menyusut kontribusi masing-masing model dasar baru -typically sebuah pohon yang dangkal yang ditambahkan dalam seri. Itu terbukti secara dramatis meningkatkan akurasi set tes, yang dapat dimengerti karena dengan langkah-langkah yang lebih kecil, minimum fungsi kerugian dapat dicapai lebih tepat. ν∈ [ …

19 machine-learning data-mining predictive-models boosting overfitting

2

Bagaimana jaringan saraf berulang dapat digunakan untuk klasifikasi urutan?

RNN dapat digunakan untuk prediksi, atau pemetaan urutan ke urutan. Tetapi bagaimana RNN dapat digunakan untuk klasifikasi? Maksud saya, kami memberikan seluruh label satu urutan.

19 machine-learning neural-networks rnn

2

Apa arti "Regresi Logistik"?

Saya sedang memeriksa implementasi Regresi Logistik dari sini . Setelah saya membaca artikel itu, sepertinya bagian yang penting adalah menemukan koefisien terbaik untuk menentukan fungsi sigmoid. Jadi saya hanya ingin tahu mengapa metode ini disebut "Regresi Logistik". Apakah ini terkait dengan fungsi logaritmik? Mungkin saya perlu info latar belakang sejarah …

19 regression machine-learning logistic

1

Predictive Modeling - Haruskah kita peduli tentang pemodelan campuran?

Untuk pemodelan prediktif, apakah kita perlu memusatkan perhatian pada diri kita dengan konsep statistik seperti efek acak dan tidak independennya pengamatan (tindakan berulang)? Sebagai contoh.... Saya memiliki data dari 5 kampanye pengiriman langsung (terjadi selama setahun) dengan berbagai atribut dan tanda untuk pembelian. Idealnya, saya akan menggunakan semua data ini …

19 machine-learning predictive-models repeated-measures assumptions

6

Programmer ingin masuk ke bidang pembelajaran mesin

Saya seorang pengembang perangkat lunak (kebanyakan. NET dan Python sekitar 5 tahun pengalaman). Apa yang bisa saya lakukan untuk membantu saya mendapatkan pekerjaan di bidang pembelajaran mesin atau benar-benar apa pun yang akan membuat saya memulai di bidang itu? Apakah gelar pascasarjana merupakan persyaratan yang sulit?

19 machine-learning data-mining careers

2

Menghitung batas keputusan model SVM linier

Mengingat vektor dukungan SVM linier, bagaimana saya bisa menghitung persamaan batas keputusan?

19 machine-learning svm

2

Kapan "Tetangga Terdekat" bermakna, hari ini?

Pada tahun 1999, Beyer et al. bertanya, Kapan "Tetangga Terdekat" bermakna? Adakah cara yang lebih baik untuk menganalisis dan memvisualisasikan efek jarak rata pada pencarian NN sejak 1999? Apakah set data yang diberikan memberikan jawaban yang berarti untuk masalah 1-NN? Masalah 10-NN? Masalah 100-NN? Bagaimana Anda para pakar mendekati pertanyaan …

19 machine-learning k-nearest-neighbour

6

Apa ide 'mendasar' pembelajaran mesin untuk memperkirakan parameter?

Gagasan statistik 'mendasar' untuk memperkirakan parameter adalah kemungkinan maksimum . Saya bertanya-tanya apa ide yang sesuai dalam pembelajaran mesin. Qn 1. Apakah adil untuk mengatakan bahwa ide 'mendasar' dalam pembelajaran mesin untuk memperkirakan parameter adalah: 'Kehilangan Fungsi' [Catatan: Adalah kesan saya bahwa algoritma pembelajaran mesin sering mengoptimalkan fungsi kerugian dan …

19 machine-learning maximum-likelihood loss-functions pac-learning

6

Apakah menyetel hyperparameter pada sampel dataset adalah ide yang buruk?

Saya memiliki dataset 140000 contoh dan 30 fitur yang saya latih beberapa pengklasifikasi untuk klasifikasi biner (SVM, Regresi Logistik, Hutan Acak dll) Dalam banyak kasus, penyetelan hyperparameter pada keseluruhan dataset menggunakan pencarian Grid atau Random terlalu memakan waktu. Saya mulai menggunakan teknik berikut Sub sampel dataset saya Gunakan fraksi yang …

19 machine-learning cross-validation hyperparameter

11

Mengapa regresi logistik disebut algoritma pembelajaran mesin?

Jika saya mengerti dengan benar, dalam algoritma pembelajaran mesin, model harus belajar dari pengalamannya, yaitu ketika model memberikan prediksi yang salah untuk kasus-kasus baru, ia harus beradaptasi dengan pengamatan baru, dan seiring waktu, model menjadi semakin lebih baik. . Saya tidak melihat bahwa regresi logistik memiliki karakteristik ini. Jadi mengapa …

19 machine-learning logistic random-forest

Pertanyaan yang diberi tag «machine-learning»