Ilmu Data

4

Apakah ada cara mudah untuk menjalankan panda. DataFrame.isin secara paralel?

Saya memiliki program pemodelan dan penilaian yang banyak menggunakan DataFrame.isin fungsi panda, mencari melalui daftar facebook "seperti" catatan pengguna individu untuk masing-masing dari beberapa ribu halaman tertentu. Ini adalah bagian yang paling memakan waktu dari program, lebih dari pemodelan atau penilaian, hanya karena hanya berjalan pada satu inti sedangkan sisanya …

25 performance python pandas parallel

3

Koefisien Gini vs Gini pengotor - pohon keputusan

Masalahnya mengacu pada pembuatan pohon keputusan. Menurut Wikipedia ' koefisien Gini ' tidak boleh disamakan dengan ' pengotor Gini '. Namun kedua ukuran tersebut dapat digunakan saat membangun pohon keputusan - ini dapat mendukung pilihan kita saat membagi set item. 1) 'Pengotor Gini' - ini adalah metrik pemisah pohon keputusan …

25 data-mining

4

Word2Vec untuk Pengakuan Entitas Bernama

Saya mencari untuk menggunakan implementasi word2vec google untuk membangun sistem pengenalan entitas bernama. Saya pernah mendengar bahwa jaring saraf rekursif dengan propagasi balik melalui struktur sangat cocok untuk tugas-tugas pengenalan entitas, tetapi saya tidak dapat menemukan implementasi yang layak atau tutorial yang layak untuk jenis model itu. Karena saya bekerja …

25 machine-learning python neural-network nlp

3

Mengapa kita membutuhkan XGBoost dan Random Forest?

Saya tidak jelas tentang beberapa konsep: XGBoost mengkonversi pembelajar yang lemah menjadi pembelajar yang kuat. Apa keuntungan melakukan ini? Menggabungkan banyak siswa yang lemah dan bukannya hanya menggunakan satu pohon? Hutan Acak menggunakan berbagai sampel dari pohon untuk membuat pohon. Apa keuntungan dari metode ini daripada hanya menggunakan pohon tunggal?

25 machine-learning data-mining random-forest decision-trees xgboost

5

Gambar VM untuk proyek ilmu data

Karena ada banyak alat yang tersedia untuk tugas-tugas ilmu data, dan rumit untuk menginstal semuanya dan membangun sistem yang sempurna. Apakah ada gambar Linux / Mac OS dengan Python, R dan alat sains data open-source lainnya diinstal dan tersedia untuk digunakan orang sekarang juga? Ubuntu atau OS ringan dengan versi …

24 python r tools

4

Scikit-belajar: Mendapatkan SGDClassifier untuk memprediksi serta Regresi Logistik

Cara untuk melatih Regresi Logistik adalah dengan menggunakan keturunan gradien stokastik, yang scikit-belajar menawarkan antarmuka. Apa yang ingin saya lakukan adalah mengambil scikit-belajar ini SGDClassifier dan memilikinya skor yang sama sebagai Regresi Logistik di sini . Namun, saya harus kehilangan beberapa peningkatan pembelajaran mesin, karena skor saya tidak setara. Ini …

24 python logistic-regression scikit-learn gradient-descent

9

Ada konsol R Online?

Saya mencari konsol online untuk bahasa R. Seperti saya menulis kode dan server harus mengeksekusi dan memberi saya output. Mirip dengan situs web Datacamp.

24 r statistics

4

Apakah pakaian acak Forest?

Saya telah membaca tentang Hutan Acak tetapi saya tidak dapat menemukan jawaban pasti tentang masalah overfitting. Menurut kertas asli Breiman, mereka tidak boleh berpakaian berlebihan ketika menambah jumlah pohon di hutan, tetapi tampaknya tidak ada konsensus mengenai hal ini. Ini membuat saya agak bingung tentang masalah ini. Mungkin seseorang yang …

24 machine-learning random-forest

3

Mengapa komunitas NLP dan Pembelajaran Mesin tertarik pada pembelajaran yang mendalam?

Saya harap Anda dapat membantu saya, karena saya memiliki beberapa pertanyaan tentang topik ini. Saya baru di bidang pembelajaran mendalam, dan sementara saya melakukan beberapa tutorial, saya tidak dapat menghubungkan atau membedakan konsep satu sama lain.

24 machine-learning data-mining neural-network nlp deep-learning

3

Praktik terbaik untuk menyimpan model pembelajaran mesin Python

Apa praktik terbaik untuk menyimpan, menyimpan, dan berbagi model pembelajaran mesin? Dalam Python, kita biasanya menyimpan representasi biner dari model, menggunakan acar atau joblib. Model, dalam kasus saya, bisa ~ 100Mo besar. Selain itu, joblib dapat menyimpan satu model ke banyak file kecuali Anda menyetel compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). Tetapi …

24 python databases binary

4

Arti fitur laten?

Saya belajar tentang faktorisasi matriks untuk sistem yang merekomendasikan dan saya melihat istilah yang latent featuresterjadi terlalu sering tetapi saya tidak dapat memahami apa artinya. Saya tahu apa fitur itu tetapi saya tidak mengerti ide fitur laten. Bisakah tolong jelaskan? Atau setidaknya mengarahkan saya ke kertas / tempat di mana …

24 machine-learning data-mining recommender-system

4

Apakah selalu lebih baik menggunakan seluruh dataset untuk melatih model akhir?

Teknik umum setelah pelatihan, memvalidasi dan menguji model Machine Learning preferensi adalah dengan menggunakan dataset lengkap, termasuk subset pengujian, untuk melatih model akhir untuk menyebarkannya , misalnya produk. Pertanyaan saya adalah: Apakah selalu yang terbaik untuk dilakukan? Bagaimana jika kinerja benar-benar memburuk? Sebagai contoh, mari kita asumsikan suatu kasus di …

24 machine-learning dataset training accuracy

3

Apa perbedaan antara Gradient Descent dan Stochastic Gradient Descent?

Apa perbedaan antara Gradient Descent dan Stochastic Gradient Descent? Saya tidak terlalu terbiasa dengan ini, dapatkah Anda menggambarkan perbedaannya dengan contoh singkat?

24 machine-learning neural-network deep-learning gradient-descent

3

Apakah pemodelan dengan Random Forests memerlukan validasi silang?

Sejauh yang saya lihat, pendapat cenderung berbeda tentang ini. Praktik terbaik tentu akan menentukan menggunakan validasi silang (terutama jika membandingkan RF dengan algoritma lain pada dataset yang sama). Di sisi lain, sumber asli menyatakan bahwa fakta kesalahan OOB dihitung selama pelatihan model cukup dari indikator kinerja set tes. Bahkan Trevor …

23 random-forest cross-validation

3

Gagasan Proyek Sains Data [ditutup]

Ditutup . Pertanyaan ini didasarkan pada pendapat . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga dapat dijawab dengan fakta dan kutipan dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Saya tidak tahu apakah ini tempat yang tepat untuk mengajukan pertanyaan ini, tetapi …

23 machine-learning bigdata dataset