Ilmu Data

T&J untuk profesional sains Data, spesialis Pembelajaran Mesin, dan mereka yang tertarik untuk belajar lebih banyak tentang bidang ini

4
Apakah ada cara mudah untuk menjalankan panda. DataFrame.isin secara paralel?
Saya memiliki program pemodelan dan penilaian yang banyak menggunakan DataFrame.isin fungsi panda, mencari melalui daftar facebook "seperti" catatan pengguna individu untuk masing-masing dari beberapa ribu halaman tertentu. Ini adalah bagian yang paling memakan waktu dari program, lebih dari pemodelan atau penilaian, hanya karena hanya berjalan pada satu inti sedangkan sisanya …

3
Koefisien Gini vs Gini pengotor - pohon keputusan
Masalahnya mengacu pada pembuatan pohon keputusan. Menurut Wikipedia ' koefisien Gini ' tidak boleh disamakan dengan ' pengotor Gini '. Namun kedua ukuran tersebut dapat digunakan saat membangun pohon keputusan - ini dapat mendukung pilihan kita saat membagi set item. 1) 'Pengotor Gini' - ini adalah metrik pemisah pohon keputusan …

4
Word2Vec untuk Pengakuan Entitas Bernama
Saya mencari untuk menggunakan implementasi word2vec google untuk membangun sistem pengenalan entitas bernama. Saya pernah mendengar bahwa jaring saraf rekursif dengan propagasi balik melalui struktur sangat cocok untuk tugas-tugas pengenalan entitas, tetapi saya tidak dapat menemukan implementasi yang layak atau tutorial yang layak untuk jenis model itu. Karena saya bekerja …

3
Mengapa kita membutuhkan XGBoost dan Random Forest?
Saya tidak jelas tentang beberapa konsep: XGBoost mengkonversi pembelajar yang lemah menjadi pembelajar yang kuat. Apa keuntungan melakukan ini? Menggabungkan banyak siswa yang lemah dan bukannya hanya menggunakan satu pohon? Hutan Acak menggunakan berbagai sampel dari pohon untuk membuat pohon. Apa keuntungan dari metode ini daripada hanya menggunakan pohon tunggal?

5
Gambar VM untuk proyek ilmu data
Karena ada banyak alat yang tersedia untuk tugas-tugas ilmu data, dan rumit untuk menginstal semuanya dan membangun sistem yang sempurna. Apakah ada gambar Linux / Mac OS dengan Python, R dan alat sains data open-source lainnya diinstal dan tersedia untuk digunakan orang sekarang juga? Ubuntu atau OS ringan dengan versi …
24 python  r  tools 

4
Scikit-belajar: Mendapatkan SGDClassifier untuk memprediksi serta Regresi Logistik
Cara untuk melatih Regresi Logistik adalah dengan menggunakan keturunan gradien stokastik, yang scikit-belajar menawarkan antarmuka. Apa yang ingin saya lakukan adalah mengambil scikit-belajar ini SGDClassifier dan memilikinya skor yang sama sebagai Regresi Logistik di sini . Namun, saya harus kehilangan beberapa peningkatan pembelajaran mesin, karena skor saya tidak setara. Ini …

9
Ada konsol R Online?
Saya mencari konsol online untuk bahasa R. Seperti saya menulis kode dan server harus mengeksekusi dan memberi saya output. Mirip dengan situs web Datacamp.
24 r  statistics 

4
Apakah pakaian acak Forest?
Saya telah membaca tentang Hutan Acak tetapi saya tidak dapat menemukan jawaban pasti tentang masalah overfitting. Menurut kertas asli Breiman, mereka tidak boleh berpakaian berlebihan ketika menambah jumlah pohon di hutan, tetapi tampaknya tidak ada konsensus mengenai hal ini. Ini membuat saya agak bingung tentang masalah ini. Mungkin seseorang yang …


3
Praktik terbaik untuk menyimpan model pembelajaran mesin Python
Apa praktik terbaik untuk menyimpan, menyimpan, dan berbagi model pembelajaran mesin? Dalam Python, kita biasanya menyimpan representasi biner dari model, menggunakan acar atau joblib. Model, dalam kasus saya, bisa ~ 100Mo besar. Selain itu, joblib dapat menyimpan satu model ke banyak file kecuali Anda menyetel compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). Tetapi …

4
Arti fitur laten?
Saya belajar tentang faktorisasi matriks untuk sistem yang merekomendasikan dan saya melihat istilah yang latent featuresterjadi terlalu sering tetapi saya tidak dapat memahami apa artinya. Saya tahu apa fitur itu tetapi saya tidak mengerti ide fitur laten. Bisakah tolong jelaskan? Atau setidaknya mengarahkan saya ke kertas / tempat di mana …

4
Apakah selalu lebih baik menggunakan seluruh dataset untuk melatih model akhir?
Teknik umum setelah pelatihan, memvalidasi dan menguji model Machine Learning preferensi adalah dengan menggunakan dataset lengkap, termasuk subset pengujian, untuk melatih model akhir untuk menyebarkannya , misalnya produk. Pertanyaan saya adalah: Apakah selalu yang terbaik untuk dilakukan? Bagaimana jika kinerja benar-benar memburuk? Sebagai contoh, mari kita asumsikan suatu kasus di …



3
Gagasan Proyek Sains Data [ditutup]
Ditutup . Pertanyaan ini didasarkan pada pendapat . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga dapat dijawab dengan fakta dan kutipan dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Saya tidak tahu apakah ini tempat yang tepat untuk mengajukan pertanyaan ini, tetapi …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.