Ilmu Data

3

Apa berat dan bias dalam pembelajaran yang mendalam?

Saya mulai belajar Machine learning dari situs web Tensorflow. Saya telah mengembangkan pemahaman yang sangat mendasar tentang aliran yang diikuti oleh program pembelajaran yang mendalam (metode ini membuat saya belajar lebih cepat daripada membaca buku dan artikel besar). Ada beberapa hal membingungkan yang saya temui, 2 di antaranya adalah: Bias …

16 machine-learning deep-learning tensorflow

5

Overfitting jaringan saraf convolutional. Putus sekolah tidak membantu

Saya bermain sedikit dengan convnets. Secara khusus, saya menggunakan dataset kaggle cats-vs-dogs yang terdiri atas 25000 gambar yang dilabeli sebagai kucing atau anjing (masing-masing 1.200). Saya telah berhasil mencapai akurasi klasifikasi sekitar 85% pada set pengujian saya, namun saya menetapkan tujuan untuk mencapai akurasi 90%. Masalah utama saya adalah overfitting. …

16 neural-network deep-learning convnet image-recognition dropout

2

NLP - Apakah Gazetteer curang?

Di NLP, ada konsep Gazetteeryang bisa sangat berguna untuk membuat anotasi. Sejauh yang saya mengerti: Gazetteer terdiri dari serangkaian daftar yang berisi nama entitas seperti kota, organisasi, hari dalam seminggu, dll. Daftar ini digunakan untuk menemukan kemunculan nama-nama ini dalam teks, misalnya untuk tugas pengenalan entitas yang bernama. Jadi pada …

16 nlp named-entity-recognition

2

Apa jenis masalah pembelajaran yang cocok untuk Mesin Vector Support?

Apa keunggulan atau properti yang menunjukkan bahwa masalah pembelajaran tertentu dapat diatasi dengan menggunakan mesin vektor dukungan? Dengan kata lain, apa itu, ketika Anda melihat masalah belajar, membuat Anda pergi "oh saya pasti harus menggunakan SVM untuk ini '' daripada jaringan saraf atau pohon Keputusan atau apa pun?

16 machine-learning svm supervised-learning unsupervised-learning

3

Bagaimana belajar mandiri ilmu data? [Tutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 tahun yang lalu . Saya seorang pengembang web otodidak dan tertarik untuk mengajar diri saya sendiri ilmu data, …

16 beginner self-study

2

Ekstrak bagian teks yang paling informatif dari dokumen

Apakah ada artikel atau diskusi tentang penggalian bagian teks yang paling banyak menyimpan informasi tentang dokumen saat ini. Misalnya, saya memiliki kumpulan besar dokumen dari domain yang sama. Ada bagian teks yang menyimpan informasi penting yang dibicarakan oleh satu dokumen. Saya ingin mengekstrak beberapa bagian itu dan menggunakannya sebagai ringkasan …

16 nlp text-mining

6

Podcast Sains Data?

Apa sajakah podcast yang terkait dengan ilmu data? Ini adalah pertanyaan yang mirip dengan pertanyaan permintaan referensi di CrossValidated . Detail / aturan: Podcast (tema dan episode) harus terkait dengan ilmu data. (Misalnya: Podcast yang membahas tentang domain lain, dengan episode yang berbicara tentang ilmu data di domain itu, bukan …

16 reference-request

2

Merekomendasikan film dengan fitur tambahan menggunakan pemfilteran kolaboratif

Saya mencoba membangun sistem rekomendasi menggunakan pemfilteran kolaboratif. Saya punya [user, movie, rating]informasi yang biasa . Saya ingin memasukkan fitur tambahan seperti 'bahasa' atau 'durasi film'. Saya tidak yakin teknik apa yang bisa saya gunakan untuk masalah seperti itu. Harap sarankan referensi atau paket dalam python / R.

16 python r recommender-system

4

Pustaka Python untuk regresi tersegmentasi (alias regresi satu demi satu)

Saya mencari pustaka Python yang dapat melakukan regresi tersegmentasi (alias regresi satu demi satu ) . Contoh :

16 python linear-regression library software-recommendation

2

Bagaimana memilih fitur untuk jaringan saraf?

Saya tahu bahwa tidak ada jawaban yang jelas untuk pertanyaan ini, tetapi anggaplah saya memiliki jaringan saraf besar, dengan banyak data dan saya ingin menambahkan fitur baru dalam input. Cara "terbaik" adalah menguji jaringan dengan fitur baru dan melihat hasilnya, tetapi apakah ada metode untuk menguji apakah fitur tersebut SANGAT …

16 machine-learning neural-network feature-selection feature-extraction

3

Penggunaan basis data NoSQL dalam ilmu data

Bagaimana database NoSQL seperti MongoDB dapat digunakan untuk analisis data? Apa sajakah fitur di dalamnya yang dapat membuat analisis data lebih cepat dan kuat?

16 bigdata nosql mongodb

2

Bagaimana cara meningkatkan akurasi pengklasifikasi?

Saya menggunakan contoh OpenCV letter_recog.cpp untuk bereksperimen pada pohon acak dan pengklasifikasi lainnya. Contoh ini memiliki implementasi enam pengklasifikasi - pohon acak, penguat, MLP, kNN, Bayes naif dan SVM. Kumpulan data pengenalan huruf UCI dengan 20.000 instance dan 16 fitur digunakan, yang saya bagi menjadi dua untuk pelatihan dan pengujian. …

16 machine-learning classification svm accuracy random-forest

5

Pilih algoritma klasifikasi biner

Saya memiliki masalah klasifikasi biner: Sekitar 1000 sampel dalam set pelatihan 10 atribut, termasuk biner, numerik, dan kategorikal Algoritma mana yang merupakan pilihan terbaik untuk masalah jenis ini? Secara default saya akan mulai dengan SVM (pendahuluan memiliki nilai atribut nominal yang dikonversi ke fitur biner), karena dianggap yang terbaik untuk …

16 classification binary svm random-forest logistic-regression

3

Klasifikasi diskriminatif Satu Kelas dengan latar belakang Negatif heterogen dan tidak seimbang?

Saya sedang bekerja untuk meningkatkan classifier yang diawasi yang ada, untuk mengklasifikasikan urutan {protein} milik kelas tertentu (Neuropeptide hormone precursors), atau tidak. Ada sekitar 1.150 "positif" yang diketahui, dengan latar belakang sekitar 13 juta sekuens protein ("Tidak diketahui / latar belakang beranotasi buruk"), atau sekitar 100.000 protein relevan yang ditinjau, …

16 machine-learning data-mining python classification

6

Apa alasan di balik pengambilan transformasi log dari beberapa variabel kontinu?

Saya telah melakukan masalah klasifikasi dan saya telah membaca banyak kode orang dan tutorial. Satu hal yang saya perhatikan adalah banyak orang menggunakan np.logatau logvariabel kontinu seperti loan_amountatauapplicant_income dll Saya hanya ingin memahami alasan di baliknya. Apakah ini membantu meningkatkan akurasi prediksi model kami. Apakah ini wajib? atau apakah ada …

16 machine-learning python classification scikit-learn