Ilmu Data

T&J untuk profesional sains Data, spesialis Pembelajaran Mesin, dan mereka yang tertarik untuk belajar lebih banyak tentang bidang ini

3
Apa berat dan bias dalam pembelajaran yang mendalam?
Saya mulai belajar Machine learning dari situs web Tensorflow. Saya telah mengembangkan pemahaman yang sangat mendasar tentang aliran yang diikuti oleh program pembelajaran yang mendalam (metode ini membuat saya belajar lebih cepat daripada membaca buku dan artikel besar). Ada beberapa hal membingungkan yang saya temui, 2 di antaranya adalah: Bias …

5
Overfitting jaringan saraf convolutional. Putus sekolah tidak membantu
Saya bermain sedikit dengan convnets. Secara khusus, saya menggunakan dataset kaggle cats-vs-dogs yang terdiri atas 25000 gambar yang dilabeli sebagai kucing atau anjing (masing-masing 1.200). Saya telah berhasil mencapai akurasi klasifikasi sekitar 85% pada set pengujian saya, namun saya menetapkan tujuan untuk mencapai akurasi 90%. Masalah utama saya adalah overfitting. …

2
NLP - Apakah Gazetteer curang?
Di NLP, ada konsep Gazetteeryang bisa sangat berguna untuk membuat anotasi. Sejauh yang saya mengerti: Gazetteer terdiri dari serangkaian daftar yang berisi nama entitas seperti kota, organisasi, hari dalam seminggu, dll. Daftar ini digunakan untuk menemukan kemunculan nama-nama ini dalam teks, misalnya untuk tugas pengenalan entitas yang bernama. Jadi pada …


3
Bagaimana belajar mandiri ilmu data? [Tutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 tahun yang lalu . Saya seorang pengembang web otodidak dan tertarik untuk mengajar diri saya sendiri ilmu data, …

2
Ekstrak bagian teks yang paling informatif dari dokumen
Apakah ada artikel atau diskusi tentang penggalian bagian teks yang paling banyak menyimpan informasi tentang dokumen saat ini. Misalnya, saya memiliki kumpulan besar dokumen dari domain yang sama. Ada bagian teks yang menyimpan informasi penting yang dibicarakan oleh satu dokumen. Saya ingin mengekstrak beberapa bagian itu dan menggunakannya sebagai ringkasan …
16 nlp  text-mining 

6
Podcast Sains Data?
Apa sajakah podcast yang terkait dengan ilmu data? Ini adalah pertanyaan yang mirip dengan pertanyaan permintaan referensi di CrossValidated . Detail / aturan: Podcast (tema dan episode) harus terkait dengan ilmu data. (Misalnya: Podcast yang membahas tentang domain lain, dengan episode yang berbicara tentang ilmu data di domain itu, bukan …






5
Pilih algoritma klasifikasi biner
Saya memiliki masalah klasifikasi biner: Sekitar 1000 sampel dalam set pelatihan 10 atribut, termasuk biner, numerik, dan kategorikal Algoritma mana yang merupakan pilihan terbaik untuk masalah jenis ini? Secara default saya akan mulai dengan SVM (pendahuluan memiliki nilai atribut nominal yang dikonversi ke fitur biner), karena dianggap yang terbaik untuk …

3
Klasifikasi diskriminatif Satu Kelas dengan latar belakang Negatif heterogen dan tidak seimbang?
Saya sedang bekerja untuk meningkatkan classifier yang diawasi yang ada, untuk mengklasifikasikan urutan {protein} milik kelas tertentu (Neuropeptide hormone precursors), atau tidak. Ada sekitar 1.150 "positif" yang diketahui, dengan latar belakang sekitar 13 juta sekuens protein ("Tidak diketahui / latar belakang beranotasi buruk"), atau sekitar 100.000 protein relevan yang ditinjau, …

6
Apa alasan di balik pengambilan transformasi log dari beberapa variabel kontinu?
Saya telah melakukan masalah klasifikasi dan saya telah membaca banyak kode orang dan tutorial. Satu hal yang saya perhatikan adalah banyak orang menggunakan np.logatau logvariabel kontinu seperti loan_amountatauapplicant_income dll Saya hanya ingin memahami alasan di baliknya. Apakah ini membantu meningkatkan akurasi prediksi model kami. Apakah ini wajib? atau apakah ada …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.