Ilmu Data

2

Apakah Support Vector Machines masih dianggap "canggih" di ceruk pasar mereka?

Pertanyaan ini sebagai tanggapan atas komentar yang saya lihat pada pertanyaan lain. Komentar tersebut mengenai silabus kursus Pembelajaran Mesin di Coursera, dan di sepanjang baris "SVM tidak banyak digunakan saat ini". Saya sendiri baru saja menyelesaikan kuliah yang relevan, dan pemahaman saya tentang SVM adalah bahwa mereka adalah algoritma pembelajaran …

58 data-mining svm state-of-the-art

11

Apa itu pengurangan dimensi? Apa perbedaan antara pemilihan fitur dan ekstraksi?

Dari wikipedia, pengurangan dimensi atau pengurangan dimensi adalah proses mengurangi jumlah variabel acak yang sedang dipertimbangkan, dan dapat dibagi menjadi pemilihan fitur dan ekstraksi fitur. Apa perbedaan antara pemilihan fitur dan ekstraksi fitur? Apa contoh pengurangan dimensi dalam tugas Pemrosesan Bahasa Alami?

58 feature-selection feature-extraction dimensionality-reduction

5

Kapan Model Underfitted?

Logika sering menyatakan bahwa dengan underfitting model, kapasitasnya untuk menggeneralisasi meningkat. Yang mengatakan, jelas di beberapa titik model underfitting menyebabkan model menjadi lebih buruk terlepas dari kompleksitas data. Bagaimana Anda tahu kapan model Anda telah mencapai keseimbangan yang tepat dan tidak kekurangan data yang ingin dimodelkan? Catatan: Ini adalah tindak …

56 efficiency algorithms parameter

4

Bagaimana konvolusi 1x1 sama dengan lapisan yang terhubung penuh?

Saya baru-baru ini membaca komentar Yan LeCuns pada konvolusi 1x1 : Dalam Jaring Konvolusional, tidak ada yang namanya "lapisan yang sepenuhnya terhubung". Hanya ada lapisan konvolusi dengan kernel konvolusi 1x1 dan tabel koneksi penuh. Ini fakta yang terlalu jarang dipahami sehingga ConvNets tidak perlu memiliki input ukuran tetap. Anda dapat …

55 neural-network convnet

3

RNN vs CNN di tingkat tinggi

Saya sudah memikirkan Recurrent Neural Networks (RNN) dan varietas mereka dan Convolutional Neural Networks (CNN) dan varietas mereka. Apakah kedua poin ini adil untuk dikatakan: Gunakan CNN untuk memecah komponen (seperti gambar) menjadi subkomponen (seperti objek dalam gambar, seperti garis besar objek dalam gambar, dll.) Gunakan RNN untuk membuat kombinasi …

53 machine-learning neural-network beginner

8

Mengapa perusahaan internet lebih memilih Java / Python untuk pekerjaan ilmuwan data?

Saya melihat berkali-kali dalam deskripsi pekerjaan untuk ilmuwan data yang meminta pengalaman Python / Java dan mengabaikan R. Di bawah ini adalah email pribadi yang saya terima dari ilmuwan data kepala perusahaan yang saya lamar melalui linkedin. X, Terima kasih telah menghubungkan dan mengekspresikan minat. Anda memiliki Keterampilan Analisis yang …

53 beginner tools career reference-request

2

Kapan menggunakan (He atau Glorot) inisialisasi normal di atas seragam init? Dan apa efeknya dengan Normalisasi Batch?

Saya tahu bahwa Residual Network (ResNet) membuatnya inisialisasi normal menjadi populer. Dalam ResNet, inisialisasi normal He digunakan , sedangkan lapisan pertama menggunakan inisialisasi seragam He. Saya telah melihat melalui kertas ResNet dan kertas "Delving Deep into Rectifiers" (Dia menginisialisasi kertas), tetapi saya belum menemukan penyebutan pada init normal vs seragam …

51 neural-network deep-learning normalization

8

Mengelompokkan koordinat lokasi geografis (lat, pasangan panjang)

Apa pendekatan yang tepat dan algoritma pengelompokan untuk pengelompokan geolokasi? Saya menggunakan kode berikut untuk mengelompokkan koordinat geolokasi: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], …

51 machine-learning python clustering k-means geospatial

9

Alat dan protokol untuk ilmu data yang dapat direproduksi menggunakan Python

Saya sedang mengerjakan proyek ilmu data menggunakan Python. Proyek ini memiliki beberapa tahap. Setiap tahap terdiri dari pengambilan set data, menggunakan skrip Python, data tambahan, konfigurasi dan parameter, dan membuat set data lain. Saya menyimpan kode di git, sehingga bagian itu tertutup. Saya ingin mendengar tentang: Alat untuk kontrol versi …

50 python tools version-control

3

Cara melawan kekurangan dalam jaring saraf yang dalam

Ketika saya mulai dengan jaringan saraf tiruan (NN) saya pikir saya harus berjuang overfitting sebagai masalah utama. Tetapi dalam prakteknya saya bahkan tidak bisa mendapatkan NN saya untuk melewati penghalang tingkat kesalahan 20%. Saya bahkan tidak bisa mengalahkan skor saya di hutan acak! Saya mencari saran yang sangat umum atau …

50 neural-network deep-learning

4

Alokasi Dirichlet Laten vs Proses Dirichlet Hierarkis

Alokasi Dirichlet Laten (LDA) dan Proses Hirarki Dirichlet (HDP) keduanya merupakan proses pemodelan topik. Perbedaan utama adalah LDA membutuhkan spesifikasi jumlah topik, dan HDP tidak. Kenapa begitu? Dan apa perbedaan, pro, dan kontra dari kedua metode pemodelan topik?

49 nlp topic-model lda

8

Mengapa Overfitting Bad dalam Pembelajaran Mesin?

Logika sering menyatakan bahwa dengan overfitting suatu model, kapasitasnya untuk menggeneralisasi terbatas, meskipun ini hanya berarti bahwa overfitting menghentikan suatu model dari peningkatan setelah kompleksitas tertentu. Apakah overfitting menyebabkan model menjadi lebih buruk terlepas dari kerumitan data, dan jika demikian, mengapa demikian? Terkait: Tindak lanjuti pertanyaan di atas, " Kapankah …

49 machine-learning predictive-modeling

4

Jaringan saraf: fungsi biaya manakah yang digunakan?

Saya menggunakan TensorFlow untuk eksperimen terutama dengan jaringan saraf. Meskipun saya telah melakukan beberapa percobaan (XOR-Problem, MNIST, beberapa hal Regresi, ...) sekarang, saya berjuang dengan memilih fungsi biaya "yang benar" untuk masalah tertentu karena secara keseluruhan saya dapat dianggap sebagai pemula. Sebelum datang ke TensorFlow saya mengkodekan beberapa MLP yang …

49 machine-learning python neural-network statistics tensorflow

9

Apakah ada domain di mana Bayesian Networks mengungguli jaringan saraf?

Jaringan saraf mendapatkan hasil teratas dalam tugas-tugas Penglihatan Komputer (lihat MNIST , ILSVRC , Kaggle Galaxy Challenge ). Mereka tampaknya mengungguli setiap pendekatan lain dalam Computer Vision. Tetapi ada juga tugas-tugas lain: Tantangan Kegiatan Molekululer Kaggle Regresi: Prediksi Kaggle Rain , juga peringkat ke - 2 Pegang dan Angkat ke-2 …

48 machine-learning pgm

9

Apakah bahasa R cocok untuk Big Data

R memiliki banyak perpustakaan yang ditujukan untuk Analisis Data (misalnya JAGS, BUGS, ARULES dll.), Dan disebutkan dalam buku teks populer seperti: J.Krusche, Melakukan Analisis Data Bayesian; B.Lantz, "Pembelajaran Mesin dengan R". Saya telah melihat pedoman 5TB untuk dataset yang dianggap sebagai Big Data. Pertanyaan saya adalah: Apakah R cocok untuk …

48 bigdata r