Ilmu Data

5

Bagaimana cara menggambar diagram arsitektur jaringan pembelajaran yang mendalam?

Saya telah membangun model saya. Sekarang saya ingin menggambar diagram arsitektur jaringan untuk makalah penelitian saya. Contoh ditunjukkan di bawah ini:

78 machine-learning neural-network deep-learning svm software-recommendation

11

SVM menggunakan scikit belajar berjalan tanpa henti dan tidak pernah menyelesaikan eksekusi

Saya mencoba menjalankan SVR menggunakan scikit belajar (python) pada dataset pelatihan yang memiliki 595605 baris dan 5 kolom (fitur) dan dataset uji memiliki 397070 baris. Data telah pra-diproses dan diatur. Saya berhasil menjalankan contoh pengujian tetapi saat mengeksekusi menggunakan dataset saya dan membiarkannya berjalan selama lebih dari satu jam, saya …

76 python svm scikit-learn

5

Mengapa fungsi biaya menggunakan kesalahan kuadrat?

Saya baru memulai dengan beberapa pembelajaran mesin, dan sampai sekarang saya telah berurusan dengan regresi linier atas satu variabel. Saya telah belajar bahwa ada hipotesis, yaitu: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x Untuk mengetahui nilai yang baik untuk parameter dan kami ingin meminimalkan perbedaan antara hasil yang dihitung dan hasil aktual dari data pengujian kami. …

73 machine-learning linear-regression loss-function

1

Perbedaan antara isna () dan isnull () dalam panda

Saya telah menggunakan panda untuk beberapa waktu. Tapi, saya tidak mengerti apa perbedaan antara isna()dan isnull()dalam panda. Dan, yang lebih penting, yang mana yang akan digunakan untuk mengidentifikasi nilai yang hilang dalam kerangka data. Apa perbedaan mendasar yang mendasari bagaimana suatu nilai terdeteksi sebagai salah satu naatau null?

73 python pandas dataframe

11

Mengapa orang lebih suka Pandas daripada SQL?

Saya sudah menggunakan SQL sejak 1996, jadi saya mungkin bias. Saya telah menggunakan MySQL dan SQLite 3 secara ekstensif, tetapi juga menggunakan Microsoft SQL Server dan Oracle. Sebagian besar operasi yang saya lihat dilakukan dengan Panda dapat dilakukan dengan lebih mudah dengan SQL. Ini termasuk memfilter dataset, memilih kolom tertentu …

69 pandas sql

8

Kapan saya harus menggunakan Pengotoran Gini yang bertentangan dengan Penguatan Informasi?

Dapatkah seseorang secara praktis menjelaskan alasan di balik ketidakmurnian Gini vs Informasi (berdasarkan Entropy)? Metrik mana yang lebih baik untuk digunakan dalam skenario yang berbeda saat menggunakan pohon keputusan?

66 machine-learning decision-trees

8

Ilmuwan data vs insinyur pembelajaran mesin

Apa perbedaan, jika ada, antara "ilmuwan data" dan "insinyur pembelajaran mesin"? Selama setahun terakhir atau lebih "insinyur pembelajaran mesin" telah mulai muncul banyak dalam posting pekerjaan. Ini terutama terlihat di San Francisco, yang bisa dibilang dari mana istilah "ilmuwan data" berasal. Pada satu titik "ilmuwan data" menyalip "ahli statistik", dan …

66 machine-learning

5

Prediksi deret waktu menggunakan ARIMA vs LSTM

Masalah yang saya hadapi adalah memprediksi nilai deret waktu. Saya melihat satu seri waktu pada satu waktu dan berdasarkan misalnya 15% dari data input, saya ingin memprediksi nilai-nilai masa depannya. Sejauh ini saya telah menemukan dua model: LSTM (memori jangka pendek; kelas jaringan saraf berulang) ARIMA Saya sudah mencoba keduanya …

64 time-series deep-learning rnn prediction

3

Keuntungan dari AUC vs akurasi standar

Saya mulai melihat ke area di bawah kurva (AUC) dan saya sedikit bingung tentang kegunaannya. Ketika pertama kali menjelaskan kepada saya, AUC tampaknya menjadi ukuran kinerja yang hebat tetapi dalam penelitian saya, saya telah menemukan bahwa beberapa mengklaim keunggulannya sebagian besar marjinal karena yang terbaik untuk menangkap model 'beruntung' dengan …

64 machine-learning accuracy

6

string sebagai fitur di pohon keputusan / hutan acak

Saya melakukan beberapa masalah pada aplikasi pohon keputusan / hutan acak. Saya mencoba menyesuaikan masalah yang memiliki angka dan juga string (seperti nama negara) sebagai fitur. Sekarang perpustakaan, scikit-learn hanya mengambil angka sebagai parameter, tapi saya ingin menyuntikkan string dan mereka membawa banyak pengetahuan. Bagaimana saya menangani skenario seperti itu? …

64 machine-learning python scikit-learn random-forest decision-trees

1

Bagaimana cara mendapatkan korelasi antara dua variabel kategori dan variabel kategori dan variabel kontinu?

Saya sedang membangun model regresi dan saya perlu menghitung di bawah ini untuk memeriksa korelasi Korelasi antara 2 variabel kategori multi level Korelasi antara variabel kategori Multi level dan variabel kontinu VIF (variance inflation factor) untuk variabel kategori multi level Saya percaya salah menggunakan koefisien korelasi Pearson untuk skenario di …

63 r statistics correlation

2

Melatih RNN dengan contoh dengan panjang berbeda di Keras

Saya mencoba untuk mulai belajar tentang RNNs dan saya menggunakan Keras. Saya memahami premis dasar lapisan vanilla RNN dan LSTM, tetapi saya mengalami kesulitan memahami poin teknis tertentu untuk pelatihan. Dalam dokumentasi keras , dikatakan input ke layer RNN harus berbentuk (batch_size, timesteps, input_dim). Ini menunjukkan bahwa semua contoh pelatihan …

63 python keras rnn training

3

Backprop Melalui Lapisan Max-Pooling?

Ini adalah pertanyaan konseptual kecil yang telah mengganggu saya untuk sementara waktu: Bagaimana kita dapat kembali-menyebar melalui lapisan max-pooling dalam jaringan saraf? Saya menemukan max-pooling layers saat membaca tutorial ini untuk library nn Torch 7. Pustaka mengabstraksi perhitungan gradien dan meneruskan untuk setiap lapisan jaringan yang dalam. Saya tidak mengerti …

62 neural-network backpropagation

8

Deteksi Anomali sumber terbuka dengan Python

Latar Belakang Masalah: Saya sedang mengerjakan proyek yang melibatkan file log mirip dengan yang ditemukan di ruang pemantauan TI (untuk pemahaman terbaik saya tentang ruang TI). File log ini adalah data deret waktu, disusun dalam ratusan / ribuan baris berbagai parameter. Setiap parameter bersifat numerik (float) dan ada nilai non-sepele …

61 machine-learning python data-mining anomaly-detection library

9

Train / Test / Validasi Set Memisahkan di Sklearn

Bagaimana saya bisa membagi secara acak sebuah matriks data dan vektor label yang sesuai menjadi X_train, X_test, X_val, y_train, y_test, y_val dengan Sklearn? Sejauh yang saya tahu, sklearn.cross_validation.train_test_splithanya mampu membelah menjadi dua, bukan dalam tiga ...

59 machine-learning scikit-learn