Ilmu Data

T&J untuk profesional sains Data, spesialis Pembelajaran Mesin, dan mereka yang tertarik untuk belajar lebih banyak tentang bidang ini


9
Cara menangani kontrol versi data (biner) dalam jumlah besar
Saya seorang mahasiswa PhD Geofisika dan bekerja dengan sejumlah besar data gambar (ratusan GB, puluhan ribu file). Saya tahu svndan gitcukup baik dan datang untuk menghargai sejarah proyek, dikombinasikan dengan kemampuan untuk mudah bekerja sama dan memiliki perlindungan terhadap kerusakan disk. Saya menemukan gitjuga sangat membantu untuk memiliki cadangan yang …



9
Berapa banyak dari pertengkaran data adalah pekerjaan ilmuwan data?
Saat ini saya bekerja sebagai ilmuwan data di perusahaan ritel (pekerjaan pertama saya sebagai DS, jadi pertanyaan ini mungkin merupakan hasil dari kurangnya pengalaman saya). Mereka memiliki tumpukan besar proyek-proyek sains data yang sangat penting yang akan memiliki dampak positif yang besar jika diterapkan. Tapi. Jalur pipa data tidak ada …

3
Jumlah parameter dalam model LSTM
Berapa banyak parameter yang dimiliki oleh satu LSTM bertumpuk? Jumlah parameter memaksakan batas bawah pada jumlah contoh pelatihan yang diperlukan dan juga mempengaruhi waktu pelatihan. Karenanya mengetahui jumlah parameter berguna untuk model pelatihan menggunakan LSTM.


6
Bagaimana saya bisa mengubah nama dalam set data rahasia untuk membuatnya anonim, tetapi mempertahankan beberapa karakteristik nama?
Motivasi Saya bekerja dengan kumpulan data yang berisi informasi pengenal pribadi (PII) dan kadang-kadang perlu berbagi bagian dari dataset dengan pihak ketiga, dengan cara yang tidak mengekspos PII dan membuat majikan saya bertanggung jawab. Pendekatan kami yang biasa di sini adalah menahan data sepenuhnya, atau dalam beberapa kasus mengurangi resolusinya; …

1
Apa perbedaan antara LeakyReLU dan PReLU?
f( x ) = maks ( x , α x ) dengan α ∈ ( 0 , 1 )f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras, bagaimanapun, memiliki kedua fungsi dalam dokumen . LeLU ReLU Sumber LeakyReLU : return K.relu(inputs, alpha=self.alpha) Karenanya …

9
ValueError: Input berisi NaN, infinity atau nilai yang terlalu besar untuk dtype ('float32')
Saya mendapat ValueError saat memprediksi data uji menggunakan model RandomForest. Kode saya: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Kesalahan: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Bagaimana cara menemukan nilai buruk dalam dataset uji? Juga, saya …


6
Kesamaan cosinus versus produk titik sebagai metrik jarak
Sepertinya kesamaan cosinus dari dua fitur hanyalah produk titik mereka diskalakan oleh produk besarnya mereka. Kapan kesamaan cosinus membuat metrik jarak yang lebih baik daripada produk titik? Apakah produk titik dan persamaan cosinus memiliki kekuatan atau kelemahan yang berbeda dalam situasi yang berbeda?


10
Mengapa model Machine Learning disebut kotak hitam?
Saya sedang membaca posting blog ini berjudul: Dunia Keuangan Ingin Membuka Kotak Hitam AI , di mana penulis berulang kali menyebut model ML sebagai "kotak hitam". Terminologi serupa telah digunakan di beberapa tempat ketika merujuk pada model ML. Kenapa gitu? Ini tidak seperti insinyur ML tidak tahu apa yang terjadi …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.