Ilmu Data

T&J untuk profesional sains Data, spesialis Pembelajaran Mesin, dan mereka yang tertarik untuk belajar lebih banyak tentang bidang ini


4
Apakah perlu untuk membakukan data Anda sebelum pengelompokan?
Apakah perlu untuk membakukan data Anda sebelum cluster? Dalam contoh dari scikit learntentang DBSCAN, di sini mereka melakukan ini di baris: X = StandardScaler().fit_transform(X) Tapi saya tidak mengerti mengapa itu perlu. Bagaimanapun, pengelompokan tidak mengasumsikan distribusi data tertentu - itu adalah metode pembelajaran yang tidak diawasi sehingga tujuannya adalah untuk …

3
K-berarti perilaku tidak koheren memilih K dengan metode Siku, BIC, varians dijelaskan dan siluet
Saya mencoba mengelompokkan beberapa vektor dengan 90 fitur dengan K-means. Karena algoritma ini menanyakan jumlah cluster, saya ingin memvalidasi pilihan saya dengan beberapa matematika yang bagus. Saya berharap memiliki 8 hingga 10 cluster. Fitur-fiturnya adalah skala Z-skor. Metode dan varians siku dijelaskan from scipy.spatial.distance import cdist, pdist from sklearn.cluster import …





2
Bagaimana cara menggunakan output dari GridSearch?
Saat ini saya sedang bekerja dengan Python dan Scikit belajar untuk keperluan klasifikasi, dan melakukan beberapa pembacaan di sekitar GridSearch. Saya pikir ini adalah cara yang bagus untuk mengoptimalkan parameter estimator saya untuk mendapatkan hasil terbaik. Metodologi saya adalah ini: Bagi data saya menjadi pelatihan / tes. Gunakan GridSearch dengan …



3
Transformasi Fitur pada Input data
Saya sedang membaca tentang solusi untuk tantangan OTTO Kaggle ini dan solusi tempat pertama tampaknya menggunakan beberapa transformasi untuk input data X, misalnya Log (X + 1), sqrt (X + 3/8), dll. Apakah ada pedoman umum tentang kapan menerapkan transformasi jenis apa ke berbagai pengklasifikasi? Saya mengerti konsep normalisasi mean-var …

6
Berbagi buku catatan Jupyter dalam sebuah tim
Saya ingin membuat server yang dapat mendukung tim ilmu data dengan cara berikut: menjadi titik pusat untuk menyimpan, versi, berbagi, dan mungkin juga menjalankan notebook Jupyter. Beberapa properti yang diinginkan: Pengguna yang berbeda dapat mengakses server dan membuka dan menjalankan buku catatan yang disimpan oleh mereka atau oleh anggota tim …

5
Menghitung KL Divergence dengan Python
Saya agak baru dalam hal ini dan tidak bisa mengatakan saya memiliki pemahaman yang lengkap tentang konsep-konsep teoritis di balik ini. Saya mencoba untuk menghitung KL Divergence antara beberapa daftar poin dengan Python. Saya menggunakan http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html untuk mencoba dan melakukan ini. Masalah yang saya hadapi adalah bahwa nilai yang dikembalikan …


3
Apa input yang lebih baik untuk Word2Vec?
Ini lebih seperti pertanyaan NLP umum. Apa input yang tepat untuk melatih embedding kata yaitu Word2Vec? Haruskah semua kalimat yang dimiliki artikel menjadi dokumen terpisah dalam korpus? Atau haruskah setiap artikel menjadi dokumen dalam kata corpus? Ini hanya contoh menggunakan python dan gensim. Corpus dibagi dengan kalimat: SentenceCorpus = [["first", …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.