Pertanyaan yang diberi tag «data-mining»

Aktivitas yang mencari pola dalam kumpulan data yang besar dan kompleks. Biasanya menekankan teknik algoritmik, tetapi mungkin juga melibatkan serangkaian keterampilan, aplikasi, atau metodologi terkait dengan tujuan itu.

13
K-Means clustering untuk data numerik dan kategorik campuran
Kumpulan data saya berisi sejumlah atribut numerik dan satu kategori. Katakan NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, di mana CategoricalAttrmengambil salah satu dari tiga kemungkinan nilai: CategoricalAttrValue1, CategoricalAttrValue2atau CategoricalAttrValue3. Saya menggunakan implementasi default algoritma k-means clustering untuk Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Ini bekerja dengan data numerik saja. Jadi pertanyaan saya: apakah benar …




1
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?
Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba menumbuhkan 500 pohon karena akan memakan waktu berjam-jam. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 


3
Koefisien Gini vs Gini pengotor - pohon keputusan
Masalahnya mengacu pada pembuatan pohon keputusan. Menurut Wikipedia ' koefisien Gini ' tidak boleh disamakan dengan ' pengotor Gini '. Namun kedua ukuran tersebut dapat digunakan saat membangun pohon keputusan - ini dapat mendukung pilihan kita saat membagi set item. 1) 'Pengotor Gini' - ini adalah metrik pemisah pohon keputusan …

3
Mengapa kita membutuhkan XGBoost dan Random Forest?
Saya tidak jelas tentang beberapa konsep: XGBoost mengkonversi pembelajar yang lemah menjadi pembelajar yang kuat. Apa keuntungan melakukan ini? Menggabungkan banyak siswa yang lemah dan bukannya hanya menggunakan satu pohon? Hutan Acak menggunakan berbagai sampel dari pohon untuk membuat pohon. Apa keuntungan dari metode ini daripada hanya menggunakan pohon tunggal?


4
Arti fitur laten?
Saya belajar tentang faktorisasi matriks untuk sistem yang merekomendasikan dan saya melihat istilah yang latent featuresterjadi terlalu sering tetapi saya tidak dapat memahami apa artinya. Saya tahu apa fitur itu tetapi saya tidak mengerti ide fitur laten. Bisakah tolong jelaskan? Atau setidaknya mengarahkan saya ke kertas / tempat di mana …

4
Apakah Ilmu Data Sama Dengan Penambangan Data?
Saya yakin ilmu data seperti yang akan dibahas dalam forum ini memiliki beberapa sinonim atau setidaknya bidang terkait di mana data besar dianalisis. Pertanyaan khusus saya adalah tentang Penambangan Data. Saya mengambil kelas pascasarjana di Data Mining beberapa tahun yang lalu. Apa perbedaan antara Ilmu Data dan Data Mining dan …



4
Model statistik apa yang harus saya gunakan untuk menganalisis kemungkinan bahwa satu peristiwa memengaruhi data longitudinal
Saya mencoba menemukan formula, metode, atau model yang akan digunakan untuk menganalisis kemungkinan bahwa peristiwa tertentu mempengaruhi beberapa data longitudinal. Saya mengalami kesulitan mencari tahu apa yang harus dicari di Google. Berikut ini sebuah contoh skenario: Image Anda memiliki bisnis yang memiliki rata-rata 100 pelanggan berjalan setiap hari. Suatu hari, …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.