Pertanyaan yang diberi tag «data-mining»

Penambangan data menggunakan metode dari kecerdasan buatan dalam konteks basis data untuk menemukan pola yang sebelumnya tidak diketahui. Karena itu, metode biasanya tidak diawasi. Ini terkait erat tetapi tidak identik dengan pembelajaran mesin. Tugas utama dari penambangan data adalah analisis klaster, deteksi outlier dan penambangan aturan asosiasi.

2
Menentukan kontributor terbesar dalam suatu grup
Saya tidak tahu banyak tentang statistik jadi bersabarlah. Katakanlah saya memiliki 1000 pekerja. Saya ingin mengetahui siapa pekerja yang paling sulit, tetapi saya hanya bisa mengukur jumlah pekerjaan yang dilakukan dalam kelompok 1-100 selama satu jam kerja. Dengan asumsi setiap pekerja selalu melakukan pekerjaan dengan jumlah yang sama, selama sejumlah …


2
Memahami dan menerapkan analisis sentimen
Saya baru saja ditugaskan proyek melakukan analisis sentimen untuk beberapa koleksi dokumen. Oleh Googling, banyak penelitian terkait sentimen bermunculan. Pertanyaan saya adalah: Apa metode / algoritma utama untuk analisis sentimen di bidang pembelajaran mesin dan analisis statistik? Apakah ada hasil yang mapan? Apakah ada perangkat lunak sumber terbuka yang dapat …


5
Apa yang bisa saya lakukan di luar korelasi Pearson?
Sambil memeriksa untuk melihat apakah dua variabel berkorelasi, saya mengamati bahwa menerapkan korelasi Pearson menghasilkan angka serendah 0,1 menunjukkan tidak ada korelasi. Apakah ada yang bisa saya lakukan untuk memperkuat klaim ini? Dataset (himpunan karena batas posting) yang saya lihat adalah ini: 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 …


3
Algoritma Apriori dalam bahasa Inggris biasa?
Saya membaca artikel wiki tentang Apriori. Saya kesulitan memahami langkah prune dan Join. Adakah yang bisa menjelaskan kepada saya bagaimana algoritma Apriori bekerja secara sederhana (sehingga pemula seperti saya dapat mengerti dengan mudah)? Akan lebih baik jika seseorang menjelaskan proses langkah demi langkah yang terlibat di dalamnya.

2
Memulai dengan biclustering
Saya telah melakukan beberapa penelitian internet kasual tentang biclusters. (Saya telah membaca artikel Wiki beberapa kali.) Sejauh ini, sepertinya ada beberapa definisi atau terminologi standar. Saya ingin tahu apakah ada makalah standar atau buku yang harus dibaca oleh siapa pun yang tertarik dengan algoritma untuk menemukan pengendara sepeda. Apakah mungkin …

2
Hitung kurva ROC untuk data
Jadi, saya memiliki 16 percobaan di mana saya mencoba untuk mengotentikasi seseorang dari sifat biometrik menggunakan Hamming Distance. Ambang batas saya diatur ke 3.5. Data saya di bawah dan hanya percobaan 1 yang Benar-Benar Positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
Apakah Random Forest pilihan yang baik untuk Klasifikasi data yang tidak seimbang? [Tutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 3 tahun yang lalu . Terlepas dari pendekatan variabilitas data yang mirip dan terus meningkat, dapatkah hutan acak "sebagai …

2
Kumpulan data uji yang sangat tidak seimbang dan data pelatihan yang seimbang dalam klasifikasi
Saya memiliki satu set pelatihan dengan sekitar 3000 contoh positif dan 3000 contoh negatif. Tetapi kumpulan data pengujian saya sangat tidak seimbang. Set positif hanya memiliki 50 instance dan negatif memiliki 1500 instance. Hal ini menyebabkan presisi sangat rendah. Apakah ada pendekatan untuk menyelesaikan masalah ini? Saya menggunakan SVM untuk …

1
Praktik terbaik untuk mengukur dan menghindari overfitting?
Saya mengembangkan sistem perdagangan otomatis untuk pasar saham. Tantangan besar adalah overfitting. Dapatkah Anda merekomendasikan beberapa sumber yang menggambarkan metode untuk mengukur dan menghindari overfitting? Saya mulai dengan set pelatihan / validasi, tetapi set validasi selalu ternoda. Juga, data deret waktu selalu berubah karena pasar selalu berubah. Bagaimana Anda mengukur …

1
CART: Pilihan prediktor terbaik untuk pemisahan ketika keuntungan dalam penurunan pengotor adalah sama?
Pertanyaan saya berkaitan dengan pohon Klasifikasi . Pertimbangkan contoh berikut dari kumpulan data Iris: Saya ingin secara manual memilih prediktor terbaik untuk pemisahan pertama. Menurut algoritma CART, fitur terbaik untuk membuat pemisahan adalah fitur yang memaksimalkan penurunan pengotor partisi, juga disebut Gini gain: G i n i G a i …

1
Kapan tepat menggunakan PCA sebagai langkah preproses?
Saya mengerti bahwa PCA digunakan untuk reduksi dimensionalitas agar dapat merencanakan dataset dalam 2D ​​atau 3D. Tetapi saya juga melihat orang yang menerapkan PCA sebagai langkah preprocessing dalam skenario klasifikasi di mana mereka menerapkan PCA untuk mengurangi jumlah fitur, kemudian mereka menggunakan beberapa Komponen Utama (vektor eigen dari matriks kovarians) …

3
Mendeteksi cluster dalam urutan biner
Saya memiliki urutan biner seperti 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Di mana kluster sebagian besar 1 diikuti oleh jumlah yang lebih besar dari nol, seperti pada gambar di bawah ini (hitam singkatan dari 1): Saya ingin menerapkan teknik (lebih disukai dalam R atau dengan Python) di mana saya dapat secara otomatis mendeteksi kluster 1 …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.