Pertanyaan yang diberi tag «data-mining»

Penambangan data menggunakan metode dari kecerdasan buatan dalam konteks basis data untuk menemukan pola yang sebelumnya tidak diketahui. Karena itu, metode biasanya tidak diawasi. Ini terkait erat tetapi tidak identik dengan pembelajaran mesin. Tugas utama dari penambangan data adalah analisis klaster, deteksi outlier dan penambangan aturan asosiasi.

2
Bagaimana saya bisa mengelompokkan string berdasarkan tema umum?
Saya mencoba mengelompokkan, misalnya, string tentang pemrograman dengan string lain tentang pemrograman, string tentang fisika dengan string lain tentang fisika, dll., Untuk berbagai topik. Terlepas dari aspek linguistik teoretis yang menyolok dari masalah, saya mencari untuk benar-benar melakukan ini menggunakan pemrograman / perangkat lunak. Ikhtisar: Diberikan sejumlah besar string, bagaimana …

3
Sekilas sekilas pada dataset
Maafkan ketidaktahuan saya, tapi ... Saya terus menemukan diri saya dalam situasi, di mana saya dihadapkan dengan sekelompok data baru yang berhasil saya temukan. Data ini biasanya terlihat seperti ini: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown …

1
Bagaimana saya bisa menemukan korelasi antara crash dan lingkungan sistem?
Di waktu senggang saya, saya sedang mengerjakan sistem berbasis web kecil yang mengumpulkan laporan kerusakan (tetapi bukan yang lain, laporan bug yang tidak mogok) yang dikirim dari aplikasi Delphi Windows. Untuk pemecahan masalah, pengguna akan senang memiliki fitur penambangan data untuk menemukan hubungan antara perangkat keras atau versi sistem operasi …

1
Contoh yang terdokumentasi / direproduksi dari penerapan metode ekonometrik dunia nyata yang berhasil?
Pertanyaan ini mungkin terdengar sangat luas, tetapi inilah yang saya cari. Saya tahu ada banyak buku bagus tentang metode ekonometrik, dan banyak artikel ekspositori bagus tentang teknik ekonometrik. Bahkan ada contoh ekonometrik yang dapat direproduksi dengan sangat baik , seperti yang dijelaskan dalam pertanyaan CrossValidated ini . Kenyataannya contoh-contoh dalam …




2
Maksimal & tertutup sering - Jawaban Termasuk
My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4:A,C,D,E4:A,C,D,E4:A,C,D,E 5: C,D,E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E Saya ingin mengetahui set item sering maksimal dan set item sering tertutup . Set …

1
Nilai variabel tersembunyi regresi linear R "bernilai"
Ini hanya contoh yang saya temui beberapa kali, jadi saya tidak punya data sampel. Menjalankan model regresi linier di R: a.lm = lm(Y ~ x1 + x2) x1adalah variabel kontinu. x2bersifat kategorikal dan memiliki tiga nilai, mis. "Rendah", "Sedang" dan "Tinggi". Namun output yang diberikan oleh R akan menjadi seperti: …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
Perkiraan kesalahan out-of-bag untuk meningkatkan?
Dalam Random Forest, masing-masing pohon ditanam secara paralel pada sampel pendamping data yang unik. Karena setiap sampel boostrap diharapkan mengandung sekitar 63% dari pengamatan unik, ini menyisakan sekitar 37% dari pengamatan, yang dapat digunakan untuk menguji pohon. Sekarang, tampaknya dalam Stochastic Gradient Boosting, ada juga perkiraan serupa dengan yang ada …

2
Apakah pohon CART menangkap interaksi di antara para prediktor?
Makalah ini mengklaim bahwa dalam CART, karena pemisahan biner dilakukan pada kovariat tunggal pada setiap langkah, semua pemisahan bersifat ortogonal dan oleh karena itu interaksi di antara kovariat tidak dipertimbangkan. Namun, banyak referensi yang sangat serius mengklaim, sebaliknya, bahwa struktur hierarki pohon menjamin bahwa interaksi antara para prediktor secara otomatis …

1
Memilih nilai k untuk analisis deteksi Local Outlier Factor (LOF)
Saya memiliki satu set data tiga dimensi, dan saya mencoba menggunakan analisis Local Outlier Factor untuk mengidentifikasi nilai yang paling unik atau aneh. Bagaimana seseorang memutuskan nilai k untuk digunakan dalam analisis LOF? Saya mengerti apa yang menentukan nilai-k, dan jadi saya tidak terkejut bahwa saya melihat hasil yang sedikit …

1
Menggunakan alat penambangan teks / bahasa alami untuk ekonometrika
Saya tidak yakin apakah pertanyaan ini sepenuhnya sesuai di sini, jika tidak, harap hapus. Saya seorang mahasiswa pascasarjana di bidang ekonomi. Untuk proyek yang menyelidiki masalah dalam asuransi sosial, saya memiliki akses ke sejumlah besar laporan kasus administratif (> 200k) yang berkaitan dengan evaluasi kelayakan. Laporan-laporan ini dapat dihubungkan dengan …

5
Apakah preclustering membantu membangun model prediksi yang lebih baik?
Untuk tugas pemodelan churn saya sedang mempertimbangkan: Hitung k cluster untuk data Buat model k untuk masing-masing cluster secara terpisah. Alasan untuk itu adalah, bahwa tidak ada yang dapat dibuktikan, bahwa populasi pelanggan adalah homogen, sehingga masuk akal untuk menganggap bahwa proses menghasilkan data mungkin berbeda untuk "kelompok" yang berbeda. …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.