Statistik dan Big Data data-mining

4

Bagaimana cara mulai membaca tentang penambangan data?

Saya seorang pemula yang akan mulai membaca tentang penambangan data. Saya memiliki pengetahuan dasar tentang AI dan statistik. Karena banyak yang mengatakan bahwa pembelajaran mesin juga memainkan peran penting dalam penambangan data, apakah perlu membaca tentang pembelajaran mesin sebelum saya melanjutkan penambangan data?

14 machine-learning references data-mining

2

Apa itu satu kelas SVM dan bagaimana cara kerjanya?

Saya menggunakan satu kelas SVM , diimplementasikan dalam scikit-belajar, untuk pekerjaan penelitian saya. Tetapi saya tidak memiliki pemahaman yang baik tentang ini. Adakah yang bisa tolong berikan penjelasan sederhana dan bagus tentang satu kelas SVM ?

14 machine-learning svm data-mining novelty-detection

2

Apa yang diketahui, aplikasi praktis teori chaos yang ada dalam penambangan data?

Sambil membaca dengan santai beberapa karya pasar massal tentang teori chaos selama beberapa tahun terakhir, saya mulai bertanya-tanya bagaimana berbagai aspeknya dapat diterapkan pada data mining dan bidang terkait, seperti jaring saraf, pengenalan pola, manajemen ketidakpastian, dll. Sampai saat ini, saya Saya telah menemukan begitu sedikit contoh aplikasi seperti itu …

13 self-study mathematical-statistics references data-mining fractal

3

Apakah Random Forest dan Boosting parametrik atau non-parametrik?

Dengan membaca pemodelan statistik yang sangat baik : Dua budaya (Breiman 2001) , kita dapat mengambil semua perbedaan antara model statistik tradisional (misalnya, regresi linier) dan algoritma pembelajaran mesin (misalnya, Bagging, Random Forest, Boosted trees ...). Breiman mengkritik model data (parametrik) karena didasarkan pada asumsi bahwa pengamatan dihasilkan oleh model …

13 machine-learning data-mining random-forest boosting bagging

2

Seberapa jauh belajar mandiri akan membuat saya?

Saya tidak pernah mengambil bagian dalam analisis data resmi atau terstruktur atau kursus pembelajaran mesin (selain penawaran online terbaru) dan telah belajar sebagian besar dari apa yang saya ketahui dari membaca dan mencoba berbagai hal. Saya tahu saya jauh dari mampu mendapatkan pekerjaan. Pertanyaan saya bukan apa yang lebih baik …

13 machine-learning data-mining careers

2

Bagging dengan oversampling untuk model prediksi kejadian langka

Adakah yang tahu apakah yang berikut ini telah dijelaskan dan (bagaimanapun juga) apakah itu terdengar seperti metode yang masuk akal untuk mempelajari model prediksi dengan variabel target yang sangat tidak seimbang? Seringkali dalam aplikasi CRM data mining, kami akan mencari model di mana peristiwa positif (sukses) sangat jarang relatif terhadap …

13 data-mining predictive-models

2

Analisis eksplorasi kesalahan ramalan spatio-temporal

Data: Saya telah bekerja baru-baru ini menganalisis sifat stokastik dari bidang spatio-temporal dari kesalahan perkiraan produksi tenaga angin. Secara formal, dapat dikatakan suatu proses diindeks dua kali dalam waktu (dengantdanh) dan sekali dalam ruang (p) denganHmenjadi jumlah waktu melihat ke depan (sama dengan sesuatu di sekitar24, sampel secara teratur),Tmenjadi jumlah …

13 forecasting data-mining stochastic-processes spatial spatio-temporal

3

Apakah saya perlu membuang variabel yang berkorelasi / collinear sebelum menjalankan kmeans?

Saya menjalankan kmeans untuk mengidentifikasi kelompok pelanggan. Saya memiliki sekitar 100 variabel untuk mengidentifikasi cluster. Masing-masing variabel ini mewakili% pengeluaran oleh pelanggan pada suatu kategori. Jadi, jika saya memiliki 100 kategori, saya memiliki 100 variabel ini sehingga jumlah dari variabel-variabel ini adalah 100% untuk setiap pelanggan. Sekarang, variabel-variabel ini sangat …

13 clustering data-mining k-means multicollinearity compositional-data

4

Cara terbaik untuk mengumpulkan dan menganalisis data

Baru-baru ini mulai mengajar diri saya sendiri Pembelajaran Mesin dan Analisis Data, saya mendapati diri saya membentur dinding bata pada kebutuhan untuk membuat dan menanyakan set data yang besar. Saya ingin mengambil data yang telah saya kumpulkan dalam kehidupan profesional dan pribadi saya dan menganalisisnya tetapi saya tidak yakin cara …

13 data-mining dataset eda

3

Gagasan membuat data memiliki mean nol

Saya sering melihat orang membuat dimensi / fitur dataset menjadi nol-rata dengan menghapus rata-rata dari semua elemen. Tetapi saya tidak pernah mengerti mengapa melakukannya? Apa efek dari melakukan itu sebagai langkah preprocessing? Apakah ini meningkatkan kinerja klasifikasi? Apakah ada gunanya menjawab sesuatu tentang dataset? Apakah ada gunanya ketika melakukan visualisasi …

12 data-mining dataset

5

Frekuensi istilah / frekuensi dokumen terbalik (TF / IDF): bobot

Saya punya dataset yang mewakili 1000 dokumen dan semua kata yang muncul di dalamnya. Jadi baris mewakili dokumen dan kolom mewakili kata-kata. Jadi misalnya, nilai dalam sel berarti waktu kata j muncul dalam dokumen i . Sekarang, saya harus menemukan 'bobot' dari kata-kata itu, menggunakan metode tf / idf, tetapi …

12 r data-mining feature-selection

3

Basis matematika untuk data mining dan algoritma kecerdasan buatan

Bisakah Anda memberi saya beberapa klarifikasi tentang data mining dan algoritma kecerdasan buatan? Basis matematika apa yang mereka gunakan? Bisakah Anda memberi saya titik awal, dalam matematika, untuk memahami jenis-jenis algoritma ini?

12 mathematical-statistics references data-mining algorithms artificial-intelligence

1

Perbedaan antara PROC Mixed dan lme / lmer dalam R - derajat kebebasan

Catatan: pertanyaan ini adalah repost, karena pertanyaan saya sebelumnya harus dihapus karena alasan hukum. Sambil membandingkan PROC CAMPURAN dari SAS dengan fungsi lmedari nlmepaket di R, saya menemukan beberapa perbedaan yang agak membingungkan. Lebih khusus lagi, derajat kebebasan dalam berbagai tes berbeda antara PROC MIXEDdan lme, dan saya bertanya-tanya mengapa. …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

Bagaimana cara membentuk kurva Precision-Recall ketika saya hanya memiliki satu nilai untuk PR?

Saya memiliki tugas penambangan data di mana saya membuat sistem pengambilan gambar berbasis konten. Saya memiliki 20 gambar dari 5 hewan. Jadi total 100 gambar. Sistem saya mengembalikan 10 gambar yang paling relevan ke gambar input. Sekarang saya perlu mengevaluasi kinerja sistem saya dengan kurva Precision-Recall. Namun, saya tidak mengerti …

12 data-mining matlab precision-recall curves computer-vision

1

Hubungan antara Matriks Hessian dan Matriks Kovarian

Sementara saya mempelajari Estimasi Kemungkinan Maksimum, untuk melakukan inferensi pada Estimasi Kemungkinan Maksimum, kita perlu mengetahui variansnya. Untuk mengetahui perbedaannya, saya perlu mengetahui Cramer's Rao Lower Bound, yang terlihat seperti Hessian Matrix dengan Second Deriviation pada kelengkungan. Saya agak bingung untuk mendefinisikan hubungan antara matriks kovarians dan matriks hessian. Berharap …

12 machine-learning mathematical-statistics maximum-likelihood data-mining

Pertanyaan yang diberi tag «data-mining»