Statistik dan Big Data data-mining

5

K-means adalah metode yang banyak digunakan dalam analisis cluster. Dalam pemahaman saya, metode ini TIDAK memerlukan asumsi APAPUN, yaitu, beri saya dataset dan jumlah cluster yang ditentukan sebelumnya, k, dan saya hanya menerapkan algoritma ini yang meminimalkan jumlah kesalahan kuadrat (SSE), dalam cluster cluster kuadrat kesalahan. Jadi k-means pada dasarnya …

365 machine-learning clustering data-mining k-means

12

Apa perbedaan antara penambangan data, statistik, pembelajaran mesin dan AI?

Apa perbedaan antara penambangan data, statistik, pembelajaran mesin dan AI? Apakah akurat untuk mengatakan bahwa mereka adalah 4 bidang yang berusaha menyelesaikan masalah yang sangat mirip tetapi dengan pendekatan yang berbeda? Apa sebenarnya kesamaan yang mereka miliki dan di mana mereka berbeda? Jika ada semacam hirarki di antara mereka, apakah …

208 machine-learning data-mining

4

Kappa Cohen dalam bahasa Inggris sederhana

Saya membaca buku data mining dan disebutkan statistik Kappa sebagai sarana untuk mengevaluasi kinerja prediksi pengklasifikasi. Namun, saya tidak bisa mengerti ini. Saya juga memeriksa Wikipedia tetapi tidak membantu juga: https://en.wikipedia.org/wiki/Cohen's_kappa . Bagaimana kappa Cohen membantu dalam mengevaluasi kinerja prediksi pengklasifikasi? Apa isinya? Saya mengerti bahwa 100% kappa berarti bahwa …

131 classification data-mining cohens-kappa

9

Memperoleh pengetahuan dari hutan acak

Hutan acak dianggap kotak hitam, tetapi baru-baru ini saya berpikir pengetahuan apa yang bisa diperoleh dari hutan acak? Hal yang paling jelas adalah pentingnya variabel, dalam varian paling sederhana dapat dilakukan hanya dengan menghitung jumlah kemunculan suatu variabel. Hal kedua yang saya pikirkan adalah interaksi. Saya berpikir bahwa jika jumlah …

127 machine-learning data-mining interaction random-forest cart

11

Memiliki pekerjaan dalam penambangan data tanpa gelar PhD

Saya sudah sangat tertarik dalam penambangan data dan pembelajaran mesin untuk sementara waktu, sebagian karena saya mengambil jurusan di sekolah itu, tetapi juga karena saya benar-benar jauh lebih bersemangat mencoba menyelesaikan masalah yang memerlukan sedikit pemikiran lebih dari sekadar pemrograman pengetahuan dan yang solusinya dapat memiliki berbagai bentuk. Saya tidak …

73 machine-learning data-mining careers phd

7

Jarak Euclidean biasanya tidak baik untuk data yang jarang?

Saya telah melihat suatu tempat bahwa jarak klasik (seperti jarak Euclidean) menjadi sangat lemah ketika kita memiliki data multidimensi dan jarang. Mengapa? Apakah Anda memiliki contoh dua vektor data jarang di mana jarak Euclidean tidak berkinerja baik? Dalam hal ini kesamaan mana yang harus kita gunakan?

72 machine-learning clustering data-mining sparse euclidean

8

Keterampilan yang sulit ditemukan di pembelajar mesin?

Tampaknya penambangan data dan pembelajaran mesin menjadi sangat populer sehingga sekarang hampir setiap siswa CS tahu tentang pengklasifikasian, pengelompokan, statistik NLP ... dll. Jadi, menemukan penambang data bukanlah hal yang sulit saat ini. Pertanyaan saya adalah: Apa keterampilan yang bisa dipelajari oleh penambang data yang akan membuatnya berbeda dari yang …

71 machine-learning data-mining

8

Hasilkan variabel acak dengan korelasi yang ditentukan dengan variabel yang ada

Untuk studi simulasi saya harus membuat variabel acak yang menunjukkan korelasi (populasi) prefined ke variabel .YYY Saya melihat ke dalam Rpaket copuladan CDVineyang dapat menghasilkan distribusi multivarian acak dengan struktur ketergantungan yang diberikan. Namun, tidak mungkin untuk memperbaiki salah satu variabel yang dihasilkan ke variabel yang ada. Setiap ide dan …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

2

Mengapa hanya tiga partisi? (pelatihan, validasi, tes)

Saat Anda mencoba menyesuaikan model dengan set data besar, saran umum adalah untuk membagi data menjadi tiga bagian: pelatihan, validasi, dan set data uji. Ini karena model biasanya memiliki tiga "level" parameter: "parameter" pertama adalah kelas model (misalnya SVM, jaringan saraf, hutan acak), set parameter kedua adalah parameter "regularisasi" atau …

61 machine-learning model-selection data-mining

12

Perangkat lunak diperlukan untuk mengikis data dari grafik [tertutup]

Adakah yang punya pengalaman dengan perangkat lunak (lebih disukai gratis, lebih disukai open source) yang akan mengambil gambar data yang diplot pada koordinat kartesius (plot standar, harian) dan mengekstrak koordinat titik-titik yang diplot pada grafik? Pada dasarnya, ini adalah masalah penambangan data dan masalah visualisasi data terbalik .

56 data-visualization data-mining software

8

Apakah pengambilan sampel relevan pada saat 'data besar'?

Atau lebih tepatnya "apakah itu"? Big Data menjadikan statistik dan pengetahuan yang relevan menjadi lebih penting tetapi tampaknya tidak mendukung Teori Sampling. Saya telah melihat hype ini di sekitar 'Big Data' dan saya bertanya-tanya bahwa "mengapa" saya ingin menganalisis semuanya ? Apakah tidak ada alasan untuk "Teori Pengambilan Sampel" untuk …

54 sampling data-mining large-data

3

Apakah kita memiliki masalah "kasihan sayang"?

Aku tahu, ini mungkin terdengar seperti di luar topik, tapi dengarkan aku. Di Stack Overflow dan di sini kita mendapatkan suara pada posting, ini semua disimpan dalam bentuk tabel. Misalnya: memposting id voter id jenis suara datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 …

51 time-series hypothesis-testing data-mining markov-process censoring

3

Clustering dengan K-Means dan EM: bagaimana mereka terkait?

Saya telah mempelajari algoritma untuk pengelompokan data (pembelajaran tanpa pengawasan): EM, dan k-means. Saya terus membaca yang berikut: k-means adalah varian EM, dengan asumsi bahwa kluster adalah bola. Adakah yang bisa menjelaskan kalimat di atas? Saya tidak mengerti apa arti bola, dan bagaimana kmeans dan EM berhubungan, karena yang satu …

50 machine-learning clustering data-mining k-means expectation-maximization

1

Metrik kinerja untuk mengevaluasi pembelajaran tanpa pengawasan

Sehubungan dengan pembelajaran tanpa pengawasan (seperti pengelompokan), apakah ada metrik untuk mengevaluasi kinerja?

49 machine-learning clustering data-mining unsupervised-learning

3

Apa perbedaan antara model Markov tersembunyi dan jaringan saraf?

Saya hanya basah karena statistik, jadi saya minta maaf jika pertanyaan ini tidak masuk akal. Saya telah menggunakan model Markov untuk memprediksi keadaan tersembunyi (kasino tidak adil, gulungan dadu, dll.) Dan jaringan saraf untuk mempelajari klik pengguna pada mesin pencari. Keduanya memiliki status tersembunyi yang kami coba cari tahu menggunakan …

40 data-mining algorithms neural-networks markov-process

Pertanyaan yang diberi tag «data-mining»