Statistik dan Big Data unsupervised-learning

1

Pengawasan jauh: diawasi, semi-diawasi, atau keduanya?

"Pengawasan jauh" adalah skema pembelajaran di mana pengklasifikasi dipelajari dengan perangkat pelatihan yang berlabel lemah (data pelatihan diberi label secara otomatis berdasarkan heuristik / aturan). Saya pikir baik pembelajaran yang diawasi, dan pembelajaran semi-diawasi dapat mencakup "pengawasan yang jauh" jika data yang diberi label secara heuristik / secara otomatis diberi …

20 machine-learning data-mining dataset references unsupervised-learning

1

Bagaimana cara menentukan jumlah cluster di K-means clustering?

Apakah ada cara untuk menentukan jumlah cluster optimal atau haruskah saya mencoba nilai yang berbeda dan memeriksa tingkat kesalahan untuk memutuskan nilai terbaik?

19 clustering unsupervised-learning

4

Bagaimana cara memahami kelemahan Hierarchical Clustering?

Adakah yang bisa menjelaskan pro dan kontra Hierarchical Clustering? Apakah Hierarchical Clustering memiliki kelemahan yang sama dengan K means? Apa keuntungan dari Hierarchical Clustering over K means? Kapan kita harus menggunakan K means lebih dari Hierarchical Clustering & sebaliknya? Jawaban untuk posting ini menjelaskan kelemahan k sangat baik. Bagaimana memahami …

19 clustering k-means unsupervised-learning hierarchical-clustering

4

Akurasi mesin peningkat gradien menurun karena jumlah iterasi meningkat

Saya bereksperimen dengan algoritma mesin peningkat gradien melalui caretpaket di R. Menggunakan dataset penerimaan perguruan tinggi kecil, saya menjalankan kode berikut: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

Apakah ada "regresi tanpa pengawasan"?

Jika saya benar, "klasifikasi tanpa pengawasan" sama dengan pengelompokan. Lalu apakah ada "regresi tanpa pengawasan"? Terima kasih!

15 regression unsupervised-learning

3

Apa itu pencampuran data?

Istilah ini sering muncul di utas terkait metode . Apakah memadukan metode khusus dalam penambangan data dan pembelajaran statistik? Saya tidak bisa mendapatkan hasil yang relevan dari google. Tampaknya pencampuran adalah mencampur hasil dari banyak model dan menghasilkan hasil yang lebih baik. Apakah ada sumber daya yang membantu saya mengetahui …

15 machine-learning data-mining unsupervised-learning statistical-learning

4

Apa itu * Jaringan Syaraf Tiruan?

Ketika kita mempelajari literatur Neural Networks , kita dapat mengidentifikasi metode lain dengan topologi neuromorfik (arsitektur seperti Neural-Network). Dan saya tidak berbicara tentang Teorema Perkiraan Universal . Contoh diberikan di bawah ini. Lalu, itu membuat saya bertanya-tanya: apa definisi Jaringan Syaraf Tiruan buatan? Topologinya tampaknya mencakup segalanya. Contoh: Salah satu …

15 machine-learning neural-networks deep-learning unsupervised-learning supervised-learning

3

Bagaimana memilih jumlah optimal faktor laten dalam faktorisasi matriks non-negatif?

Dengan matriks , Factorisasi Matriks Non-negatif (NMF) menemukan dua matriks non-negatif dan ( yaitu dengan semua elemen ) untuk mewakili matriks yang diuraikan sebagai:Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, misalnya dengan mensyaratkan bahwa dan yang non-negatif meminimalkan kesalahan rekonstruksiWW\mathbf …

15 cross-validation unsupervised-learning latent-variable matrix-decomposition nnmf

4

Bagaimana cara mengukur bentuk cluster?

Saya tahu bahwa pertanyaan ini tidak didefinisikan dengan baik, tetapi beberapa cluster cenderung berbentuk elips atau terletak di ruang dimensi yang lebih rendah sementara yang lain memiliki bentuk nonlinear (dalam contoh 2D atau 3D). Apakah ada ukuran nonlinier (atau "bentuk") dari kluster? Perhatikan bahwa dalam ruang 2D dan 3D, bukan …

14 unsupervised-learning clustering

3

Memilih hyperparameters menggunakan T-SNE untuk klasifikasi

Dalam masalah khusus yang saya kerjakan dengan (kompetisi) saya memiliki pengaturan follwoing: 21 fitur (angka pada [0,1]) dan output biner. Saya memiliki sekitar 100 K baris. Pengaturan tampaknya sangat bising. Saya dan peserta lain menerapkan pembuatan fitur untuk sementara waktu dan penyematan stokastik tetangga t-didistribusikan ternyata lebih kuat dalam pengaturan …

13 machine-learning dimensionality-reduction unsupervised-learning tsne

4

Menginisialisasi pusat K-means dengan cara subsampel acak dari dataset?

Jika saya memiliki dataset tertentu, seberapa pintarkah untuk menginisialisasi pusat cluster dengan menggunakan sampel acak dari dataset tersebut? Misalnya, saya ingin 5 clusters. Saya 5 random sampleskatakan, size=20%dari dataset asli. Bisakah saya mengambil rata-rata dari masing-masing 5 sampel acak ini dan menggunakan rata-rata tersebut sebagai 5 pusat klaster awal saya? …

13 clustering k-means unsupervised-learning

1

Apakah ada perbedaan antara pengawasan jarak jauh, pelatihan diri, pembelajaran mandiri, dan pengawasan lemah?

Dari apa yang saya baca: Pengawasan jauh : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and …

12 machine-learning terminology unsupervised-learning semi-supervised

4

Bisakah Anda membandingkan metode pengelompokan berbeda pada dataset tanpa kebenaran dasar dengan validasi silang?

Saat ini, saya mencoba untuk menganalisis dataset dokumen teks yang tidak memiliki kebenaran dasar. Saya diberitahu bahwa Anda dapat menggunakan validasi silang k-fold untuk membandingkan berbagai metode pengelompokan. Namun, contoh-contoh yang saya lihat di masa lalu menggunakan kebenaran dasar. Apakah ada cara untuk menggunakan cara k-fold pada dataset ini untuk …

12 machine-learning clustering cross-validation unsupervised-learning

2

Menerapkan pembelajaran mesin untuk penyaringan DDoS

Dalam kursus Pembelajaran Mesin Stanford, Andrew Ng menyebut penerapan ML di bidang TI. Beberapa waktu kemudian ketika saya mendapat ukuran sedang (sekitar 20k bot) DDoS di situs kami, saya memutuskan untuk melawannya menggunakan classifier Neural Network sederhana. Saya telah menulis skrip python ini dalam waktu sekitar 30 menit: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos Menggunakan …

12 classification neural-networks unsupervised-learning

5

SOM clustering untuk variabel nominal / melingkar

Hanya ingin tahu apakah ada yang akrab dengan pengelompokan input nominal. Saya telah melihat SOM sebagai solusi tetapi ternyata itu hanya bekerja dengan fitur numerik. Apakah ada ekstensi untuk fitur kategorikal? Secara khusus saya bertanya-tanya tentang 'Days of the Week' sebagai fitur yang mungkin. Tentu saja dimungkinkan untuk mengubahnya menjadi …

11 clustering unsupervised-learning self-organizing-maps

Pertanyaan yang diberi tag «unsupervised-learning»