Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

7
Mengapa mengajarkan siswa bahwa nilai-p adalah probabilitas bahwa temuan adalah karena kebetulan?
Dapatkah seseorang tolong berikan penjelasan singkat yang bagus mengapa itu bukan ide yang baik untuk mengajar siswa bahwa nilai-p adalah masalahnya (temuan mereka adalah karena kesempatan [acak]). Pemahaman saya adalah bahwa nilai-p adalah masalahnya (mendapatkan data yang lebih ekstrim | hipotesis nol adalah benar). Ketertarikan saya yang sebenarnya adalah apa …



4
Bagaimana cara mengartikan plot Silhouette?
Saya mencoba menggunakan plot siluet untuk menentukan jumlah cluster di dataset saya. Dengan dataset Train , saya menggunakan kode matlab berikut Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` Plot yang dihasilkan diberikan …


3
Mengapa t-SNE tidak digunakan sebagai teknik reduksi dimensi untuk pengelompokan atau klasifikasi?
Dalam penugasan terbaru, kami disuruh menggunakan PCA pada digit MNIST untuk mengurangi dimensi dari 64 (8 x 8 gambar) menjadi 2. Kami kemudian harus mengelompokkan digit menggunakan Gaussian Mixture Model. PCA hanya menggunakan 2 komponen utama tidak menghasilkan cluster yang berbeda dan akibatnya model tidak dapat menghasilkan pengelompokan yang bermanfaat. …

3
Cara menginterpretasikan Pengurangan Mean dalam Akurasi dan Pengurangan Mean GINI dalam model Hutan Acak
Saya mengalami beberapa kesulitan memahami bagaimana menafsirkan variabel pentingnya output dari paket Random Forest. Penurunan akurasi dalam akurasi biasanya digambarkan sebagai "penurunan akurasi model dari permutasi nilai di setiap fitur". Apakah ini pernyataan tentang fitur secara keseluruhan atau tentang nilai-nilai spesifik di dalam fitur? Dalam kedua kasus, apakah Mean Decrease …



3
Mengapa ada perbedaan antara menghitung interval kepercayaan 95% regresi logistik secara manual, dan menggunakan fungsi confint () di R?
Dear everyone - Saya telah memperhatikan sesuatu yang aneh yang tidak dapat saya jelaskan, bukan? Singkatnya: pendekatan manual untuk menghitung interval kepercayaan dalam model regresi logistik, dan fungsi R confint()memberikan hasil yang berbeda. Saya telah melalui regresi logistik Terapan Hosmer & Lemeshow (edisi ke-2). Dalam bab ke-3 ada contoh menghitung …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 



5
Temukan nilai yang diharapkan menggunakan CDF
Saya akan memulai dengan mengatakan ini adalah masalah pekerjaan rumah langsung dari buku ini. Saya telah menghabiskan beberapa jam mencari cara menemukan nilai yang diharapkan, dan telah memutuskan saya tidak mengerti apa-apa. Biarkan memiliki CDF . Temukan untuk nilai-nilai yang ada.XXXF(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1E(X)E(X)E(X)αα\alphaE(X)E(X)E(X) Saya tidak tahu bagaimana …


3
(Kenapa) Apakah SOM gaya Kohonen tidak disukai?
Sejauh yang saya tahu, SOMs gaya Kohonen memiliki puncak kembali sekitar tahun 2005 dan belum melihat banyak bantuan baru-baru ini. Saya belum menemukan kertas yang mengatakan bahwa SOM telah digolongkan dengan metode lain, atau terbukti setara dengan yang lain (pada dimensi yang lebih tinggi, bagaimanapun). Tetapi sepertinya tSNE dan metode …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.