Statistik dan Big Data

6

Cara melakukan tes menggunakan R untuk melihat apakah data mengikuti distribusi normal

Saya memiliki kumpulan data dengan struktur berikut: a word | number of occurrence of a word in a document | a document id Bagaimana saya bisa melakukan tes untuk distribusi normal di R? Mungkin ini pertanyaan yang mudah, tetapi saya seorang pemula.

44 r distributions normality-assumption

8

Definisi outlier yang keras?

Orang sering membicarakan tentang berurusan dengan pencilan dalam statistik. Hal yang menggangguku tentang hal ini adalah, sejauh yang bisa saya katakan, definisi pencilan adalah sepenuhnya subjektif. Misalnya, jika distribusi sebenarnya dari beberapa variabel acak sangat berekor atau bimodal, visualisasi standar atau statistik ringkasan untuk mendeteksi pencilan akan salah menghapus bagian …

44 outliers definition

4

Model statistik lembar contekan

Saya bertanya-tanya apakah ada model statistik "lembar contekan" yang mencantumkan informasi apa pun atau lebih: kapan harus menggunakan model kapan tidak menggunakan model input yang diperlukan dan opsional output yang diharapkan sudahkah model diuji di berbagai bidang (kebijakan, bio, teknik, manufaktur, dll)? apakah itu diterima dalam praktik atau penelitian? variasi …

44 references modeling

5

Mengapa perbandingan berganda merupakan masalah?

Saya merasa sulit untuk memahami apa sebenarnya masalah dengan beberapa perbandingan . Dengan analogi sederhana, dikatakan bahwa seseorang yang akan membuat banyak keputusan akan membuat banyak kesalahan. Jadi pencegahan sangat konservatif diterapkan, seperti koreksi Bonferroni, sehingga untuk membuat probabilitas itu, orang ini akan membuat kesalahan sama sekali, serendah mungkin. Tetapi …

44 hypothesis-testing multiple-comparisons

6

Mengapa multikolinieritas tidak diperiksa dalam statistik modern / pembelajaran mesin

Dalam statistik tradisional, saat membangun model, kami memeriksa multikolinieritas menggunakan metode seperti perkiraan variance inflation factor (VIF), tetapi dalam pembelajaran mesin, kami menggunakan regularisasi untuk pemilihan fitur dan sepertinya tidak memeriksa apakah fitur berkorelasi sama sekali. Mengapa kita melakukan itu?

44 regression machine-learning multicollinearity regularization vif

4

Apakah ada tes untuk menentukan apakah penyebaran berlebihan GLM signifikan?

Saya membuat Poisson GLM di R. Untuk memeriksa penyebaran berlebih, saya melihat rasio penyimpangan residual terhadap derajat kebebasan yang disediakan oleh summary(model.name). Apakah ada nilai cutoff atau tes untuk rasio ini dianggap "signifikan?" Saya tahu bahwa jika itu> 1 maka data tersebut disebarkan secara berlebihan, tetapi jika saya memiliki rasio …

44 statistical-significance overdispersion

2

Apakah diperlukan normalisasi dan penskalaan fitur untuk pengelompokan k-means?

Apa saja langkah pra-pemrosesan (disarankan) terbaik sebelum melakukan k-means?

44 clustering normalization k-means

5

Regresi ketika residu OLS tidak terdistribusi secara normal

Ada beberapa utas di situs ini yang membahas cara menentukan apakah residu OLS terdistribusi secara normal tanpa gejala . Cara lain untuk mengevaluasi normalitas residual dengan kode R disediakan dalam jawaban yang sangat baik ini . Ini adalah diskusi lain tentang perbedaan praktis antara residu terstandarisasi dan yang diamati. Tetapi …

44 regression least-squares residuals assumptions normality-assumption

6

Bagaimana saya menghindari label yang tumpang tindih dalam plot R? [Tutup]

Saya mencoba memberi label sebaran sederhana di R. Ini yang saya gunakan: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Hasilnya biasa-biasa saja, seperti yang Anda lihat (klik untuk memperbesar): Saya mencoba untuk mengkompensasi ini menggunakan textxyfungsi, tetapi itu tidak lebih baik . Membuat gambar itu sendiri lebih besar tidak berfungsi …

44 r data-visualization scatterplot

4

Fungsi aktivasi mana untuk lapisan output?

Sementara pilihan fungsi aktivasi untuk lapisan tersembunyi cukup jelas (kebanyakan sigmoid atau tanh), saya bertanya-tanya bagaimana cara memutuskan fungsi aktivasi untuk lapisan output. Pilihan umum adalah fungsi linier, fungsi sigmoid dan fungsi softmax. Namun, kapan saya harus menggunakan yang mana?

44 neural-networks

3

Menguji kesetaraan koefisien dari dua regresi yang berbeda

Ini tampaknya menjadi masalah mendasar, tetapi saya baru sadar bahwa saya sebenarnya tidak tahu bagaimana cara menguji kesetaraan koefisien dari dua regresi yang berbeda. Adakah yang bisa menjelaskan ini? Secara lebih formal, misalkan saya menjalankan dua regresi berikut: dan mana merujuk ke matriks desain regresi , dan ke vektor koefisien …

44 hypothesis-testing inference

5

Apakah penting untuk mengukur data sebelum pengelompokan?

Saya menemukan tutorial ini , yang menunjukkan bahwa Anda harus menjalankan fungsi skala pada fitur sebelum pengelompokan (saya percaya itu mengubah data menjadi z-skor). Saya bertanya-tanya apakah itu perlu. Saya bertanya sebagian besar karena ada titik siku yang bagus ketika saya tidak menskala data, tetapi menghilang ketika diskalakan. :)

44 clustering k-means

4

Kesalahan standar untuk rata-rata sampel variabel acak binomial

Misalkan saya menjalankan percobaan yang dapat memiliki 2 hasil, dan saya berasumsi bahwa distribusi "benar" yang mendasari dari 2 hasil adalah distribusi binomial dengan parameter dan : .nnnpppBinomial(n,p)Binomial(n,p){\rm Binomial}(n, p) Saya dapat menghitung kesalahan standar, , dari bentuk varian dari : mana . Jadi, . Untuk kesalahan standar yang saya …

44 binomial standard-error

5

Apa perbedaan antara algoritma maju-mundur dan Viterbi?

Saya ingin tahu apa perbedaan antara algoritma maju-mundur dan algoritma Viterbi untuk inferensi dalam model Markov tersembunyi (HMM).

44 algorithms hidden-markov-model viterbi-algorithm forward-backward

5

Implementasi yang dioptimalkan dari algoritma Random Forest

Saya perhatikan ada beberapa implementasi dari hutan acak seperti ALGLIB, Waffles dan beberapa paket R seperti randomForest. Adakah yang bisa memberi tahu saya apakah perpustakaan ini sangat optimal? Apakah mereka pada dasarnya setara dengan hutan acak seperti yang dijelaskan dalam Elemen Pembelajaran Statistik atau apakah banyak trik tambahan telah ditambahkan? …

43 random-forest algorithms model-evaluation