Statistik dan Big Data

3

Lakukan normalisasi fitur sebelum atau di dalam validasi model?

Praktek umum yang baik dalam Pembelajaran Mesin adalah melakukan normalisasi fitur atau standardisasi data dari variabel prediktor, hanya itu, pusatkan data dengan mengurangkan rata-rata dan menormalkannya dengan varian (atau standar deviasi juga). Untuk pengendalian diri dan pemahaman saya, kami melakukan ini untuk mencapai dua hal utama: Hindari bobot model ekstra …

52 machine-learning normalization standardization multidimensional-scaling

3

Mengapa kita begitu peduli tentang istilah kesalahan yang terdistribusi normal (dan homoskedastisitas) dalam regresi linier ketika kita tidak perlu?

Saya kira saya menjadi frustrasi setiap kali saya mendengar seseorang mengatakan bahwa residual dan / atau heteroskedastisitas yang tidak normal melanggar asumsi OLS. Untuk memperkirakan parameter dalam model OLS, asumsi ini tidak diperlukan oleh teorema Gauss-Markov. Saya melihat bagaimana hal ini penting dalam Pengujian Hipotesis untuk model OLS, karena dengan …

52 regression assumptions normality-assumption robust teaching

4

Cumming (2008) mengklaim bahwa distribusi nilai-p yang diperoleh dalam replikasi hanya bergantung pada nilai-p yang asli. Bagaimana itu bisa benar?

Saya telah membaca paper Replikasi dan Interval pppppp Geoff Cumming 2008 : nilai p memprediksi masa depan hanya samar-samar, tetapi interval kepercayaan jauh lebih baik [~ 200 kutipan dalam Google Cendekia] - dan saya bingung dengan salah satu klaim utamanya. Ini adalah salah satu dari serangkaian makalah di mana Cumming …

52 hypothesis-testing p-value power replicability

8

Penerus modern untuk Analisis Data Eksplorasi oleh Tukey?

Saya telah membaca buku Tukey "Analisis Data Eksplorasi". Ditulis pada tahun 1977, buku ini menekankan metode kertas / pensil. Apakah ada penerus yang lebih 'modern' yang memperhitungkan bahwa kita sekarang dapat langsung memplot set data besar?

52 data-visualization references descriptive-statistics eda

5

Jaringan saraf vs mesin vektor dukungan: apakah yang kedua pasti lebih unggul?

Banyak penulis makalah yang saya baca menegaskan bahwa SVM adalah teknik yang unggul untuk menghadapi masalah regresi / klasifikasi mereka, menyadari bahwa mereka tidak bisa mendapatkan hasil yang sama melalui NNs. Seringkali perbandingan menyatakan itu SVM, bukannya NN, Memiliki teori pendirian yang kuat Mencapai global optimal karena pemrograman kuadratik Tidak …

52 machine-learning svm neural-networks

2

Penurunan solusi bentuk laso tertutup

Untuk masalah laso sedemikian rupa sehingga \ | \ beta \ | _1 \ leq t . Saya sering melihat hasil soft-thresholding \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | - \ …

52 lasso

6

Apakah prediksi model Random Forest memiliki interval prediksi?

Jika saya menjalankan randomForestmodel, saya kemudian dapat membuat prediksi berdasarkan model. Apakah ada cara untuk mendapatkan interval prediksi dari masing-masing prediksi sehingga saya tahu seberapa "yakin" model dari jawabannya. Jika ini mungkin, apakah hanya didasarkan pada variabilitas variabel dependen untuk seluruh model atau akankah ada interval yang lebih luas dan …

52 r confidence-interval random-forest

3

Asumsi normalitas ANOVA / distribusi normal residu

The Wikipedia halaman di ANOVA daftar tiga asumsi , yaitu: Independensi kasus - ini adalah asumsi model yang menyederhanakan analisis statistik. Normalitas - distribusi residu adalah normal. Kesetaraan (atau "homogenitas") dari varians, yang disebut homoscedasticity ... Poin yang menarik di sini adalah asumsi kedua. Beberapa sumber mencantumkan asumsi tersebut secara …

52 anova residuals assumptions normality-assumption

2

Apa hubungan antara uji chi square dan uji proporsi yang sama?

Misalkan saya memiliki tiga populasi dengan empat, karakteristik yang saling eksklusif. Saya mengambil sampel acak dari setiap populasi dan membuat tabel tab silang atau frekuensi untuk karakteristik yang saya ukur. Apakah saya benar mengatakan bahwa: Jika saya ingin menguji apakah ada hubungan antara populasi dan karakteristik (misalnya apakah satu populasi …

52 chi-squared proportion contingency-tables z-test

14

Apa karakterisasi paling mengejutkan dari distribusi Gaussian (normal)?

Distribusi Gaussian terstandardisasi pada dapat didefinisikan dengan memberikan kepadatannya secara eksplisit: 1RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} atau fungsi karakteristiknya. Sebagai kenang dalam ini pertanyaan itu juga satu-satunya distribusi yang mean sampel dan varians independen. Apa karakterisasi alternatif mengejutkan lain dari tindakan Gaussian yang Anda tahu? Saya akan menerima jawaban yang paling mengejutkan

52 probability normal-distribution mathematical-statistics characteristic-function

8

Unggul sebagai meja kerja statistik

Tampaknya banyak orang (termasuk saya) suka melakukan analisis data eksplorasi di Excel. Beberapa batasan, seperti jumlah baris yang dibolehkan dalam spreadsheet, menyebalkan tetapi dalam kebanyakan kasus tidak membuatnya tidak mungkin menggunakan Excel untuk bermain-main dengan data. Namun, sebuah makalah oleh McCullough dan Heiser , secara praktis berteriak bahwa Anda akan …

52 software computational-statistics excel

10

Clustering dengan matriks jarak

Saya memiliki matriks (simetris) Myang mewakili jarak antara setiap pasangan node. Sebagai contoh, ABCD EFGH IJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 140 C 20 20 0 20 60 80 …

52 clustering

6

Klasifikasi biner dengan kelas yang sangat tidak seimbang

Saya memiliki kumpulan data dalam bentuk (fitur, keluaran biner 0 atau 1), tetapi 1 jarang terjadi, jadi hanya dengan selalu memprediksi 0, saya mendapatkan akurasi antara 70% dan 90% (tergantung pada data tertentu yang saya lihat ). Metode ML memberi saya akurasi yang sama, dan saya merasa, harus ada beberapa …

52 machine-learning classification binary-data unbalanced-classes

5

Apakah perlu untuk menskalakan nilai target selain fitur penskalaan untuk analisis regresi?

Saya sedang membangun model regresi. Sebagai langkah preprocessing, saya skala nilai fitur saya untuk memiliki rata-rata 0 dan standar deviasi 1. Apakah perlu untuk menormalkan nilai target juga?

52 regression machine-learning

4

Dalam kondisi apa sebaiknya skala Likert digunakan sebagai data ordinal atau interval?

Banyak studi dalam ilmu sosial menggunakan skala Likert. Kapan waktu yang tepat untuk menggunakan data Likert sebagai ordinal dan kapan waktu yang tepat untuk menggunakannya sebagai data interval?

52 ordinal-data likert scales measurement