Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

3
Lakukan normalisasi fitur sebelum atau di dalam validasi model?
Praktek umum yang baik dalam Pembelajaran Mesin adalah melakukan normalisasi fitur atau standardisasi data dari variabel prediktor, hanya itu, pusatkan data dengan mengurangkan rata-rata dan menormalkannya dengan varian (atau standar deviasi juga). Untuk pengendalian diri dan pemahaman saya, kami melakukan ini untuk mencapai dua hal utama: Hindari bobot model ekstra …

3
Mengapa kita begitu peduli tentang istilah kesalahan yang terdistribusi normal (dan homoskedastisitas) dalam regresi linier ketika kita tidak perlu?
Saya kira saya menjadi frustrasi setiap kali saya mendengar seseorang mengatakan bahwa residual dan / atau heteroskedastisitas yang tidak normal melanggar asumsi OLS. Untuk memperkirakan parameter dalam model OLS, asumsi ini tidak diperlukan oleh teorema Gauss-Markov. Saya melihat bagaimana hal ini penting dalam Pengujian Hipotesis untuk model OLS, karena dengan …

4
Cumming (2008) mengklaim bahwa distribusi nilai-p yang diperoleh dalam replikasi hanya bergantung pada nilai-p yang asli. Bagaimana itu bisa benar?
Saya telah membaca paper Replikasi dan Interval pppppp Geoff Cumming 2008 : nilai p memprediksi masa depan hanya samar-samar, tetapi interval kepercayaan jauh lebih baik [~ 200 kutipan dalam Google Cendekia] - dan saya bingung dengan salah satu klaim utamanya. Ini adalah salah satu dari serangkaian makalah di mana Cumming …



2
Penurunan solusi bentuk laso tertutup
Untuk masalah laso sedemikian rupa sehingga \ | \ beta \ | _1 \ leq t . Saya sering melihat hasil soft-thresholding \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | - \ …
52 lasso 

6
Apakah prediksi model Random Forest memiliki interval prediksi?
Jika saya menjalankan randomForestmodel, saya kemudian dapat membuat prediksi berdasarkan model. Apakah ada cara untuk mendapatkan interval prediksi dari masing-masing prediksi sehingga saya tahu seberapa "yakin" model dari jawabannya. Jika ini mungkin, apakah hanya didasarkan pada variabilitas variabel dependen untuk seluruh model atau akankah ada interval yang lebih luas dan …

3
Asumsi normalitas ANOVA / distribusi normal residu
The Wikipedia halaman di ANOVA daftar tiga asumsi , yaitu: Independensi kasus - ini adalah asumsi model yang menyederhanakan analisis statistik. Normalitas - distribusi residu adalah normal. Kesetaraan (atau "homogenitas") dari varians, yang disebut homoscedasticity ... Poin yang menarik di sini adalah asumsi kedua. Beberapa sumber mencantumkan asumsi tersebut secara …


14
Apa karakterisasi paling mengejutkan dari distribusi Gaussian (normal)?
Distribusi Gaussian terstandardisasi pada dapat didefinisikan dengan memberikan kepadatannya secara eksplisit: 1RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} atau fungsi karakteristiknya. Sebagai kenang dalam ini pertanyaan itu juga satu-satunya distribusi yang mean sampel dan varians independen. Apa karakterisasi alternatif mengejutkan lain dari tindakan Gaussian yang Anda tahu? Saya akan menerima jawaban yang paling mengejutkan

8
Unggul sebagai meja kerja statistik
Tampaknya banyak orang (termasuk saya) suka melakukan analisis data eksplorasi di Excel. Beberapa batasan, seperti jumlah baris yang dibolehkan dalam spreadsheet, menyebalkan tetapi dalam kebanyakan kasus tidak membuatnya tidak mungkin menggunakan Excel untuk bermain-main dengan data. Namun, sebuah makalah oleh McCullough dan Heiser , secara praktis berteriak bahwa Anda akan …

10
Clustering dengan matriks jarak
Saya memiliki matriks (simetris) Myang mewakili jarak antara setiap pasangan node. Sebagai contoh, ABCD EFGH IJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 140 C 20 20 0 20 60 80 …
52 clustering 




Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.