Statistik dan Big Data

1

Saat mentransformasikan variabel, apakah Anda harus menggunakan semua transformasi yang sama? Misalnya, dapatkah saya memilih dan memilih variabel yang diubah secara berbeda, seperti pada: Biarkan, menjadi usia, lama bekerja, lama tinggal, dan penghasilan.x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Atau, haruskah Anda konsisten dengan transformasi Anda dan menggunakan semua …

41 r regression logistic data-transformation

4

Referensi apa yang harus dikutip untuk mendukung penggunaan 30 sebagai ukuran sampel yang cukup besar?

Saya telah membaca / mendengar berkali-kali bahwa ukuran sampel setidaknya 30 unit dianggap sebagai "sampel besar" (asumsi normalitas sarana biasanya kira-kira berlaku karena CLT, ...). Karena itu, dalam percobaan saya, saya biasanya menghasilkan sampel sebanyak 30 unit. Bisakah Anda memberi saya beberapa referensi yang harus dikutip ketika menggunakan ukuran sampel …

41 references sample-size normality-assumption central-limit-theorem rule-of-thumb

3

Berapa distribusi jarak Euclidean antara dua variabel acak yang terdistribusi normal?

Asumsikan Anda diberikan dua objek yang lokasi pastinya tidak diketahui, tetapi didistribusikan sesuai dengan distribusi normal dengan parameter yang diketahui (misalnya a∼N(m,s)a∼N(m,s)a \sim N(m, s) dan b∼N(v,t))b∼N(v,t))b \sim N(v, t)) . Kita dapat mengasumsikan ini adalah normal bivariat, sehingga posisinya dijelaskan oleh distribusi di atas (x,y)(x,y)(x,y) koordinat (yaitu mmm dan …

41 normal-distribution distance-functions

8

Bagaimana saya bisa menguji jika sampel yang diberikan diambil dari distribusi Poisson?

Saya tahu tes normal, tetapi bagaimana cara menguji "Poisson-ness"? Saya punya sampel ~ 1000 bilangan bulat non-negatif, yang saya duga diambil dari distribusi Poisson, dan saya ingin mengujinya.

41 hypothesis-testing distributions poisson-distribution goodness-of-fit

13

Mengapa median usia statistik yang lebih baik daripada usia rata-rata?

Jika Anda melihat Wolfram Alpha Atau halaman Wikipedia ini Daftar negara berdasarkan usia rata-rata Jelas median tampaknya menjadi statistik pilihan ketika datang ke usia. Saya tidak dapat menjelaskan kepada diri saya sendiri mengapa aritmatika berarti statistik yang lebih buruk. Kenapa gitu? Awalnya diposting di sini karena saya tidak tahu situs …

41 mean median

4

Mengapa nol korelasi tidak selalu menyiratkan independensi

Jika dua variabel memiliki korelasi 0, mengapa mereka tidak selalu independen? Apakah nol variabel berkorelasi independen dalam keadaan khusus? Jika memungkinkan, saya mencari penjelasan yang intuitif, bukan yang sangat teknis.

41 correlation independence

5

Optimasi hyperparameter praktis: Pencarian acak vs. kisi

Saat ini saya sedang mencari Bengio dan Bergsta's Random Search untuk Hyper-Parameter Optimization [1] di mana penulis mengklaim pencarian acak lebih efisien daripada pencarian grid dalam mencapai sekitar kinerja yang sama. Pertanyaan saya adalah: Apakah orang-orang di sini setuju dengan klaim itu? Dalam pekerjaan saya, saya telah menggunakan pencarian kotak …

41 machine-learning hyperparameter optimization

1

Bagaimana cara menginterpretasikan ukuran kesalahan?

Saya menjalankan klasifikasi di Weka untuk dataset tertentu dan saya perhatikan bahwa jika saya mencoba memprediksi nilai nominal, output secara spesifik menunjukkan nilai prediksi yang benar dan salah. Namun, sekarang saya menjalankannya untuk atribut numerik dan hasilnya adalah: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 …

41 machine-learning error weka mse rms

3

Apa perbedaan antara Distribusi Normal dan Gaussian

Apakah ada perbedaan yang dalam antara distribusi Normal dan Gaussian, saya telah melihat banyak makalah yang menggunakannya tanpa perbedaan, dan saya biasanya juga menyebutnya sebagai hal yang sama. Namun, PI saya baru-baru ini mengatakan kepada saya bahwa yang normal adalah kasus spesifik dari Gaussian dengan mean = 0 dan std …

41 normal-distribution terminology

3

Bagaimana saya menghitung

Misalkan dan Φ ( ⋅ ) adalah fungsi kerapatan dan fungsi distribusi dari distribusi normal standar.ϕ(⋅)ϕ(⋅)\phi(\cdot)Φ(⋅)Φ(⋅)\Phi(\cdot) Bagaimana seseorang dapat menghitung integral: ∫∞−∞Φ(w−ab)ϕ(w)dw∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

41 mathematical-statistics normal-distribution integral

9

Bagaimana cara menginterpretasikan nilai ukuran-F?

Saya ingin tahu bagaimana menafsirkan perbedaan nilai-nilai f-ukur. Saya tahu bahwa ukuran-f adalah rata-rata yang seimbang antara presisi dan daya ingat, tetapi saya bertanya tentang arti praktis dari perbedaan dalam ukuran-F. Sebagai contoh, jika classifier C1 memiliki akurasi 0,4 dan classifier C2 lainnya akurasi 0,8, maka kita dapat mengatakan bahwa …

41 classification precision-recall

5

Bagaimana skor kecenderungan berbeda dari menambahkan kovariat dalam regresi, dan kapan mereka lebih disukai daripada yang terakhir?

Saya akui bahwa saya relatif baru dalam hal skor kecenderungan dan analisis kausal. Satu hal yang tidak jelas bagi saya sebagai pendatang baru adalah bagaimana "menyeimbangkan" menggunakan skor kecenderungan secara matematis berbeda dari apa yang terjadi ketika kita menambahkan kovariat dalam regresi? Apa yang berbeda tentang operasi, dan mengapa lebih …

41 regression multivariate-analysis causality propensity-scores

1

Apa bedanya softmax_cross_entropy_with_logits dari softmax_cross_entropy_with_logits_v2?

Secara khusus, saya kira saya bertanya-tanya tentang pernyataan ini: Versi utama masa depan TensorFlow akan memungkinkan gradien mengalir ke input label pada backprop secara default. Yang ditampilkan saat saya gunakan tf.nn.softmax_cross_entropy_with_logits. Dalam pesan yang sama ia mendesak saya untuk melihatnya tf.nn.softmax_cross_entropy_with_logits_v2. Saya melihat melalui dokumentasi tetapi hanya menyatakan bahwa untuk …

41 machine-learning supervised-learning tensorflow backpropagation

6

Hutan Acak - Cara menangani overfitting

Saya memiliki latar belakang ilmu komputer tetapi saya mencoba mengajari diri sendiri ilmu data dengan memecahkan masalah di internet. Saya telah mengerjakan masalah ini selama beberapa minggu terakhir (sekitar 900 baris dan 10 fitur). Saya awalnya menggunakan regresi logistik tetapi sekarang saya telah beralih ke hutan acak. Ketika saya menjalankan …

41 random-forest overfitting

4

Regresi Logistik dalam R (Odds Ratio)

Saya mencoba melakukan analisis regresi logistik di R. Saya telah mengikuti kursus yang membahas materi ini menggunakan STATA. Saya merasa sangat sulit untuk meniru fungsi di R. Apakah sudah matang di area ini? Tampaknya ada sedikit dokumentasi atau panduan yang tersedia. Memproduksi output odds ratio tampaknya membutuhkan instalasi epicalcdan / …

41 r logistic odds-ratio