Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

1
Regresi: Mengubah Variabel
Saat mentransformasikan variabel, apakah Anda harus menggunakan semua transformasi yang sama? Misalnya, dapatkah saya memilih dan memilih variabel yang diubah secara berbeda, seperti pada: Biarkan, menjadi usia, lama bekerja, lama tinggal, dan penghasilan.x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Atau, haruskah Anda konsisten dengan transformasi Anda dan menggunakan semua …

4
Referensi apa yang harus dikutip untuk mendukung penggunaan 30 sebagai ukuran sampel yang cukup besar?
Saya telah membaca / mendengar berkali-kali bahwa ukuran sampel setidaknya 30 unit dianggap sebagai "sampel besar" (asumsi normalitas sarana biasanya kira-kira berlaku karena CLT, ...). Karena itu, dalam percobaan saya, saya biasanya menghasilkan sampel sebanyak 30 unit. Bisakah Anda memberi saya beberapa referensi yang harus dikutip ketika menggunakan ukuran sampel …

3
Berapa distribusi jarak Euclidean antara dua variabel acak yang terdistribusi normal?
Asumsikan Anda diberikan dua objek yang lokasi pastinya tidak diketahui, tetapi didistribusikan sesuai dengan distribusi normal dengan parameter yang diketahui (misalnya a∼N(m,s)a∼N(m,s)a \sim N(m, s) dan b∼N(v,t))b∼N(v,t))b \sim N(v, t)) . Kita dapat mengasumsikan ini adalah normal bivariat, sehingga posisinya dijelaskan oleh distribusi di atas (x,y)(x,y)(x,y) koordinat (yaitu mmm dan …


13
Mengapa median usia statistik yang lebih baik daripada usia rata-rata?
Jika Anda melihat Wolfram Alpha Atau halaman Wikipedia ini Daftar negara berdasarkan usia rata-rata Jelas median tampaknya menjadi statistik pilihan ketika datang ke usia. Saya tidak dapat menjelaskan kepada diri saya sendiri mengapa aritmatika berarti statistik yang lebih buruk. Kenapa gitu? Awalnya diposting di sini karena saya tidak tahu situs …
41 mean  median 



1
Bagaimana cara menginterpretasikan ukuran kesalahan?
Saya menjalankan klasifikasi di Weka untuk dataset tertentu dan saya perhatikan bahwa jika saya mencoba memprediksi nilai nominal, output secara spesifik menunjukkan nilai prediksi yang benar dan salah. Namun, sekarang saya menjalankannya untuk atribut numerik dan hasilnya adalah: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 …

3
Apa perbedaan antara Distribusi Normal dan Gaussian
Apakah ada perbedaan yang dalam antara distribusi Normal dan Gaussian, saya telah melihat banyak makalah yang menggunakannya tanpa perbedaan, dan saya biasanya juga menyebutnya sebagai hal yang sama. Namun, PI saya baru-baru ini mengatakan kepada saya bahwa yang normal adalah kasus spesifik dari Gaussian dengan mean = 0 dan std …

3
Bagaimana saya menghitung
Misalkan dan Φ ( ⋅ ) adalah fungsi kerapatan dan fungsi distribusi dari distribusi normal standar.ϕ(⋅)ϕ(⋅)\phi(\cdot)Φ(⋅)Φ(⋅)\Phi(\cdot) Bagaimana seseorang dapat menghitung integral: ∫∞−∞Φ(w−ab)ϕ(w)dw∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

9
Bagaimana cara menginterpretasikan nilai ukuran-F?
Saya ingin tahu bagaimana menafsirkan perbedaan nilai-nilai f-ukur. Saya tahu bahwa ukuran-f adalah rata-rata yang seimbang antara presisi dan daya ingat, tetapi saya bertanya tentang arti praktis dari perbedaan dalam ukuran-F. Sebagai contoh, jika classifier C1 memiliki akurasi 0,4 dan classifier C2 lainnya akurasi 0,8, maka kita dapat mengatakan bahwa …

5
Bagaimana skor kecenderungan berbeda dari menambahkan kovariat dalam regresi, dan kapan mereka lebih disukai daripada yang terakhir?
Saya akui bahwa saya relatif baru dalam hal skor kecenderungan dan analisis kausal. Satu hal yang tidak jelas bagi saya sebagai pendatang baru adalah bagaimana "menyeimbangkan" menggunakan skor kecenderungan secara matematis berbeda dari apa yang terjadi ketika kita menambahkan kovariat dalam regresi? Apa yang berbeda tentang operasi, dan mengapa lebih …

1
Apa bedanya softmax_cross_entropy_with_logits dari softmax_cross_entropy_with_logits_v2?
Secara khusus, saya kira saya bertanya-tanya tentang pernyataan ini: Versi utama masa depan TensorFlow akan memungkinkan gradien mengalir ke input label pada backprop secara default. Yang ditampilkan saat saya gunakan tf.nn.softmax_cross_entropy_with_logits. Dalam pesan yang sama ia mendesak saya untuk melihatnya tf.nn.softmax_cross_entropy_with_logits_v2. Saya melihat melalui dokumentasi tetapi hanya menyatakan bahwa untuk …

6
Hutan Acak - Cara menangani overfitting
Saya memiliki latar belakang ilmu komputer tetapi saya mencoba mengajari diri sendiri ilmu data dengan memecahkan masalah di internet. Saya telah mengerjakan masalah ini selama beberapa minggu terakhir (sekitar 900 baris dan 10 fitur). Saya awalnya menggunakan regresi logistik tetapi sekarang saya telah beralih ke hutan acak. Ketika saya menjalankan …

4
Regresi Logistik dalam R (Odds Ratio)
Saya mencoba melakukan analisis regresi logistik di R. Saya telah mengikuti kursus yang membahas materi ini menggunakan STATA. Saya merasa sangat sulit untuk meniru fungsi di R. Apakah sudah matang di area ini? Tampaknya ada sedikit dokumentasi atau panduan yang tersedia. Memproduksi output odds ratio tampaknya membutuhkan instalasi epicalcdan / …
41 r  logistic  odds-ratio 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.