Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

5
Bagaimana cara menyelesaikan paradoks Simpson?
Paradoks Simpson adalah teka-teki klasik yang dibahas dalam kursus statistik pengantar di seluruh dunia. Namun, kursus saya puas dengan hanya mencatat bahwa ada masalah dan tidak memberikan solusi. Saya ingin tahu bagaimana menyelesaikan paradoks. Artinya, ketika dihadapkan dengan paradoks Simpson, di mana dua pilihan yang berbeda tampaknya bersaing untuk menjadi …

3
PCA dan split kereta / tes
Saya memiliki dataset yang memiliki beberapa set label biner. Untuk setiap set label, saya melatih classifier, mengevaluasinya dengan validasi silang. Saya ingin mengurangi dimensi menggunakan analisis komponen utama (PCA). Pertanyaanku adalah: Apakah mungkin untuk melakukan PCA satu kali untuk seluruh dataset dan kemudian menggunakan dataset baru dengan dimensi yang lebih …


6
Perkiraan
Saya telah melihat simulasi Monte Carlo baru-baru ini, dan telah menggunakannya untuk memperkirakan konstanta seperti (lingkaran di dalam persegi panjang, area proporsional).ππ\pi Namun, saya tidak dapat memikirkan metode yang sesuai untuk memperkirakan nilai [angka Euler] menggunakan integrasi Monte Carlo.eee Apakah Anda memiliki petunjuk tentang bagaimana hal ini dapat dilakukan?


2
Apa itu simetri majemuk dalam bahasa Inggris biasa?
Baru-baru ini saya menyadari bahwa model campuran dengan subjek hanya sebagai faktor acak dan faktor-faktor lain sebagai faktor tetap setara dengan ANOVA ketika menetapkan struktur korelasional dari model campuran ke senyawa simetri. Oleh karena itu saya ingin tahu apa arti dari simetri majemuk dalam konteks ANOVA campuran (yaitu, petak-petak), paling …

5
Apa praktik terbaik dalam mengidentifikasi efek interaksi?
Selain secara harfiah menguji setiap kemungkinan kombinasi variabel dalam suatu model ( x1:x2atau x1*x2 ... xn-1 * xn). Bagaimana Anda mengidentifikasi jika interaksi HARUS atau BISA ada antara variabel independen Anda (semoga)? Apa praktik terbaik dalam mencoba mengidentifikasi interaksi? Apakah ada teknik grafis yang bisa atau tidak Anda gunakan?

7
Memilih variabel untuk dimasukkan dalam model regresi linier berganda
Saat ini saya sedang bekerja untuk membangun model menggunakan regresi linier berganda. Setelah mengutak-atik model saya, saya tidak yakin bagaimana cara terbaik menentukan variabel mana yang harus disimpan dan yang harus dihapus. Model saya mulai dengan 10 prediktor untuk DV. Saat menggunakan semua 10 prediktor, empat dianggap signifikan. Jika saya …

4
Pembenaran pengujian hipotesis satu sisi
Saya mengerti pengujian hipotesis dua sisi. Anda memiliki (vs. ). Nilai adalah probabilitas bahwa menghasilkan data setidaknya sama ekstrimnya dengan apa yang diamati.H0:θ=θ0H0:θ=θ0H_0 : \theta = \theta_0H1=¬H0:θ≠θ0H1=¬H0:θ≠θ0H_1 = \neg H_0 : \theta \ne \theta_0pppθθ\theta Saya tidak mengerti pengujian hipotesis satu sisi. Di sini, (vs. ). Definisi nilai-p seharusnya tidak berubah …

3
Bagaimana cara mengambil turunan dari kepadatan normal multivariat?
Katakanlah saya memiliki kepadatan multivarian normal . Saya ingin mendapatkan turunan kedua (parsial) wrt . Tidak yakin bagaimana cara mengambil turunan dari sebuah matriks.N(μ,Σ)N(μ,Σ)N(\mu, \Sigma)μμ\mu Wiki mengatakan ambil elemen turunan dengan elemen di dalam matriks. Saya bekerja dengan aproksimasi Laplace Mode adalah .Θ = μlogPN(θ)=logPN−12(θ−θ^)TΣ−1(θ−θ^).log⁡PN(θ)=log⁡PN−12(θ−θ^)TΣ−1(θ−θ^).\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>.θ^= μθ^=μ\hat\theta=\mu Saya diberi …

5
Apa gunanya fungsi 'komentar' dalam R?
Saya baru saja menemukan commentfungsi di R. Contoh: x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) Ini adalah pertama kalinya saya datang dengan fungsi ini dan bertanya-tanya apa kegunaan umum / berguna dari itu. Karena cukup sulit untuk …
35 r 


3
Apakah pooling layer ditambahkan sebelum atau sesudah dropout layer?
Saya membuat jaringan saraf convolutional (CNN), di mana saya memiliki lapisan convolutional diikuti oleh lapisan penyatuan dan saya ingin menerapkan dropout untuk mengurangi overfitting. Saya memiliki perasaan bahwa lapisan dropout harus diterapkan setelah lapisan penggabungan, tetapi saya tidak benar-benar memiliki apa pun untuk mendukungnya. Di mana tempat yang tepat untuk …

5
Mengapa menambah ukuran sampel menurunkan varians (pengambilan sampel)?
Gambar besar: Saya mencoba memahami bagaimana meningkatkan ukuran sampel meningkatkan kekuatan percobaan. Slide dosen saya menjelaskan ini dengan gambar 2 distribusi normal, satu untuk hipotesis-nol dan satu untuk hipotesis-alternatif dan ambang keputusan c di antara mereka. Mereka berpendapat bahwa peningkatan ukuran sampel akan menurunkan varians dan dengan demikian menyebabkan kurtosis …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.