Statistik dan Big Data sample-size

4

Seberapa besar sampel untuk teknik estimasi dan parameter yang diberikan?

Apakah ada aturan praktis atau bahkan cara apa pun untuk mengetahui seberapa besar sampel dalam rangka memperkirakan model dengan sejumlah parameter tertentu? Jadi, misalnya, jika saya ingin memperkirakan regresi kuadrat-terkecil dengan 5 parameter, seberapa besar seharusnya sampel itu? Apakah penting teknik estimasi apa yang Anda gunakan (mis. Kemungkinan maksimum, kuadrat …

12 sample-size estimation least-squares maximum-likelihood

1

Mengapa banyak pilihan K menurunkan nilai validasi silang saya?

Bermain-main dengan Boston Housing Dataset dan RandomForestRegressor(parameter w / default) di scikit-belajar, saya melihat sesuatu yang aneh: skor validasi silang menurun ketika saya meningkatkan jumlah lipatan di atas 10. Strategi validasi silang saya adalah sebagai berikut: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... di mana num_cvsbervariasi. …

11 machine-learning cross-validation random-forest sample-size scikit-learn

1

Apakah bootstrap cocok untuk data kontinu ini?

Saya seorang pemula lengkap :) Saya sedang melakukan penelitian dengan ukuran sampel 10.000 dari populasi sekitar 745.000. Setiap sampel mewakili "persentase kesamaan". Sebagian besar sampel adalah sekitar 97% -98% tetapi beberapa berada di antara 60% dan 90%, yaitu, distribusi sangat condong negatif. Sekitar 0,6% dari hasilnya adalah 0%, tetapi ini …

11 bootstrap sample-size resampling

4

Apa artinya studi menjadi terlalu bertenaga?

Apa artinya studi menjadi terlalu bertenaga? Kesan saya adalah itu berarti bahwa ukuran sampel Anda sangat besar sehingga Anda memiliki kekuatan untuk mendeteksi ukuran efek sangat kecil. Ukuran efek ini mungkin sangat kecil sehingga lebih mungkin dihasilkan dari sedikit bias dalam proses pengambilan sampel daripada koneksi kausal (tidak harus langsung) …

11 statistical-significance sample-size effect-size power-analysis power

1

Ukuran sampel diperlukan untuk menentukan iklan mana yang memiliki rasio klik-tayang tertinggi

Saya seorang perancang perangkat lunak berdasarkan perdagangan dan saya sedang mengerjakan proyek untuk klien, dan saya ingin memastikan bahwa analisis saya secara statistik baik. Pertimbangkan yang berikut ini: Kami memiliki n iklan (n <10), dan kami hanya ingin tahu iklan mana yang berkinerja terbaik. Server iklan kami akan menayangkan salah …

11 anova sample-size t-test rule-of-thumb

4

Perhitungan ukuran sampel untuk regresi logistik univariat

Bagaimana seseorang menghitung ukuran sampel yang diperlukan untuk penelitian di mana kohort subyek akan memiliki variabel kontinu tunggal yang diukur pada saat operasi dan kemudian dua tahun kemudian mereka akan diklasifikasikan sebagai hasil fungsional atau hasil yang terganggu. Kami ingin melihat apakah pengukuran itu bisa memprediksi hasil yang buruk. Pada …

11 logistic sample-size

1

R / mgcv: Mengapa produk tensor () dan ti () menghasilkan permukaan yang berbeda?

The mgcvpaket untuk Rmemiliki dua fungsi untuk pas interaksi produk tensor: te()dan ti(). Saya memahami pembagian kerja dasar antara keduanya (menyesuaikan interaksi non-linear vs menguraikan interaksi ini menjadi efek utama dan interaksi). Yang tidak saya mengerti adalah mengapa te(x1, x2)dan ti(x1) + ti(x2) + ti(x1, x2)mungkin menghasilkan (sedikit) hasil yang …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

Apakah SurveyMonkey mengabaikan fakta bahwa Anda mendapatkan sampel non-acak?

SurveyMonkey memiliki langkah-langkah dan bagan untuk Anda mengetahui ukuran sampel apa yang Anda butuhkan untuk margin kesalahan atau interval kepercayaan tertentu, berdasarkan pada ukuran populasi Anda. Ukuran sampel SurveyMonkey Apakah bagan ini mengabaikan fakta bahwa Anda tidak akan mendapatkan sampel acak, karena Anda hanya membuat orang-orang yang repot-repot menanggapi survei? …

11 confidence-interval sample-size survey sample

2

Apakah bobot berbasis presisi (yaitu invers-varians) merupakan bagian integral dari meta-analisis?

Apakah pembobotan berbasis presisi penting bagi meta-analisis? Borenstein et al. (2009) menulis bahwa untuk memungkinkan meta-analisis, semua yang diperlukan adalah: Studi melaporkan estimasi titik yang dapat dinyatakan sebagai angka tunggal. Varians dapat dihitung untuk estimasi titik itu. Tidak segera jelas bagi saya mengapa (2) sangat diperlukan. Tetapi, memang, semua metode …

10 variance sample-size missing-data meta-analysis

2

Bagaimana memilih pelatihan, validasi silang, dan ukuran set uji untuk data ukuran sampel kecil?

Asumsikan saya memiliki ukuran sampel yang kecil, misalnya N = 100, dan dua kelas. Bagaimana saya harus memilih pelatihan, validasi silang, dan ukuran set tes untuk pembelajaran mesin? Saya akan memilih secara intuitif Pelatihan menetapkan ukuran 50 Validasi silang mengatur ukuran 25, dan Ukuran tes 25. Tapi mungkin ini lebih …

10 machine-learning sampling svm cross-validation sample-size

2

Apakah masuk akal untuk menghitung interval kepercayaan dan untuk menguji hipotesis ketika data dari seluruh populasi tersedia?

Apakah masuk akal untuk menghitung interval kepercayaan dan untuk menguji hipotesis ketika data dari seluruh populasi tersedia? Menurut pendapat saya, jawabannya adalah tidak, karena kita dapat secara akurat menghitung nilai sebenarnya dari parameter. Tetapi kemudian, berapa proporsi maksimal data dari populasi asli yang memungkinkan kita untuk menggunakan teknik yang disebutkan …

10 hypothesis-testing confidence-interval sample-size large-data population

3

Analisis daya untuk data binomial ketika hipotesis nol adalah

Saya ingin melakukan analisis kekuatan untuk sampel tunggal dari data binomial, dengan H0:p=0H0:p=0H_0: p = 0 , vs H1:p=0.001H1:p=0.001H_1: p = 0.001 , di mana ppp adalah proporsi keberhasilan dalam populasi. Jika 0<p<10<p<10 < p <1 , saya bisa menggunakan aproksimasi normal ke binomial, atau χ2χ2\chi^2 -tes, tetapi dengan p=0p=0p …

10 hypothesis-testing sample-size power-analysis power

1

Mengapa Anova () dan drop1 () memberikan jawaban berbeda untuk GLMM?

Saya memiliki GLMM formulir: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Ketika saya menggunakan drop1(model, test="Chi"), saya mendapatkan hasil yang berbeda daripada jika saya menggunakan Anova(model, type="III")dari paket mobil atau summary(model). Dua yang terakhir ini memberikan jawaban yang sama. Menggunakan banyak data yang …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

Plot saluran alternatif, tanpa menggunakan kesalahan standar (SE)

Sebelum menyerahkan meta-analisis saya, saya ingin membuat plot saluran untuk menguji heterogenitas dan bias publikasi. Saya memiliki ukuran efek gabungan dan ukuran efek dari setiap studi, yang mengambil nilai dari -1 hingga +1. Saya memiliki ukuran sampel n1, n2 untuk pasien dan kontrol dari setiap penelitian. Karena saya tidak dapat …

10 meta-analysis sample-size standard-error funnel-plot publication-bias

2

Ukuran sampel minimum per cluster dalam model efek acak

Apakah ada rasional untuk jumlah pengamatan per cluster dalam model efek acak? Saya memiliki ukuran sampel 1.500 dengan 700 cluster dimodelkan sebagai efek acak yang dapat ditukar. Saya memiliki opsi untuk menggabungkan kluster untuk membangun kluster yang lebih sedikit, tetapi lebih besar. Saya bertanya-tanya bagaimana saya bisa memilih ukuran sampel …

10 mixed-model sample-size random-effects-model power-analysis

Pertanyaan yang diberi tag «sample-size»