Statistik dan Big Data hypothesis-testing

2

Mengapa salah menghentikan tes A / B sebelum ukuran sampel optimal tercapai?

Saya bertanggung jawab untuk mempresentasikan hasil tes A / B (dijalankan berdasarkan variasi situs web) di perusahaan saya. Kami menjalankan tes selama satu bulan dan kemudian memeriksa nilai-p pada interval reguler sampai kami mencapai signifikansi (atau mengabaikan jika signifikansi tidak tercapai setelah menjalankan tes untuk waktu yang lama), sesuatu yang …

13 hypothesis-testing statistical-significance bias ab-test optimal-stopping

8

Menguji algoritma pembangkitan variate acak

Metode apa yang digunakan untuk menguji algoritma pembuatan variate acak?

12 algorithms hypothesis-testing random-variable random-generation

3

Mengapa beberapa (jika tidak semua) tes hipotesis parametrik menggunakan pengambilan sampel acak?

Tes seperti Z, t, dan beberapa lainnya mengasumsikan bahwa data didasarkan pada pengambilan sampel acak. Mengapa? Misalkan saya sedang melakukan penelitian eksperimental, di mana saya lebih peduli untuk validitas internal daripada yang eksternal. Jadi, jika sampel saya mungkin sedikit bias, oke, karena saya telah menerima untuk tidak menyimpulkan hipotesis untuk …

12 hypothesis-testing sampling parametric randomness

5

Menentukan ukuran sampel sebelum memulai percobaan atau menjalankan percobaan tanpa batas?

Saya mempelajari statistik bertahun-tahun yang lalu dan telah melupakan semuanya sehingga ini mungkin tampak seperti pertanyaan konseptual umum daripada yang spesifik tetapi di sini adalah masalah saya. Saya bekerja untuk situs web e-commerce sebagai Desainer UX. Kami memiliki kerangka kerja pengujian A / B yang dibangun bertahun-tahun lalu dan saya …

12 hypothesis-testing sample-size sequential-analysis

2

Bagaimana membenarkan tingkat kesalahan false-positif / false-negative yang dipilih dan rasio biaya yang mendasarinya?

Konteks Sekelompok ilmuwan sosial dan ahli statistik ( Benjamin et al., 2017 ) baru-baru ini menyarankan bahwa tingkat false-positive tipikal ( = .05) digunakan sebagai ambang batas untuk menentukan "signifikansi statistik" perlu disesuaikan dengan ambang batas yang lebih konservatif. ( = .005). Sekelompok ilmuwan sosial dan ahli statistik yang bersaing …

12 hypothesis-testing p-value power type-i-and-ii-errors

2

Apakah kompetisi Kaggle baru saja dimenangkan secara kebetulan?

Kompetisi Kaggle menentukan peringkat akhir berdasarkan set tes yang diadakan. Satu set tes yang diadakan adalah sampel; mungkin tidak mewakili populasi yang dimodelkan. Karena setiap pengiriman seperti hipotesis, algoritme yang memenangkan kompetisi mungkin saja, secara kebetulan, akhirnya cocok dengan set tes yang lebih baik daripada yang lain. Dengan kata lain, …

12 machine-learning probability hypothesis-testing sample kaggle

1

Gunakan

Misalkan saya mempunyai adalah iid dan saya ingin melakukan tes hipotesis bahwa adalah 0. Misalkan saya memiliki n besar dan dapat menggunakan Teorema Limit Pusat. Saya juga bisa melakukan tes bahwa adalah 0, yang harus setara dengan pengujian bahwa adalah 0. Selanjutnya, menyatu dengan chi-squared, di mana menyatu menjadi normal. …

12 hypothesis-testing convergence delta-method

2

Menggunakan lm untuk uji proporsi 2 sampel

Saya telah menggunakan model linier untuk melakukan tes proporsi 2 sampel untuk sementara waktu, tetapi telah menyadari bahwa mungkin tidak sepenuhnya benar. Tampaknya menggunakan model linier umum dengan tautan keluarga + identitas binomial memberikan hasil tes proporsi 2 sampel yang tidak dikumpulkan. Namun, menggunakan model linier (atau glm dengan keluarga …

12 r hypothesis-testing generalized-linear-model proportion

1

Uji good-of-fit dalam regresi logistik; 'cocok' mana yang ingin kita uji?

Saya merujuk pada pertanyaan dan jawabannya: Bagaimana cara membandingkan (kemungkinan) kemampuan prediksi model yang dikembangkan dari regresi logistik? oleh @Clark Chong dan jawaban / komentar oleh @ Frank Harrell. dan untuk pertanyaan Derajat kebebasan dalam tes Hosmer-Lemeshowχ2χ2\chi^2 dan komentar-komentarnya. Saya telah membaca makalah DW Hosmer, T. Hosmer, S. Le Cessie, …

12 hypothesis-testing logistic predictive-models regression-strategies hosmer-lemeshow-test

1

Apa perbedaan antara 'pengujian hipotesis' dan 'pemilihan model'?

Dalam literatur, kedua istilah ini sering digunakan secara sinonim atau terjalin. Sekarang saya mencoba untuk menemukan perbedaan yang jelas antara kedua istilah. Dari sudut pandang saya, hipotesis biasanya dinyatakan melalui model. Jadi, bahkan jika kita menguji hipotesis nol vs alternatif, dari perspektif saya, kami melakukan pemilihan model. Bisakah seseorang memberi …

12 hypothesis-testing model-selection regression-strategies

5

Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?

Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Mengapa distribusi seragam ini?

Kami sedang menyelidiki uji statistik Bayesian, dan menemukan fenomena aneh (bagi saya setidaknya). Pertimbangkan kasus berikut: kami tertarik untuk mengukur populasi mana, A atau B, yang memiliki tingkat konversi yang lebih tinggi. Untuk pemeriksaan kewarasan, kami menetapkan , yaitu probabilitas konversi sama di kedua grup. Kami menghasilkan data buatan menggunakan …

12 hypothesis-testing bayesian binomial python beta-distribution

1

Bagaimana cara melakukan tes bootstrap untuk membandingkan cara dua sampel?

Saya memiliki dua sampel yang sangat miring dan saya mencoba menggunakan bootstrap untuk membandingkan cara mereka menggunakan t-statistik. Apa prosedur yang benar untuk melakukannya? Proses yang saya gunakan Saya khawatir tentang kesesuaian menggunakan kesalahan standar data asli / yang diamati pada langkah terakhir ketika saya tahu bahwa ini tidak terdistribusi …

12 hypothesis-testing t-test bootstrap

1

Jika distribusi statistik uji adalah bimodal, apakah nilai-p bermakna?

Nilai-P didefinisikan sebagai probabilitas untuk memperoleh uji-statistik paling tidak sama ekstrim dengan apa yang diamati, dengan asumsi hipotesis nol adalah benar. Dengan kata lain, Tetapi bagaimana jika uji-statistik bimodal dalam distribusi? Apakah nilai-p berarti dalam konteks ini? Sebagai contoh, saya akan mensimulasikan beberapa data bimodal di R:P(X≥t|H0)P(X≥t|H0)P( X \ge t …

12 hypothesis-testing statistical-significance p-value descriptive-statistics bimodal

2

Mengapa uji independensi menggunakan distribusi chi-squared?

Uji goodness-of-fit menggunakan statistik berikut : χ 2 0 = n ∑ i = 1 ( O i - E i ) 2χ2χ2\chi^2 Dalam tes, pemberian bahwa kondisi terpenuhi, salah satu kegunaan yangχ2-distribusiuntuk menghitung p-value yang diberikanH0benar salah satu akan mengamati nilai tersebut dalam sampel yang representatif dengan ukuran yang …

12 hypothesis-testing chi-squared

Pertanyaan yang diberi tag «hypothesis-testing»