Statistik dan Big Data statistical-significance

4

Apakah realistis untuk semua variabel menjadi sangat signifikan dalam model regresi berganda?

Saya ingin mengurangi penghematan bahan bakar pada perpindahan engine, tipe bahan bakar, penggerak 2 vs 4 roda, tenaga kuda, transmisi manual vs. otomatis, dan jumlah kecepatan. Kumpulan data saya ( tautan ) berisi kendaraan dari 2012-2014. fuelEconomy dalam mil per galon engineDisplacement: ukuran mesin dalam liter fuelStd: 1 untuk gas …

8 r statistical-significance multiple-regression interpretation

1

Bagaimana saya mengulangi pertanyaan ini secara statistik

Saya menganalisis dataset yang berisi pengamatan dari n sejumlah upaya oleh pemain dalam sebuah permainan. Jika saya membangun model regresi untuk memprediksi hasil dari setiap upaya yang diberikan 1 atau lebih deskriptor mengenai upaya masing-masing pemain , bagaimana cara mengukur berapa banyak upaya pemain harus sebelum deskriptor tertentu menjadi "bermakna" …

8 regression statistical-significance bayesian p-value sequence-analysis

3

Bagaimana melakukan SVD untuk memasukkan nilai yang hilang, contoh konkret

Saya telah membaca komentar yang bagus mengenai bagaimana menangani nilai yang hilang sebelum menerapkan SVD, tetapi saya ingin tahu cara kerjanya dengan contoh sederhana: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Mengingat matriks di atas, jika saya …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

5

Mengapa regressor yang tidak relevan menjadi signifikan secara statistik dalam sampel besar?

Saya mencoba untuk lebih memahami signifikansi statistik, ukuran efek dan sejenisnya. Saya memiliki persepsi (mungkin itu salah) bahwa bahkan regresi yang tidak relevan sering menjadi signifikan secara statistik dalam sampel besar . Dengan tidak relevan saya berarti bahwa tidak ada penjelasan pokok permasalahan mengapa regressor harus berhubungan dengan variabel dependen. …

8 regression statistical-significance effect-size large-data

1

Haruskah saya memeriksa skor-z jika nilai p dari Moran Lokal I signifikan?

Dataset yang saya gunakan berisi data pendapatan per area. Nilai-nilai tidak terdistribusi normal seperti yang ditunjukkan pada diagram berikut. Global Moran's I menunjukkan pola spasial yang signifikan dan Local Moran's I menemukan titik-titik panas dan dingin yang signifikan (menurut nilai-p). Ketika saya memeriksa skor-z, ternyata titik dingin tidak mencapai level …

8 statistical-significance autocorrelation spatial

1

R - power.prop.test, prop.test, dan ukuran sampel yang tidak sama dalam tes A / B

Katakanlah saya ingin tahu ukuran sampel apa yang saya butuhkan untuk percobaan di mana saya ingin menentukan apakah perbedaan dalam dua proporsi keberhasilan itu signifikan secara statistik. Inilah proses saya saat ini: Lihatlah data historis untuk menetapkan prediksi baseline. Katakan bahwa di masa lalu, mengambil tindakan menghasilkan tingkat keberhasilan 10% …

8 r hypothesis-testing statistical-significance proportion

2

Apakah nilai p juga tingkat penemuan yang salah?

Dalam http://surveyanalysis.org/wiki/Multiple_Comparisons_(Post_Hoc_Testing) menyatakan Sebagai contoh, jika kita memiliki nilai p 0,05 dan kita menyimpulkan itu signifikan, probabilitas penemuan palsu, menurut definisi, 0,05. Pertanyaan saya: Saya selalu berpikir bahwa penemuan yang salah adalah kesalahan Tipe I, yang sama dengan tingkat signifikansi yang dipilih dalam kebanyakan tes. Nilai-P adalah nilai yang dihitung …

8 hypothesis-testing statistical-significance p-value false-discovery-rate type-i-and-ii-errors

2

Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Ketika n meningkatkan nilai-t meningkat dalam uji hipotesis, tetapi t-tabel justru sebaliknya. Mengapa?

Rumus untuk dalam uji hipotesis diberikan oleh: tttt =X¯- μσ^/n--√.t=X¯−μσ^/n. t=\frac{\bar{X}-\mu}{\hat \sigma/\sqrt{n}}. Ketika meningkat, nilai- meningkat sesuai dengan rumus di atas. Tetapi mengapa kritis menurun pada -tabel saat (yang merupakan fungsi dari ) meningkat?nnntttttttttdfdf\text{df}nnn

8 hypothesis-testing self-study statistical-significance t-test t-distribution

2

Menggabungkan nilai-p dari berbagai uji statistik yang diterapkan pada data yang sama

Meskipun judul pertanyaan itu tampaknya sepele, saya ingin menjelaskan bahwa itu tidak sepele dalam arti bahwa itu berbeda dari pertanyaan menerapkan uji statistik yang sama dalam kumpulan data yang sama untuk menguji terhadap hipotesis nol total (meta-analisis, misalnya menggunakan metode Fisher untuk menggabungkan nilai-p). Apa yang saya cari, adalah metode …

8 hypothesis-testing probability statistical-significance multiple-comparisons p-value

3

Cara menguji apakah varians dua distribusi berbeda jika distribusi tidak normal

Saya sedang mempelajari dua populasi yang secara geografis terisolasi dari spesies yang sama. Memeriksa distribusi, saya melihat bahwa keduanya bimodal (ada beberapa musim yang terjadi), tetapi puncak dalam satu populasi jauh lebih tinggi dan lebih sempit (yaitu, varian dari puncak lokal lebih kecil). Apa jenis uji statistik yang sesuai untuk …

8 distributions statistical-significance variance

2

Bagaimana cara membandingkan dua algoritma secara statistik pada tiga dataset dalam pemilihan dan klasifikasi fitur?

Latar belakang masalah: Sebagai bagian dari penelitian saya, saya telah menulis dua algoritma yang dapat memilih satu set fitur dari set data (data ekspresi gen dari pasien kanker). Fitur-fitur ini kemudian diuji untuk melihat seberapa baik mereka dapat mengklasifikasikan sampel yang tidak terlihat sebagai kanker atau non-kanker. Untuk setiap rangkaian …

8 machine-learning statistical-significance computational-statistics standardization genetic-algorithms

2

Memperkirakan keberhasilan komparatif dari berbagai brosur

Masalah Dunia Nyata Salah satu klien saya sedang bersiap untuk mengirim mailer langsung ke daftar pengguna berlangganan mereka, dan tantangan statistik ini muncul. Tim pemasaran mereka memiliki 3 brosur berbeda, dan ingin tahu brosur mana yang mendapat tingkat respons tertinggi. Mereka juga ingin tahu apakah mengirim mailer dengan alamat tulisan …

8 hypothesis-testing anova statistical-significance

3

Post hoc test dalam ANOVA desain campuran 2x3 menggunakan SPSS?

Saya memiliki dua kelompok yang terdiri dari 10 peserta yang dinilai tiga kali selama percobaan. Untuk menguji perbedaan antara kelompok dan di tiga penilaian, saya menjalankan ANOVA desain campuran 2x3 dengan group(kontrol, eksperimental), time(pertama, kedua, tiga), dan group x time. Keduanya timedan grouphasilnya signifikan, selain itu ada interaksi yang signifikan …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

2

Kelayakan tes berdasarkan pada variabel acak diskrit

Untuk statistik uji diskrit, distribusi yang sesuai ppp-nilai terpisah dan stokastik lebih besar dari distribusi seragam. Oleh karena itu uji hipotesis yang sesuai berdasarkan nilai-p (menolak jika nilai-p kurang dari 0,05, misalnya) selalu konservatif dalam arti bahwa kemungkinan membuat kesalahan Tipe I akan lebih kecil dari 0,05. Saya tahu kadang-kadang …

8 distributions statistical-significance hypothesis-testing discrete-data

Pertanyaan yang diberi tag «statistical-significance»