Statistik dan Big Data spss

25

Banyak orang menggunakan alat utama seperti Excel atau spreadsheet lain, SPSS, Stata, atau R untuk kebutuhan statistik mereka. Mereka mungkin beralih ke beberapa paket khusus untuk kebutuhan yang sangat khusus, tetapi banyak hal dapat dilakukan dengan spreadsheet sederhana atau paket statistik umum atau lingkungan pemrograman statistik. Saya selalu menyukai Python …

355 r spss stata python

3

Contoh: regresi LASSO menggunakan glmnet untuk hasil biner

Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Kapan R kuadrat negatif?

Pemahaman saya adalah bahwa tidak dapat negatif karena merupakan persegi R. Namun aku berlari regresi linier sederhana dalam SPSS dengan satu variabel bebas dan variabel terikat. Output SPSS saya memberi saya nilai negatif untuk R 2 . Jika saya menghitung ini dengan tangan dari R maka R 2 akan positif. …

77 regression spss r-squared

8

Apakah PCA diikuti oleh rotasi (seperti varimax) masih PCA?

Saya telah mencoba mereproduksi beberapa penelitian (menggunakan PCA) dari SPSS di R. Dalam pengalaman saya, principal() fungsi dari paket psychadalah satu-satunya fungsi yang mendekati (atau jika ingatan saya benar, mati) untuk mencocokkan output. Untuk mencocokkan hasil yang sama seperti di SPSS, saya harus menggunakan parameter principal(..., rotate = "varimax"). Saya …

63 r spss pca factor-analysis factor-rotation

7

Mengapa "signifikan secara statistik" tidak cukup?

Saya telah menyelesaikan analisis data saya dan mendapatkan "hasil yang signifikan secara statistik" yang konsisten dengan hipotesis saya. Namun, seorang siswa dalam statistik mengatakan kepada saya bahwa ini adalah kesimpulan prematur. Mengapa? Apakah ada hal lain yang perlu dimasukkan dalam laporan saya?

46 hypothesis-testing statistical-significance spss p-value

3

Interpretasi dari prediktor dan / atau respons yang diubah log

Saya bertanya-tanya apakah itu membuat perbedaan dalam interpretasi apakah hanya dependen, baik dependen dan independen, atau hanya variabel independen yang ditransformasikan log. Pertimbangkan kasus log(DV) = Intercept + B1*IV + Error Saya bisa menafsirkan IV sebagai peningkatan persen tetapi bagaimana ini berubah ketika saya punya log(DV) = Intercept + B1*log(IV) …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

3

Mengapa ada perbedaan antara menghitung interval kepercayaan 95% regresi logistik secara manual, dan menggunakan fungsi confint () di R?

Dear everyone - Saya telah memperhatikan sesuatu yang aneh yang tidak dapat saya jelaskan, bukan? Singkatnya: pendekatan manual untuk menghitung interval kepercayaan dalam model regresi logistik, dan fungsi R confint()memberikan hasil yang berbeda. Saya telah melalui regresi logistik Terapan Hosmer & Lemeshow (edisi ke-2). Dalam bab ke-3 ada contoh menghitung …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

1

Melakukan analisis komponen utama atau analisis faktor pada data biner

Saya memiliki dataset dengan sejumlah besar jawaban Ya / Tidak. Dapatkah saya menggunakan komponen utama (PCA) atau analisis reduksi data lainnya (seperti analisis faktor) untuk tipe data ini? Mohon saran bagaimana saya melakukan ini menggunakan SPSS.

30 spss categorical-data pca factor-analysis binary-data

5

Cara menangani data hierarkis / bersarang dalam pembelajaran mesin

Saya akan menjelaskan masalah saya dengan sebuah contoh. Misalkan Anda ingin memprediksi penghasilan seseorang yang diberikan beberapa atribut: {Usia, Jenis Kelamin, Negara, Wilayah, Kota}. Anda memiliki dataset pelatihan seperti itu train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Metode ekstraksi faktor terbaik dalam analisis faktor

SPSS menawarkan beberapa metode ekstraksi faktor: Komponen utama (yang sama sekali bukan analisis faktor) Kuadrat terkecil tertimbang Kuadrat terkecil umum Kemungkinan Maksimum Sumbu Utama Anjak piutang Anjak gambar Mengabaikan metode pertama, yang bukan analisis faktor (tetapi analisis komponen utama, PCA), yang mana dari metode ini yang "terbaik"? Apa keuntungan relatif …

29 spss pca factor-analysis

4

Fisher's Exact Test dalam tabel kontingensi lebih besar dari 2x2

Saya diajarkan untuk hanya menerapkan Fisher's Exact Test di tabel kontingensi yang 2x2. Pertanyaan: Apakah Fisher sendiri pernah membayangkan tes ini untuk digunakan dalam tabel yang lebih besar dari 2x2 (Saya tahu kisahnya merancang tes sambil mencoba menebak apakah seorang wanita tua dapat mengetahui apakah susu ditambahkan ke teh atau …

29 spss stata contingency-tables fishers-exact

1

Menghitung pengulangan efek dari model lmer

Saya baru saja menemukan makalah ini , yang menjelaskan bagaimana menghitung pengulangan (alias reliabilitas, alias korelasi intraclass) dari pengukuran melalui pemodelan efek campuran. Kode R adalah: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

4

Perbedaan antara binomial, binomial negatif dan regresi Poisson

Saya mencari beberapa informasi tentang perbedaan antara binomial, binomial negatif dan regresi Poisson dan untuk situasi mana regresi ini paling cocok. Apakah ada tes yang dapat saya lakukan di SPSS yang dapat memberitahu saya mana dari regresi ini yang terbaik untuk situasi saya? Juga, bagaimana cara menjalankan Poisson atau binomial …

26 spss references binomial poisson-distribution negative-binomial

2

CHAID vs CRT (atau CART)

Saya menjalankan klasifikasi pohon keputusan menggunakan SPSS pada kumpulan data dengan sekitar 20 prediktor (kategori dengan beberapa kategori). CHAID (Deteksi Interaksi Otomatis Chi-squared) dan CRT / CART (Klasifikasi Dan Pohon Regresi) memberi saya pohon yang berbeda. Adakah yang bisa menjelaskan manfaat relatif CHAID vs CRT? Apa implikasi dari menggunakan satu …

23 spss cart

2

Bagaimana cara mengelompokkan deret waktu?

Saya punya pertanyaan tentang analisis kluster. Ada 3000 perusahaan, yang harus dikelompokkan sesuai dengan penggunaan daya mereka selama 5 tahun. Setiap perusahaan memiliki nilai untuk setiap jam selama 5 tahun. Saya ingin mengetahui apakah beberapa perusahaan memiliki pola yang sama dalam penggunaan daya selama periode waktu tersebut. Hasilnya harus digunakan …

22 time-series clustering spss

Pertanyaan yang diberi tag «spss»