Statistik dan Big Data survey

3

Contoh: regresi LASSO menggunakan glmnet untuk hasil biner

Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

5

Cara menangani data hierarkis / bersarang dalam pembelajaran mesin

Saya akan menjelaskan masalah saya dengan sebuah contoh. Misalkan Anda ingin memprediksi penghasilan seseorang yang diberikan beberapa atribut: {Usia, Jenis Kelamin, Negara, Wilayah, Kota}. Anda memiliki dataset pelatihan seperti itu train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Menghitung pengulangan efek dari model lmer

Saya baru saja menemukan makalah ini , yang menjelaskan bagaimana menghitung pengulangan (alias reliabilitas, alias korelasi intraclass) dari pengukuran melalui pemodelan efek campuran. Kode R adalah: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

4

Bagaimana cara memproyeksikan vektor baru ke ruang PCA?

Setelah melakukan analisis komponen utama (PCA), saya ingin memproyeksikan vektor baru ke ruang PCA (yaitu menemukan koordinatnya dalam sistem koordinat PCA). Saya telah menghitung PCA dalam bahasa R menggunakan prcomp. Sekarang saya harus bisa mengalikan vektor saya dengan matriks rotasi PCA. Haruskah komponen utama dalam matriks ini disusun dalam baris …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

penggunaan bobot dalam svyglm vs glm

Saya ingin tahu bagaimana perlakuan bobot berbeda antara svyglmdanglm Saya menggunakan twangpaket dalam R untuk membuat skor kecenderungan yang kemudian digunakan sebagai bobot, sebagai berikut (kode ini berasal dari twangdokumentasi): library(twang) library(survey) set.seed(1) data(lalonde) ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + …

18 r survey

2

Bagaimana cara menghitung rata-rata panjang kepatuhan vegetarianisme ketika kita hanya memiliki data survei tentang vegetarian saat ini?

Sampel populasi acak disurvei. Mereka ditanya apakah mereka makan diet vegetarian. Jika mereka menjawab ya, mereka juga diminta untuk menentukan berapa lama mereka telah makan diet vegetarian tanpa gangguan. Saya ingin menggunakan data ini untuk menghitung panjang rata-rata kepatuhan pada vegetarian. Dengan kata lain, ketika seseorang menjadi vegetarian, saya ingin …

16 survival mean missing-data survey weighted-mean

8

Bagaimana memperlakukan respons survei yang tidak logis

Saya telah mengirimkan survei ke sampel artis. Salah satu pertanyaannya adalah untuk menunjukkan persentase pendapatan yang diperoleh dari: aktivitas artistik, dukungan pemerintah, pensiun swasta, aktivitas yang tidak terkait dengan seni. Sekitar 65% dari individu telah menjawab sedemikian sehingga jumlah persentasenya adalah 100. Yang lain tidak: misalnya, ada yang menjawab bahwa …

13 survey bias

8

Survei: Apakah 25% perwakilan basis pengguna yang besar?

Majikan saya saat ini menjalankan survei di seluruh perusahaan tentang sikap terhadap kantor yaitu Sentimen. Di masa lalu, mereka membuka survei ke semua area bisnis (Mari kita asumsikan 10 departemen yang sangat berbeda) dan semua karyawan di dalamnya (Asumsikan total 1000 karyawan di seluruh perusahaan) Jumlah karyawan di setiap departemen …

13 survey survey-sampling

5

Mengapa diklaim bahwa sampel seringkali lebih akurat daripada sensus?

Saat mempelajari kursus pengambilan sampel, saya memenuhi dua pernyataan berikut: 1) Kesalahan pengambilan sampel menyebabkan sebagian besar variabilitas, kesalahan yang tidak mengarah menyebabkan bias. 2) Karena kesalahan nonsampling, sampel seringkali lebih akurat daripada Sensus. Saya tidak tahu bagaimana memahami kedua pernyataan ini. Apa logika yang mendasari untuk mendapatkan dua pernyataan …

13 estimation sampling survey bias

2

Identifikasi pertanyaan yang tidak berguna dari kuesioner

Saya sedang mengembangkan kuesioner. Untuk meningkatkan keandalan dan validitasnya, saya ingin menggunakan metode statistik. Saya ingin menghilangkan pertanyaan yang jawabannya selalu sama. Ini berarti bahwa hampir semua peserta memberikan jawaban yang sama pada pertanyaan-pertanyaan itu. Sekarang pertanyaan saya adalah: Apa istilah teknis untuk pertanyaan tidak berguna yang jawabannya selalu sama, …

12 survey reliability psychometrics validity

3

Memvalidasi kuesioner

Saya merancang kuesioner untuk disertasi saya. Saya sedang dalam proses memvalidasi kuesioner saya telah menerapkan tes alpha Cronbach untuk kelompok sampel awal. Tanggapan terhadap kuesioner berada pada skala Likert; Adakah yang bisa menyarankan tes lebih lanjut untuk diterapkan untuk membantu menguji validitasnya. Saya bukan ahli statistik sehingga bantuan apa pun …

12 survey scales psychometrics scale-construction

2

Validasi silang setelah LASSO dalam data survei yang kompleks

Saya mencoba melakukan pemilihan model pada beberapa kandidat yang menggunakan LASSO dengan hasil yang berkelanjutan. Tujuannya adalah untuk memilih model optimal dengan kinerja prediksi terbaik, yang biasanya dapat dilakukan dengan validasi silang K-fold setelah mendapatkan jalur solusi dari parameter tuning dari LASSO. Masalahnya di sini adalah bahwa data berasal dari …

11 cross-validation survey lasso glmnet

2

Apa cara terbaik untuk memvisualisasikan efek kategori & prevalensinya dalam regresi logistik?

Saya perlu memberikan informasi tentang prediktor utama pemilihan kandidat menggunakan data survei opini publik. Saya telah menjalankan regresi logistik menggunakan semua variabel yang saya pedulikan, tetapi saya tidak dapat menemukan cara yang baik untuk menyajikan informasi ini. Klien saya tidak peduli tentang ukuran efek saja, tetapi tentang interaksi antara ukuran …

11 logistic data-visualization survey

2

Bagaimana margin kesalahan terkait dengan Interval kepercayaan?

Adakah yang bisa memberitahu saya perbedaan antara margin kesalahan dan interval kepercayaan? Di Internet saya melihat dua makna ini digunakan secara bergantian. Apakah benar mengatakan, "Interval kepercayaan ditampilkan sebagai 1,96 dan ditampilkan pada grafik sebagai margin kesalahan"?

11 confidence-interval survey polling

6

Apakah ada situs untuk memposting survei saya sehingga saya bisa mendapatkan sampel yang mewakili populasi?

Ini hanya untuk proyek SMA saya, jadi itu tidak harus sempurna. Saya sedang melakukan proyek pemanasan global, dan saya ingin mensurvei orang-orang untuk pendapat mereka. Saya tahu bahwa jika saya menggunakan sampel kenyamanan teman sekelas saya, saya akan memiliki banyak bias. Saya bertanya-tanya apakah ada situs di Internet di mana …

11 survey internet

Pertanyaan yang diberi tag «survey»