Statistik dan Big Data lasso

2

Standardisasi vs Normalisasi untuk Lasso / Ridge Regression

Saya sadar ini adalah praktik umum untuk membakukan fitur untuk ridge dan lasso regression, akan tetapi, apakah lebih praktis untuk menormalkan fitur pada skala (0,1) sebagai alternatif standardisasi z-skor untuk metode regresi ini?

9 normalization lasso standardization ridge-regression

1

Regresi linier multivariat dengan laso di r

Saya mencoba membuat model yang diperkecil untuk memprediksi banyak variabel dependen (DV) (~ 450) yang sangat berkorelasi. Variabel independen saya (IV) juga banyak (~ 2000) dan sangat berkorelasi. Jika saya menggunakan laso untuk memilih model yang direduksi untuk setiap output secara terpisah, saya tidak dijamin mendapatkan subset variabel independen yang …

9 r lasso multivariate-regression

1

Mengapa gradien keturunan proksimal bukan metode subgradien biasa untuk Lasso?

Saya berpikir untuk menyelesaikan Lasso melalui metode subgradien vanilla. Tapi saya sudah membaca orang menyarankan untuk menggunakan gradien keturunan Proksimal. Adakah yang bisa menyoroti mengapa proksimal GD daripada metode subgradien vanilla digunakan untuk Lasso?

9 machine-learning optimization lasso gradient-descent

1

LASSO untuk model penjelas: parameter menyusut atau tidak?

Saya sedang melakukan analisis di mana tujuan utamanya adalah untuk memahami data. Dataset cukup besar untuk cross-validation (10k), dan prediktor menyertakan variabel kontinu dan dummy, dan hasilnya kontinu. Tujuan utama adalah untuk melihat apakah masuk akal untuk mengeluarkan beberapa prediktor, agar model lebih mudah diinterpretasikan. Pertanyaan: Pertanyaan saya adalah "vars …

9 lasso explanatory-models

1

Bagaimana menafsirkan variabel yang dikecualikan dari atau termasuk dalam model laso?

Saya dapatkan dari posting lain bahwa seseorang tidak dapat menghubungkan 'pentingnya' atau 'signifikansi' dengan variabel prediktor yang memasuki model laso karena menghitung nilai-p variabel tersebut atau standar deviasi masih dalam proses. Di bawah alasan itu, apakah benar untuk menyatakan bahwa seseorang TIDAK BISA mengatakan bahwa variabel yang dikeluarkan dari model …

9 statistical-significance bootstrap simulation lasso regression-strategies

1

Koneksi antara formulasi Lasso

Pertanyaan ini mungkin bodoh, tetapi saya perhatikan bahwa ada dua formulasi berbeda dari regresi Lasso . Kita tahu bahwa masalah Lasso adalah untuk meminimalkan tujuan yang terdiri dari kerugian kuadrat ditambah hukuman penalti -1, dinyatakan sebagai berikut, LLLminβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1 \min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \; Tetapi sering kali …

9 lasso

1

Bagaimana glmnet menangani penyebaran berlebihan?

Saya punya pertanyaan tentang cara memodelkan teks pada jumlah data, khususnya bagaimana saya bisa menggunakan lassoteknik ini untuk mengurangi fitur. Katakanlah saya punya N artikel online dan jumlah tayangan laman untuk setiap artikel. Saya telah mengekstrak 1 gram dan 2 gram untuk setiap artikel dan saya ingin menjalankan regresi lebih …

9 poisson-distribution lasso glmnet overdispersion penalized

3

Seleksi k knot dalam regresi smoothing spline yang setara dengan variabel k?

Saya sedang mengerjakan model biaya prediksi di mana usia pasien (kuantitas bilangan bulat yang diukur dalam tahun) adalah salah satu variabel prediktor. Hubungan nonlinear yang kuat antara usia dan risiko rawat inap jelas: Saya sedang mempertimbangkan penghalusan regresi penghalusan hukuman untuk usia pasien. Menurut The Elements of Statistics Learning (Hastie …

9 nonlinear-regression lasso ridge-regression smoothing splines

4

Apa urutan lag?

Misalkan saya memiliki data longitudinal dari bentuk (Saya memiliki beberapa pengamatan, ini hanya bentuk yang tunggal). Saya tertarik pada pembatasan . tidak dibatasi setara dengan mengambil dengan .Σ Σ Y j = α j + j - 1 Σ ℓ = 1 φ ℓ j Y j - ℓ + …

9 feature-selection lasso shrinkage

2

Hitung kurva ROC untuk data

Jadi, saya memiliki 16 percobaan di mana saya mencoba untuk mengotentikasi seseorang dari sifat biometrik menggunakan Hamming Distance. Ambang batas saya diatur ke 3.5. Data saya di bawah dan hanya percobaan 1 yang Benar-Benar Positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Jika multi-collinearity tinggi, apakah koefisien LASSO menyusut menjadi 0?

Diberikan x2=2x1x2=2x1x_2 = 2 x_1, apa perilaku teoritis dari koefisien LASSO dan mengapa? Akan salah satu x1x1x_1 atau x2x2x_2 menyusut menjadi 000 atau keduanya? require(glmnet) x1 = runif(100, 1, 2) x2 = 2*x1 x_train = cbind(x1, x2) y = 100*x1 + 100 + runif(1) ridge.mod = cv.glmnet(x_train, y, alpha = …

9 lasso multicollinearity

1

Parameter regularisasi LASSO dari algoritma LARS

Dalam makalah seminal mereka 'Least Angle Regression' , Efron dkk menjelaskan modifikasi sederhana dari algoritma LARS yang memungkinkan untuk menghitung jalur regularisasi LASSO penuh. Saya telah mengimplementasikan varian ini dengan sukses dan biasanya memplot jalur output baik terhadap jumlah langkah (iterasi berurutan dari algoritma LARS) atau -norm dari koefisien regresi …

9 regression lasso regularization lars

1

Kisaran lambda dalam regresi jaring elastis

\def\l{|\!|} Diberikan regresi net elastis minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 bagaimana rentang λλ\lambda dapat dipilih untuk validasi silang? Dalam α=1α=1\alpha=1 kasus (regresi ridge) rumus dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} dapat digunakan untuk memberikan derajat kebebasan yang setara untuk setiap …

9 least-squares lasso regularization ridge-regression elastic-net

3

Saat menggunakan glmnet bagaimana melaporkan nilai-p signifikansi untuk mengklaim signifikansi prediktor?

Saya memiliki sejumlah besar prediktor (lebih dari 43.000) untuk memprediksi variabel dependen yang dapat mengambil 2 nilai (0 atau 1). Jumlah pengamatan lebih dari 45.000. Sebagian besar prediktor adalah unigrams, bigrams, dan trigram kata-kata, sehingga ada tingkat kolinearitas yang tinggi di antara mereka. Ada banyak sparsity di dataset saya juga. …

9 r multiple-regression lasso glmnet

1

Adakah kerugian jaring elastis dibanding laso?

Apa kerugian menggunakan jaring elastis dibandingkan dengan laso. Saya tahu bahwa jaring elastis dapat memilih kelompok variabel ketika mereka sangat berkorelasi. Itu tidak memiliki masalah memilih lebih dari prediktor ketika . Sedangkan laso jenuh ketika .nnnp ≫ np≫np \gg np ≫ np≫np \gg n Ketika ada prediktor yang sangat berkorelasi, …

8 lasso elastic-net

Pertanyaan yang diberi tag «lasso»