Pertanyaan yang diberi tag «regularization»

Dimasukkannya kendala tambahan (biasanya penalti untuk kompleksitas) dalam proses pemasangan model. Digunakan untuk mencegah overfitting / meningkatkan akurasi prediksi.

1
Bisakah derajat kebebasan menjadi angka non-integer?
Ketika saya menggunakan GAM, itu memberi saya sisa DF adalah (baris terakhir dalam kode). Apa artinya? Melampaui contoh GAM, Secara umum, bisakah jumlah derajat kebebasan menjadi angka yang bukan bilangan bulat?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
Asal usul istilah "regularisasi"
Ketika saya memperkenalkan konsep kepada murid-murid saya, saya sering merasa senang memberi tahu mereka dari mana asal usul istilah itu ("regresi", misalnya, adalah istilah dengan asal yang menarik). Saya belum dapat menemukan sejarah / latar belakang istilah "regularisasi" dalam pembelajaran statistik / mesin. Jadi, apa asal usul istilah regularisasi ?


6
Mengapa bobot yang lebih kecil menghasilkan model yang lebih sederhana dalam regularisasi?
Saya menyelesaikan kursus Pembelajaran Mesin Andrew Ng sekitar setahun yang lalu, dan sekarang saya sedang menulis penjelajahan Matematika SMA saya tentang cara kerja Regresi Logistik dan teknik untuk mengoptimalkan kinerja. Salah satu teknik ini, tentu saja, regularisasi. Tujuan dari regularisasi adalah untuk mencegah overfitting dengan memperluas fungsi biaya untuk memasukkan …



5
Bagaimana komponen utama teratas dapat mempertahankan daya prediksi pada variabel dependen (atau bahkan mengarah ke prediksi yang lebih baik)?
Misalkan Saya menjalankan regresi . Mengapa dengan memilih komponen prinsip k atas X , apakah model mempertahankan daya prediksi pada Y ?Y∼XY∼XY \sim XkkkXXXYYY Saya mengerti bahwa dari dimensi-reduksi / titik fitur-seleksi pandang, jika adalah vektor eigen dari kovarians matriks X dengan top k eigen, maka X v 1 , …

3
Interpretasi regularisasi ridge dalam regresi
Saya punya beberapa pertanyaan tentang penalti punggungan dalam konteks kuadrat terkecil: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Ekspresi menunjukkan bahwa matriks kovarians X menyusut ke arah matriks diagonal, yang berarti bahwa (dengan asumsi bahwa variabel distandarisasi sebelum prosedur) korelasi antara variabel input akan diturunkan. Apakah interpretasi ini benar? 2) …

2
Apakah masuk akal untuk menggabungkan PCA dan LDA?
Asumsikan saya memiliki dataset untuk tugas klasifikasi statistik terawasi, misalnya, melalui pengklasifikasi Bayes. Dataset ini terdiri dari 20 fitur dan saya ingin meringkasnya menjadi 2 fitur melalui teknik pengurangan dimensionalitas seperti Principal Component Analysis (PCA) dan / atau Linear Discriminant Analysis (LDA). Kedua teknik memproyeksikan data ke subruang fitur yang …


2
Mengapa lambda “dalam satu kesalahan standar dari minimum” adalah nilai yang direkomendasikan untuk lambda dalam regresi jaring elastis?
Saya mengerti apa peran lambda dalam regresi elastis-bersih. Dan saya bisa mengerti mengapa orang akan memilih lambda.min, nilai lambda yang meminimalkan kesalahan divalidasi silang. Pertanyaan saya adalah Di mana dalam literatur statistik direkomendasikan untuk menggunakan lambda.1se, yaitu nilai lambda yang meminimalkan kesalahan CV ditambah satu kesalahan standar ? Sepertinya saya …

1
Hukuman jembatan vs. Regulerisasi Jaring Elastis
Beberapa fungsi dan perkiraan penalti dipelajari dengan baik, seperti LASSO ( ) dan Ridge ( ) dan bagaimana ini dibandingkan dalam regresi.L 2L1L1L_1L2L2L_2 Saya telah membaca tentang penalti Bridge, yang merupakan ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma} penalti umum Bandingkan dengan LASSO, yang memiliki γ=1γ=1\gamma = 1 , dan Ridge, dengan γ=2γ=2\gamma = 2 …

2
Mengapa Laplace sebelumnya memproduksi solusi jarang?
Saya melihat-lihat literatur tentang regularisasi, dan sering melihat paragraf yang menghubungkan L2 regulatization dengan Gaussian sebelumnya, dan L1 dengan Laplace berpusat pada nol. Saya tahu bagaimana rupa prior ini, tetapi saya tidak mengerti, bagaimana ini diterjemahkan menjadi, misalnya, bobot dalam model linier. Di L1, jika saya mengerti dengan benar, kami …

2
Tentang apa itu "regresi penurunan peringkat"?
Saya telah membaca Elemen Pembelajaran Statistik dan saya tidak dapat memahami apa yang dimaksud dengan Bagian 3.7 "Penyusutan dan Seleksi Berganda Berganda". Ini berbicara tentang RRR (regresi tingkat rendah), dan saya hanya bisa mengerti bahwa premisnya adalah tentang model linear multivariat yang digeneralisasi di mana koefisien tidak diketahui (dan diperkirakan) …

3
Mengapa Lars dan Glmnet memberikan solusi berbeda untuk masalah Lasso?
Saya ingin lebih memahami paket R Larsdan Glmnet, yang digunakan untuk menyelesaikan masalah Lasso: (untuk Variabel dan sampel , lihat www.stanford.edu/~hastie/Papers/glmnet.pdf di halaman 3)pm i n( β0β) ∈ Rp + 1[ 12 N∑i = 1N( ysaya- β0- xTsayaβ)2+ λ | | β| |l1]msayan(β0β)∈Rhal+1[12N∑saya=1N(ysaya-β0-xsayaTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.