Pertanyaan yang diberi tag «regression»

Teknik untuk menganalisis hubungan antara satu (atau lebih) variabel "tergantung" dan variabel "independen".

4
Petunjuk bahwa suatu masalah cocok untuk regresi linier
Saya belajar regresi linier menggunakan Pengantar Analisis Regresi Linier oleh Montgomery, Peck, dan Vining . Saya ingin memilih proyek analisis data. Saya memiliki pemikiran naif bahwa regresi linier hanya cocok ketika seseorang menduga ada hubungan fungsional linier antara variabel penjelas dan variabel respons. Tetapi tidak banyak aplikasi dunia nyata yang …


3
Mengapa metode ketidaksepakatan (memisahkan data menjadi pelatihan dan pengujian) digunakan dalam statistik klasik?
Dalam paparan kelas saya untuk data mining, metode ketidaksepakatan diperkenalkan sebagai cara menilai kinerja model. Namun, ketika saya mengambil kelas pertama saya pada model linear, ini tidak diperkenalkan sebagai sarana validasi atau penilaian model. Penelitian online saya juga tidak menunjukkan adanya persimpangan. Mengapa metode ketidaksepakatan tidak digunakan dalam statistik klasik?


2
Apakah X dan Y terdistribusi normal lebih mungkin menghasilkan residu terdistribusi normal?
Di sini salah tafsir dari asumsi normalitas dalam regresi linier dibahas (bahwa 'normalitas' merujuk X dan / atau Y daripada residual), dan poster bertanya apakah mungkin untuk memiliki X dan Y yang terdistribusi secara tidak normal. dan masih memiliki residu terdistribusi normal. Pertanyaan saya adalah: apakah X yang didistribusikan secara …

5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 



4
Asumsi distribusi residu regresi
Mengapa perlu menempatkan asumsi distribusi pada kesalahan, yaitu ϵ i ∼ N ( 0 , σ 2 )yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , dengan .ϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) Kenapa tidak menulis y i ~ N ( X β , σ 2 )yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , dengan ,yi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) …

1
Informasi dari matriks topi untuk regresi logistik
Jelas bagi saya, dan dijelaskan dengan baik di beberapa situs, informasi apa yang diberikan nilai-nilai pada diagonal dari matriks topi untuk regresi linier. Matriks topi dari model regresi logistik kurang jelas bagi saya. Apakah identik dengan informasi yang Anda dapatkan dari matriks yang menerapkan regresi linier? Ini adalah definisi dari …

1
Pemodelan ketika variabel dependen memiliki "cut-off"
Mohon maaf sebelumnya jika ada terminologi yang saya gunakan salah. Saya akan menerima segala koreksi. Jika apa yang saya gambarkan sebagai "cut-off" menggunakan nama yang berbeda, beri tahu saya dan saya dapat memperbarui pertanyaan. Situasi yang saya minati adalah ini: Anda memiliki variabel independen dan variabel dependen tunggal . Saya …

5
Algoritma kuadrat terkecil teratur rekursif (online)
Adakah yang bisa mengarahkan saya ke arah algoritma online (rekursif) untuk Regulasi Tikhonov (kuadrat terkecil yang diatur)? Dalam pengaturan offline, saya akan menghitung β^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TY menggunakan set data asli saya di mana λλλ ditemukan menggunakan validasi silang n-fold. Nilai y baru yyydapat diprediksi untuk x yang diberikan xxxmenggunakan y=xTβ^y=xTβ^y=x^T\hat\beta . Dalam …

2
Mengapa beberapa orang menguji asumsi model seperti regresi pada data mentah mereka dan orang lain mengujinya pada residu?
Saya seorang mahasiswa Phd dalam psikologi eksperimental dan saya berusaha keras untuk meningkatkan keterampilan dan pengetahuan saya tentang bagaimana menganalisis data saya. Sampai tahun ke 5 saya di Psikologi, saya berpikir bahwa model seperti regresi (misalnya, ANOVA) mengasumsikan hal-hal berikut: normalitas data homogenitas varians untuk data dan sebagainya Program sarjana …

1
Kriteria untuk memilih model "terbaik" dalam Model Markov Tersembunyi
Saya memiliki kumpulan data deret waktu yang saya coba paskan dengan Hidden Markov Model (HMM) untuk memperkirakan jumlah status laten dalam data. Kode pseudo saya untuk melakukan ini adalah sebagai berikut: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest …

2
Model campuran dengan 1 observasi per level
Saya menyesuaikan model efek acak dengan glmerbeberapa data bisnis. Tujuannya adalah untuk menganalisis kinerja penjualan oleh distributor, dengan mempertimbangkan variasi regional. Saya memiliki variabel berikut: distcode: ID distributor, dengan sekitar 800 level region: ID geografis tingkat atas (utara, selatan, timur, barat) zone: geografi tingkat menengah bersarang di dalam region, sekitar …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.