Pertanyaan yang diberi tag «predictive-models»

Model prediktif adalah model statistik yang tujuan utamanya adalah untuk memprediksi pengamatan lain dari suatu sistem secara optimal, berbeda dengan model yang tujuannya adalah untuk menguji hipotesis tertentu atau menjelaskan suatu fenomena secara mekanis. Dengan demikian, model prediktif kurang menekankan pada interpretabilitas dan lebih menekankan pada kinerja.

1
Bagaimana kita memprediksi kejadian langka?
Saya sedang mengembangkan model prediksi risiko asuransi. Model-model ini adalah "peristiwa langka" seperti prediksi maskapai tanpa pertunjukan, deteksi kesalahan perangkat keras, dll. Ketika saya menyiapkan kumpulan data saya, saya mencoba menerapkan klasifikasi, tetapi saya tidak dapat memperoleh pengklasifikasi yang berguna karena tingginya proporsi kasus negatif . Saya tidak punya banyak …

1
Cara memprediksi data baru dengan regresi spline / smooth
Adakah yang bisa membantu memberikan penjelasan konseptual tentang bagaimana prediksi dibuat untuk data baru saat menggunakan smooths / splines untuk model prediksi? Misalnya, mengingat model yang dibuat menggunakan gamboostdalam mboostpaket di R, dengan p-splines, bagaimana prediksi untuk data baru dibuat? Apa yang digunakan dari data pelatihan? Katakanlah ada nilai baru …

7
Menghindari diskriminasi sosial dalam pembangunan model
Saya memiliki pertanyaan yang terinspirasi dari skandal perekrutan Amazon baru-baru ini, di mana mereka dituduh melakukan diskriminasi terhadap perempuan dalam proses perekrutan mereka. Info lebih lanjut di sini : Spesialis pembelajaran mesin Amazon.com Inc menemukan masalah besar: mesin rekrutmen baru mereka tidak menyukai wanita. Tim telah membangun program komputer sejak …


3
Memutuskan antara model regresi linier atau model regresi non-linear
Bagaimana seharusnya seseorang memutuskan antara menggunakan model regresi linier atau model regresi non-linear? Tujuan saya adalah untuk memprediksi Y. Dalam kasus dataset dan sederhana saya dapat dengan mudah memutuskan model regresi mana yang harus digunakan dengan memplot sebaran plot.xxxyyy Dalam hal multi-varian seperti dan . Bagaimana saya bisa memutuskan model …

1
Pas distribusi ke data spasial
Cross memposting pertanyaan saya dari mathoverflow untuk menemukan beberapa bantuan khusus statistik. Saya sedang mempelajari proses fisik menghasilkan data yang diproyeksikan dengan baik ke dalam dua dimensi dengan nilai-nilai non-negatif. Setiap proses memiliki trek (diproyeksikan) titik - y - lihat gambar di bawah ini.xxxyyy Jejak sampel berwarna biru, jenis trek …

1
Mengapa Anova () dan drop1 () memberikan jawaban berbeda untuk GLMM?
Saya memiliki GLMM formulir: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Ketika saya menggunakan drop1(model, test="Chi"), saya mendapatkan hasil yang berbeda daripada jika saya menggunakan Anova(model, type="III")dari paket mobil atau summary(model). Dua yang terakhir ini memberikan jawaban yang sama. Menggunakan banyak data yang …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Cara terbaik untuk menggabungkan respons biner dan kontinu
Saya mencoba menemukan cara terbaik untuk memperkirakan jumlah pembayaran untuk agen penagihan. Variabel dependen hanya non-nol ketika pembayaran telah dilakukan. Dapat dimengerti, ada banyak sekali angka nol karena kebanyakan orang tidak dapat dihubungi atau tidak dapat membayar kembali utangnya. Ada juga korelasi negatif yang sangat kuat antara jumlah hutang dan …

3
Statistik untuk situs kencan online
Saya ingin tahu bagaimana sistem kencan online dapat menggunakan data survei untuk menentukan kecocokan. Misalkan mereka memiliki data hasil dari pertandingan sebelumnya (misalnya, 1 = menikah bahagia, 0 = tidak ada tanggal 2). Selanjutnya, anggaplah mereka memiliki 2 pertanyaan preferensi, "Seberapa besar Anda menikmati kegiatan di luar ruangan? (1 = …


2
A '' variabel signifikan '' yang tidak meningkatkan prediksi out-of-sample - bagaimana menafsirkan?
Saya punya pertanyaan yang menurut saya akan sangat mendasar bagi banyak pengguna. Saya menggunakan model regresi linier untuk (i) menyelidiki hubungan beberapa variabel penjelas dan variabel respons saya dan (ii) memprediksi variabel respons saya menggunakan variabel penjelas. Satu variabel penjelas X tertentu tampaknya secara signifikan mempengaruhi variabel respons saya. Untuk …

2
Mengevaluasi distribusi prediksi posterior dalam regresi linear Bayesian
Saya bingung bagaimana cara mengevaluasi distribusi prediksi posterior untuk regresi linier Bayesian, melewati kasus dasar yang dijelaskan di sini pada halaman 3, dan disalin di bawah ini. p ( y~∣ y)=∫p(y~∣β,σ2)p(β,σ2∣y)p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y) p(\tilde y \mid y) = \int p(\tilde y \mid \beta, \sigma^2) p(\beta, \sigma^2 \mid y) Kasus dasar adalah model …

4
Model Sejarah Acara Diskrit-Waktu (Bertahan Hidup) di R
Saya mencoba menyesuaikan model waktu-diskrit dalam R, tapi saya tidak yakin bagaimana melakukannya. Saya telah membaca bahwa Anda dapat mengatur variabel dependen dalam baris yang berbeda, satu untuk setiap pengamatan waktu, dan menggunakan glmfungsi dengan logit atau tautan cloglog. Dalam hal ini, saya memiliki tiga kolom: ID, Event(1 atau 0, …
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 


1
Nilai variabel tersembunyi regresi linear R "bernilai"
Ini hanya contoh yang saya temui beberapa kali, jadi saya tidak punya data sampel. Menjalankan model regresi linier di R: a.lm = lm(Y ~ x1 + x2) x1adalah variabel kontinu. x2bersifat kategorikal dan memiliki tiga nilai, mis. "Rendah", "Sedang" dan "Tinggi". Namun output yang diberikan oleh R akan menjadi seperti: …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.