Pertanyaan yang diberi tag «many-categories»

Variabel kategori dengan jumlah level yang besar, dan metode statistik untuk bekerja dengan variabel semacam itu (contoh: fused lasso).

6
Cara berprinsip untuk mengecilkan variabel kategori dengan banyak tingkatan?
Teknik apa yang tersedia untuk mengelompokkan (atau mengelompokkan) banyak kategori menjadi beberapa, untuk tujuan menggunakannya sebagai input (prediktor) dalam model statistik? Pertimbangkan variabel seperti jurusan mahasiswa (disiplin yang dipilih oleh mahasiswa sarjana). Itu tidak teratur dan kategorikal, tetapi berpotensi memiliki lusinan tingkat yang berbeda. Katakanlah saya ingin menggunakan jurusan sebagai …


6
Masalah dengan diagram lingkaran
Tampaknya ada peningkatan diskusi tentang diagram lingkaran. Argumen utama yang menentangnya adalah: Area dipersepsikan dengan kekuatan lebih kecil dari panjang. Pie chart memiliki rasio data-point-to-pixel yang sangat rendah Namun, saya pikir mereka bisa berguna ketika menggambarkan proporsi. Saya setuju untuk menggunakan tabel dalam banyak kasus tetapi ketika Anda menulis laporan …

7
bagaimana cara merepresentasikan geografi atau kode pos dalam model pembelajaran mesin atau sistem rekomendasi?
Saya sedang membangun model dan saya pikir bahwa lokasi geografis cenderung sangat baik dalam memprediksi variabel target saya. Saya memiliki kode pos masing-masing pengguna saya. Saya tidak sepenuhnya yakin tentang cara terbaik untuk memasukkan kode pos sebagai fitur prediktor dalam model saya. Meskipun kode pos adalah angka, itu tidak berarti …


4
Akurasi mesin peningkat gradien menurun karena jumlah iterasi meningkat
Saya bereksperimen dengan algoritma mesin peningkat gradien melalui caretpaket di R. Menggunakan dataset penerimaan perguruan tinggi kecil, saya menjalankan kode berikut: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Memperbaiki efek vs efek acak ketika semua kemungkinan termasuk dalam model efek campuran
Dalam model efek campuran, rekomendasinya adalah menggunakan efek tetap untuk memperkirakan parameter jika semua level yang memungkinkan dimasukkan (misalnya, pria dan wanita). Lebih lanjut direkomendasikan untuk menggunakan efek acak untuk menjelaskan variabel jika level yang dimasukkan hanya sampel acak dari populasi (pasien yang terdaftar dari semesta kemungkinan pasien) dan Anda …


2
Metode untuk menggabungkan / mengurangi kategori dalam data ordinal atau nominal?
Saya berjuang untuk menemukan metode untuk mengurangi jumlah kategori dalam data nominal atau ordinal. Sebagai contoh, katakanlah saya ingin membangun model regresi pada dataset yang memiliki sejumlah faktor nominal dan ordinal. Meskipun saya tidak memiliki masalah dengan langkah ini, saya sering mengalami situasi di mana fitur nominal tanpa pengamatan dalam …

1
Perbedaan antara PROC Mixed dan lme / lmer dalam R - derajat kebebasan
Catatan: pertanyaan ini adalah repost, karena pertanyaan saya sebelumnya harus dihapus karena alasan hukum. Sambil membandingkan PROC CAMPURAN dari SAS dengan fungsi lmedari nlmepaket di R, saya menemukan beberapa perbedaan yang agak membingungkan. Lebih khusus lagi, derajat kebebasan dalam berbagai tes berbeda antara PROC MIXEDdan lme, dan saya bertanya-tanya mengapa. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


3
Masalah dengan pengodean satu panas vs. pengodean dummy
Saya menyadari fakta bahwa variabel kategori dengan level k harus dikodekan dengan variabel k-1 dalam pengkodean dummy (sama untuk variabel kategori multi-dihargai). Saya bertanya-tanya berapa banyak masalah melakukan pengkodean satu-panas (yaitu menggunakan variabel k sebagai gantinya) atas pengkodean dummy untuk metode regresi yang berbeda, terutama regresi linier, regresi linier dihukum …

3
Paket R untuk mengkombinasikan tingkat faktor untuk datamining?
Ingin tahu apakah ada yang menjalankan paket / fungsi dalam R yang akan menggabungkan level faktor yang proporsinya dari semua level dalam faktor kurang dari ambang tertentu? Secara khusus, salah satu langkah pertama dalam persiapan data yang saya lakukan adalah meruntuhkan tingkat faktor yang jarang (katakanlah ke tingkat yang disebut …

1
Metode penalti untuk data kategorikal: menggabungkan level dalam suatu faktor
Model yang dihukum dapat digunakan untuk memperkirakan model yang jumlah parameternya sama atau bahkan lebih besar dari ukuran sampel. Situasi ini dapat muncul dalam model log-linear dari tabel jarang besar dari data kategorikal atau jumlah. Dalam pengaturan ini, sering juga diinginkan atau membantu untuk merobohkan tabel dengan menggabungkan level faktor …

1
Pengkodean fitur kardinalitas tinggi (banyak kategori) saat fitur sangat berbeda pada kardinalitas
Saya telah mencari pertanyaan tentang pengkodean fitur kategorikal, tetapi tidak dapat menemukan yang membahas masalah saya. Maaf jika saya melewatkannya. Katakanlah kita memiliki dataset dengan variabel biner dan nominal yang kira-kira sama pentingnya. Sebagian besar pengklasifikasi tidak dapat menangani tipe kategorikal secara langsung, jadi ini harus ditransformasikan - misalnya menggunakan …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.