Pertanyaan yang diberi tag «categorical-data»

Data kategorikal (disebut juga nominal) dapat mengambil sejumlah nilai yang mungkin disebut kategori. Nilai kategori "label", mereka tidak "mengukur". Silakan gunakan tag [data-ordinal] untuk tipe data yang diskrit tapi terurut.


3
variabel dummy pemusatan dan penskalaan
Saya memiliki kumpulan data yang berisi variabel kategorikal dan variabel kontinu. Saya disarankan untuk mengubah variabel kategori sebagai variabel biner untuk setiap level (yaitu, A_level1: {0,1}, A_level2: {0,1}) - Saya pikir beberapa orang menyebutnya "variabel dummy". Dengan itu, apakah akan menyesatkan untuk kemudian memusatkan dan skala seluruh set data dengan …


2
Bagaimana mengubah data ordinal dari kuesioner menjadi data interval yang tepat?
Apakah ada metode langsung untuk mengubah data tingkat ordinal menjadi tingkat interval (seperti halnya untuk melakukannya sebaliknya)? Dan dapat dilakukan di Excel atau SPSS? Memiliki data, katakan: 10 pertanyaan pada tingkat ordinal (katakan skala 0-5, di mana 0 = "tidak sama sekali", 5 = "sepanjang waktu"), saya ingin mentransformasikannya sehingga …

4
Bagaimana cara meringkas data kategori?
Saya telah berjuang dengan masalah berikut dengan mudah-mudahan mudah untuk para ahli statistik (saya seorang programmer dengan beberapa paparan statistik). Saya perlu meringkas tanggapan terhadap survei (untuk manajemen). Survei ini memiliki 100+ pertanyaan, dikelompokkan dalam berbagai area (dengan sekitar 5 hingga 10 pertanyaan per area). Semua jawaban bersifat kategoris (dalam …


2
Memahami pembuatan variabel dummy (manual atau otomatis) di GLM
Jika variabel faktor (misalnya jenis kelamin dengan level M dan F) digunakan dalam rumus glm, variabel dummy dibuat, dan dapat ditemukan dalam ringkasan model glm bersama dengan koefisien yang terkait (misalnya genderM) Jika, alih-alih mengandalkan R untuk membagi faktor dengan cara ini, faktor tersebut dikodekan dalam serangkaian variabel 0/1 numerik …

2
Praktik terbaik untuk pengkodean fitur kategorikal untuk Pohon Keputusan?
Ketika mengkode fitur kategorikal untuk regresi linier, ada aturan: jumlah boneka harus kurang dari jumlah total level (untuk menghindari kolinearitas). Apakah ada aturan yang sama untuk Pohon Keputusan (dikantongi, dikuatkan)? Saya menanyakan hal ini karena praktik standar dalam Python tampaknya adalah memperluas nlevel menjadi nboneka (sklearns ' OneHotEncoderatau Pandas' pd.get_dummies) …

1
Regresi logistik ordinal dalam Python
Saya ingin menjalankan regresi logistik ordinal dengan Python - untuk variabel respons dengan tiga level dan dengan beberapa faktor penjelas. The statsmodelspaket mendukung logit biner dan model multinomial logit (MNLogit), tapi tidak memerintahkan logit. Karena matematika yang mendasarinya tidak jauh berbeda, saya ingin tahu apakah matematika dapat diimplementasikan dengan mudah …

3
Estimator kemungkinan maksimum dari distribusi gabungan yang diberikan hanya jumlah marginal
Biarkan menjadi distribusi gabungan dari dua variabel kategori , dengan . Katakanlah sampel diambil dari distribusi ini, tetapi kami hanya diberi jumlah marginal, yaitu untuk : X , Y x , y ∈ { 1 , ... , K } n j = 1 , ... , Kpx,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j …

5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Inversi Berry
Saya memiliki data pasar agregat besar yang ditetapkan pada penjualan anggur di AS dan saya ingin memperkirakan permintaan anggur berkualitas tinggi tertentu. Pangsa pasar ini pada dasarnya berasal dari model utilitas acak dari bentuk mana termasuk karakteristik produk yang diamati, menunjukkan harga produk, adalah karakteristik produk yang tidak teramati yang …

3
Apakah prosedur efek tetap Mundlak berlaku untuk regresi logistik dengan boneka?
Saya memiliki dataset dengan 8000 cluster dan 4 juta pengamatan. Sayangnya perangkat lunak statistik saya, Stata, berjalan agak lambat ketika menggunakan fungsi data panel untuk regresi logistik:, xtlogitbahkan dengan subsampel 10%. Namun, ketika menggunakan logitfungsi fungsi nonpanel muncul lebih cepat. Karena itu saya mungkin bisa mendapat manfaat dari menggunakan logitdata …

1
Perbedaan antara PROC Mixed dan lme / lmer dalam R - derajat kebebasan
Catatan: pertanyaan ini adalah repost, karena pertanyaan saya sebelumnya harus dihapus karena alasan hukum. Sambil membandingkan PROC CAMPURAN dari SAS dengan fungsi lmedari nlmepaket di R, saya menemukan beberapa perbedaan yang agak membingungkan. Lebih khusus lagi, derajat kebebasan dalam berbagai tes berbeda antara PROC MIXEDdan lme, dan saya bertanya-tanya mengapa. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
Cara yang tepat untuk berurusan dengan tabel kontingensi 3 tingkat
Saya memiliki tabel kontingensi tiga tingkat, dengan data penghitungan untuk beberapa spesies, tanaman inang dari mana mereka dikumpulkan dan apakah pengumpulan itu terjadi pada hari hujan (ini sebenarnya penting!). Menggunakan R, data palsu mungkin seperti ini: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- rep(c("c","c", "d", "d"), …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.