Pertanyaan yang diberi tag «categorical-data»

Data kategorikal (disebut juga nominal) dapat mengambil sejumlah nilai yang mungkin disebut kategori. Nilai kategori "label", mereka tidak "mengukur". Silakan gunakan tag [data-ordinal] untuk tipe data yang diskrit tapi terurut.


3
Algoritma apa yang membutuhkan pengodean satu-panas?
Saya tidak pernah yakin kapan harus menggunakan pengodean satu-panas untuk variabel kategori yang tidak dipesan dan kapan tidak. Saya menggunakannya setiap kali algoritma menggunakan metrik jarak untuk menghitung kesamaan. Adakah yang bisa memberikan aturan umum tentang apa jenis algoritma akan membutuhkan fitur kategorikal non-teratur menjadi satu-hot-encoded dan mana yang tidak?


2
Koefisien korelasi untuk variabel nominal non-dikotomi dan variabel ordinal atau numerik
Saya sudah membaca semua halaman di situs ini mencoba menemukan jawaban untuk masalah saya tetapi tampaknya tidak ada yang tepat dari saya ... Pertama saya jelaskan jenis data yang saya kerjakan ... Katakanlah saya memiliki vektor array dengan beberapa nama kota, satu untuk masing-masing 300 pengguna. Saya juga memiliki vektor …

1
Apa fungsi jarak optimal untuk individu ketika atribut nominal?
Saya tidak tahu jarak mana fungsi antara individu untuk digunakan dalam kasus atribut nominal (kategori unordered). Saya membaca beberapa buku teks dan mereka menyarankan fungsi Simple Matching tetapi beberapa buku menyarankan agar saya mengubah nominal ke atribut biner dan menggunakan Koefisien Jaccard . Namun, bagaimana jika nilai atribut nominal bukan …

2
glmnet: Bagaimana cara membuat parameterisasi multinomial?
Masalah berikut: Saya ingin memprediksi variabel respons kategoris dengan satu (atau lebih) variabel kategorikal menggunakan glmnet (). Namun, saya tidak dapat memahami output yang diberikan glmnet kepada saya. Ok, pertama mari kita buat dua variabel kategori terkait: Hasilkan Data p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), …



2
Collinearity antara variabel kategori
Ada banyak hal tentang kolinearitas berkenaan dengan prediktor kontinu tetapi tidak begitu banyak yang dapat saya temukan pada prediktor kategoris. Saya memiliki data jenis ini yang diilustrasikan di bawah ini. Faktor pertama adalah variabel genetik (jumlah alel), faktor kedua adalah kategori penyakit. Jelas bahwa gen mendahului penyakit dan merupakan faktor …

2
Haruskah saya menjalankan regresi terpisah untuk setiap komunitas, atau bisakah komunitas hanya menjadi variabel pengendali dalam model agregat?
Saya menjalankan model OLS dengan variabel indeks aset berkelanjutan sebagai DV. Data saya dikumpulkan dari tiga komunitas serupa dalam kedekatan geografis yang dekat satu sama lain. Meskipun demikian, saya pikir penting untuk menggunakan komunitas sebagai variabel kontrol. Ternyata, masyarakat signifikan pada tingkat 1% (t-skor -4,52). Komunitas adalah variabel nominal / …

2
Cepat mengevaluasi (secara visual) korelasi antara data kategorikal yang dipesan dalam R?
Saya mencari korelasi antara jawaban untuk pertanyaan yang berbeda dalam survei ("umm, mari kita lihat apakah jawaban untuk pertanyaan 11 berkorelasi dengan jawaban pertanyaan 78"). Semua jawaban bersifat kategoris (sebagian besar berkisar dari "sangat tidak bahagia" hingga "sangat bahagia"), tetapi beberapa memiliki rangkaian jawaban yang berbeda. Kebanyakan dari mereka dapat …

6
Bagaimana menemukan statistik ringkasan untuk semua kombinasi unik faktor dalam data.frame di R? [Tutup]
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Saya ingin menghitung ringkasan variabel dalam data.frame untuk setiap kombinasi unik faktor dalam data.frame. Haruskah saya menggunakan plyr untuk melakukan …

4
Beberapa Tes Chi-Squared
Saya memiliki data rahasia silang dalam tabel 2 x 2 x 6. Mari kita sebut dimensi response, Adan B. Saya memasukkan regresi logistik ke data dengan model response ~ A * B. Analisis penyimpangan model itu mengatakan bahwa kedua istilah dan interaksinya adalah signifikan. Namun, melihat proporsi data, sepertinya hanya …

1
R / mgcv: Mengapa produk tensor () dan ti () menghasilkan permukaan yang berbeda?
The mgcvpaket untuk Rmemiliki dua fungsi untuk pas interaksi produk tensor: te()dan ti(). Saya memahami pembagian kerja dasar antara keduanya (menyesuaikan interaksi non-linear vs menguraikan interaksi ini menjadi efek utama dan interaksi). Yang tidak saya mengerti adalah mengapa te(x1, x2)dan ti(x1) + ti(x2) + ti(x1, x2)mungkin menghasilkan (sedikit) hasil yang …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
Bagaimana melakukan analisis residual untuk prediktor independen biner / dikotomi dalam regresi linier?
Saya melakukan regresi linier berganda di bawah ini dalam R untuk memprediksi pengembalian dana yang dikelola. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Di sini hanya GRI & MBA yang merupakan prediktor biner / dikotomis; prediktor yang tersisa bersifat kontinu. Saya menggunakan kode ini untuk menghasilkan plot sisa untuk variabel biner. plot(rawdata$GRI, reg$residuals) …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.