Pertanyaan yang diberi tag «dataset»

Permintaan kumpulan data di luar topik di situs ini. Gunakan tag ini untuk pertanyaan tentang membuat, memproses, atau memelihara set data.

3
Gagasan membuat data memiliki mean nol
Saya sering melihat orang membuat dimensi / fitur dataset menjadi nol-rata dengan menghapus rata-rata dari semua elemen. Tetapi saya tidak pernah mengerti mengapa melakukannya? Apa efek dari melakukan itu sebagai langkah preprocessing? Apakah ini meningkatkan kinerja klasifikasi? Apakah ada gunanya menjawab sesuatu tentang dataset? Apakah ada gunanya ketika melakukan visualisasi …

2
Mengapa beberapa orang menguji asumsi model seperti regresi pada data mentah mereka dan orang lain mengujinya pada residu?
Saya seorang mahasiswa Phd dalam psikologi eksperimental dan saya berusaha keras untuk meningkatkan keterampilan dan pengetahuan saya tentang bagaimana menganalisis data saya. Sampai tahun ke 5 saya di Psikologi, saya berpikir bahwa model seperti regresi (misalnya, ANOVA) mengasumsikan hal-hal berikut: normalitas data homogenitas varians untuk data dan sebagainya Program sarjana …


1
Perbedaan antara PROC Mixed dan lme / lmer dalam R - derajat kebebasan
Catatan: pertanyaan ini adalah repost, karena pertanyaan saya sebelumnya harus dihapus karena alasan hukum. Sambil membandingkan PROC CAMPURAN dari SAS dengan fungsi lmedari nlmepaket di R, saya menemukan beberapa perbedaan yang agak membingungkan. Lebih khusus lagi, derajat kebebasan dalam berbagai tes berbeda antara PROC MIXEDdan lme, dan saya bertanya-tanya mengapa. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

4
Contoh konsekuensi mahal dari penggunaan alat statistik yang tidak tepat
Saya menduga bahwa sebagian besar pengguna alat statistik adalah pengguna tambahan (orang yang memiliki sedikit atau tidak ada pelatihan formal dalam statistik). Sangat menggoda bagi para peneliti dan profesional lain untuk menerapkan metode statistik pada data mereka hanya karena mereka telah melihatnya "dilakukan sebelumnya" dalam makalah peer-review, literatur abu-abu, web …

2
Praktik Terbaik untuk Membuat 'Data Rapi'
Hadley Wickham menulis artikel bintang yang disebut "Tidy Data" ( tautan ) di JSS tahun lalu tentang manipulasi data dan memasukkan data ke dalam kondisi "optimal" untuk melakukan analisis. Namun, saya bertanya-tanya apa praktik terbaik dalam hal menyajikan data tabular dalam pengaturan kerja? Katakanlah rekan kerja Anda meminta Anda untuk …
12 dataset  tables 

2
Apakah membagi data menjadi set tes dan pelatihan semata-mata merupakan "statistik"?
Saya seorang mahasiswa fisika yang mempelajari pembelajaran mesin / ilmu data, jadi saya tidak bermaksud pertanyaan ini untuk memulai konflik apa pun :) Namun, sebagian besar program sarjana fisika adalah melakukan laboratorium / eksperimen, yang berarti banyak data pemrosesan dan analisis statistik. Namun, saya melihat perbedaan yang tajam antara cara …

2
Binning Optimal sehubungan dengan variabel respons yang diberikan
Saya sedang mencari metode binning optimal (diskritisasi) dari variabel kontinu sehubungan dengan respon yang diberikan (target) variabel biner dan dengan jumlah interval maksimum sebagai parameter. contoh: Saya memiliki satu set pengamatan orang dengan variabel "tinggi" (angka kontinu) dan "has_back_pains" (biner). Saya ingin melakukan diskritisasi tinggi menjadi 3 interval (kelompok) paling …

3
Tutorial PCA praktis dengan data
Pencarian di internet untuk tutorial PCA memberikan ribuan hasil (bahkan video). Banyak tutorial yang sangat bagus. Tetapi saya tidak dapat menemukan contoh praktis di mana PCA dijelaskan menggunakan beberapa set data yang dapat saya gunakan untuk demonstrasi. Saya membutuhkan tutorial yang menyediakan beberapa kumpulan data kecil yang mudah untuk plot …

14
Berapa banyak informasi yang bisa Anda dapatkan dari nama?
Nama: pertama, mungkin tengah, dan nama keluarga. Saya ingin tahu tentang seberapa banyak informasi yang dapat Anda gali dari suatu nama, menggunakan kumpulan data yang tersedia untuk umum. Saya tahu bahwa Anda bisa mendapatkan yang berikut dengan di mana saja antara probabilitas rendah-tinggi (tergantung pada input) menggunakan data sensus AS: …

3
Algoritma apa yang harus saya gunakan untuk mengelompokkan dataset biner besar ke dalam beberapa kategori?
Saya memiliki matriks besar (650K baris * 62 kolom) data biner (hanya 0-1 entri). Matriksnya sebagian besar jarang: sekitar 8% diisi. Saya ingin mengelompokkannya menjadi 5 grup - misalnya dinamai dari 1 hingga 5. Saya telah mencoba pengelompokan hierarkis dan tidak dapat menangani ukurannya. Saya juga telah menggunakan algoritma clustering …



1
Apakah kesalahan penanganan data sudah 'dihargai' untuk analisis statistik?
Ok, peringatan yang adil - ini adalah pertanyaan filosofis yang tidak melibatkan angka. Saya telah berpikir banyak tentang bagaimana kesalahan merayap ke set data dari waktu ke waktu dan bagaimana itu harus diperlakukan oleh analis - atau jika itu benar-benar penting? Sebagai latar belakang, saya melakukan analisis pada studi jangka …
10 dataset  error 


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.