Pertanyaan yang diberi tag «sampling»



1
Apakah pengambilan sampel bertingkat diperlukan (hutan acak, Python)?
Saya menggunakan Python untuk menjalankan model hutan acak pada dataset tidak seimbang saya (variabel target adalah kelas biner). Ketika membagi dataset pelatihan dan pengujian, saya kesulitan apakah akan menggunakan pengambilan sampel bertingkat (seperti kode yang ditunjukkan) atau tidak. Sejauh ini, saya mengamati dalam proyek saya bahwa kasus bertingkat akan mengarah …

1
Berapa banyak fitur untuk sampel menggunakan Hutan Acak
The Wikipedia halaman yang kutipan "The Elements of statistik Learning" kata: Biasanya, untuk masalah klasifikasi dengan fitur , ⌊ √halhalp fitur p ⌋digunakan di setiap pemisahan.⌊ hlm-√⌋⌊hal⌋\lfloor \sqrt{p}\rfloor Saya mengerti bahwa ini adalah tebakan berpendidikan yang cukup baik dan mungkin dikonfirmasi oleh bukti empiris, tetapi apakah ada alasan lain mengapa …

3
Dengan kelas yang tidak seimbang, apakah saya harus menggunakan pengambilan sampel pada validasi / pengujian dataset saya?
Saya seorang pemula dalam pembelajaran mesin dan saya menghadapi situasi. Saya sedang mengerjakan masalah Penawaran Waktu Nyata, dengan dataset IPinYou dan saya mencoba melakukan prediksi klik. Masalahnya adalah, seperti yang Anda ketahui, dataset sangat tidak seimbang: Sekitar 1.300 contoh negatif (non klik) untuk 1 contoh positif (klik). Inilah yang saya …

2
mengapa kita perlu menangani ketidakseimbangan data?
Saya perlu tahu mengapa kita harus berurusan dengan ketidakseimbangan data. Saya tahu bagaimana menghadapinya dan berbagai metode untuk menyelesaikan masalah ini yaitu dengan pengambilan sampel atau pengambilan sampel atau dengan menggunakan Smote. Sebagai contoh, jika saya memiliki penyakit langka 1 persen dari 100, dan katakanlah saya memutuskan untuk memiliki set …

1
Berapa banyak sel LSTM yang harus saya gunakan?
Apakah ada aturan praktis (atau aturan aktual) yang berkaitan dengan jumlah sel LSTM minimum, maksimum, dan "wajar" yang harus saya gunakan? Secara khusus saya berhubungan dengan BasicLSTMCell dari TensorFlow dan num_unitsproperti. Harap asumsikan bahwa saya memiliki masalah klasifikasi yang ditentukan oleh: t - number of time steps n - length …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Apakah ada model bahasa out-of-the-box yang bagus untuk python?
Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan. Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 


2
Validasi silang: K-fold vs Sub-sampling acak berulang
Saya ingin tahu jenis model cross-validasi mana yang akan dipilih untuk masalah klasifikasi: K-fold atau sub-sampling acak (bootstrap sampling)? Tebakan terbaik saya adalah menggunakan 2/3 dari kumpulan data (yaitu ~ 1000 item) untuk pelatihan dan 1/3 untuk validasi. Dalam hal ini K-fold hanya memberikan tiga iterasi (lipatan), yang tidak cukup …

3
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.