Pertanyaan yang diberi tag «reinforcement-learning»

Area pembelajaran mesin yang berkaitan dengan bagaimana agen perangkat lunak harus mengambil tindakan di lingkungan untuk memaksimalkan beberapa gagasan tentang imbalan kumulatif.


1
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?
Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba menumbuhkan 500 pohon karena akan memakan waktu berjam-jam. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
Perbedaan antara jaringan kebijakan Alpha dan jaringan nilai
Saya membaca ringkasan tingkat tinggi tentang Google AlphaGo ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), dan saya menemukan istilah "kebijakan" jaringan "dan" jaringan nilai ". Pada tingkat tinggi, saya mengerti bahwa jaringan kebijakan digunakan untuk menyarankan gerakan dan jaringan nilai digunakan untuk, "Mengurangi kedalaman pohon pencarian [dan memperkirakan] pemenang di setiap posisi sebagai pengganti …


1
Apa itu "replay pengalaman" dan apa manfaatnya?
Saya telah membaca makalah DeepMind Atari Google dan saya mencoba memahami konsep "replay pengalaman". Replay pengalaman muncul di banyak makalah pembelajaran penguatan lainnya (khususnya, kertas AlphaGo), jadi saya ingin memahami cara kerjanya. Berikut beberapa kutipannya. Pertama, kami menggunakan mekanisme yang diilhami secara biologis yang disebut replay pengalaman yang mengacak data, …

4
AlphaGo (dan program game lainnya menggunakan penguatan-pembelajaran) tanpa database manusia
Saya bukan spesialis masalah ini, dan pertanyaan saya mungkin sangat naif. Ini berasal dari esai untuk memahami kekuatan dan keterbatasan pembelajaran penguatan seperti yang digunakan dalam program AlphaGo. Program AlphaGo telah dibangun menggunakan, antara lain (penjelajahan Monte-Carlo pohon, dll.), Jaringan saraf yang dilatih dari database besar game go yang dimainkan …

1
Pembelajaran terawasi vs pembelajaran penguatan untuk mobil rc yang mudah dikendarai sendiri
Saya sedang membangun mobil self-controlled yang dikendalikan jarak jauh untuk bersenang-senang. Saya menggunakan Raspberry Pi sebagai komputer internal; dan saya menggunakan berbagai plug-in, seperti kamera Raspberry Pi dan sensor jarak, untuk umpan balik tentang lingkungan mobil. Saya menggunakan OpenCV untuk mengubah bingkai video menjadi tensor, dan saya menggunakan Google TensorFlow …

3
Apakah ada model bahasa out-of-the-box yang bagus untuk python?
Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan. Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Pembelajaran Kooperatif Penguatan
Saya sudah memiliki implementasi berfungsi untuk agen tunggal yang mengerjakan masalah penetapan harga dinamis dengan tujuan memaksimalkan pendapatan. Masalah yang sedang saya tangani, bagaimanapun, melibatkan beberapa produk berbeda yang merupakan pengganti satu sama lain, sehingga penetapan harga mereka secara dinamis dengan pembelajar mandiri tampaknya tidak benar, karena harga satu memengaruhi …

2
menerapkan perbedaan temporal dalam catur
Saya telah mengembangkan program catur yang memanfaatkan algoritma pemangkasan alpha-beta dan fungsi evaluasi yang mengevaluasi posisi menggunakan fitur-fitur berikut yaitu bahan, keamanan, mobilitas, struktur gadai dan potongan terperangkap dll ..... Fungsi evaluasi saya adalah berasal dari f( p ) = w1⋅ bahan + w2⋅ keamanan Kings + w3⋅ mobilitas + …



4
Buku tentang Penguatan Pembelajaran
Saya telah mencoba untuk memahami pembelajaran penguatan untuk beberapa waktu, tetapi entah bagaimana saya tidak dapat memvisualisasikan bagaimana menulis sebuah program untuk pembelajaran penguatan untuk memecahkan masalah dunia grid. Dapatkah Anda menyarankan saya beberapa buku teks yang akan membantu saya membangun konsepsi pembelajaran Reinforcement Learning yang jelas?

3
Pengetahuan apa yang saya butuhkan untuk menulis program AI sederhana untuk bermain game?
Saya lulusan B.Sc. Salah satu kursus saya adalah 'Pengantar Pembelajaran Mesin', dan saya selalu ingin melakukan proyek pribadi dalam subjek ini. Baru-baru ini saya mendengar tentang pelatihan AI yang berbeda untuk bermain game seperti Mario, Go, dll. Pengetahuan apa yang perlu saya peroleh untuk melatih program AI sederhana untuk bermain …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.