Pertanyaan yang diberi tag «scikit-learn»

Perpustakaan pembelajaran mesin untuk Python. Gunakan tag ini untuk setiap pertanyaan pada topik yang (a) melibatkan scikit-learn baik sebagai bagian penting dari pertanyaan atau jawaban yang diharapkan, & (b) bukan hanya tentang bagaimana menggunakan scikit-learn.


1
R / mgcv: Mengapa produk tensor () dan ti () menghasilkan permukaan yang berbeda?
The mgcvpaket untuk Rmemiliki dua fungsi untuk pas interaksi produk tensor: te()dan ti(). Saya memahami pembagian kerja dasar antara keduanya (menyesuaikan interaksi non-linear vs menguraikan interaksi ini menjadi efek utama dan interaksi). Yang tidak saya mengerti adalah mengapa te(x1, x2)dan ti(x1) + ti(x2) + ti(x1, x2)mungkin menghasilkan (sedikit) hasil yang …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
Fungsi Kerugian Deviance Binomial Scikit
Ini adalah fungsi kerugian penyimpangan binomial scikit GradientBoosting, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() …

1
Bagaimana kita memprediksi kejadian langka?
Saya sedang mengembangkan model prediksi risiko asuransi. Model-model ini adalah "peristiwa langka" seperti prediksi maskapai tanpa pertunjukan, deteksi kesalahan perangkat keras, dll. Ketika saya menyiapkan kumpulan data saya, saya mencoba menerapkan klasifikasi, tetapi saya tidak dapat memperoleh pengklasifikasi yang berguna karena tingginya proporsi kasus negatif . Saya tidak punya banyak …

4
Analisis Komponen Utama dan Regresi dengan Python
Saya mencoba mencari cara untuk mereproduksi di Python beberapa pekerjaan yang telah saya lakukan di SAS. Menggunakan dataset ini , di mana multicollinearity adalah masalah, saya ingin melakukan analisis komponen utama dalam Python. Saya telah melihat scikit-learn dan statsmodels, tapi saya tidak yakin bagaimana mengambil output mereka dan mengubahnya menjadi …

2
Performa yang lebih baik menggunakan Random Forest one-Vs-All daripada Random Forest multiclass?
Saya sedang mengerjakan masalah multiclass dengan 9 kemungkinan label, yang mana saya memiliki dataset yang terdiri dari ~ 50.000 contoh dan ~ 200 fitur masing-masing. Setiap contoh hanya dapat dimiliki oleh satu kelas. Data cukup seimbang di antara label yang berbeda. Mengingat kekokohan dan skalabilitasnya, saya memutuskan untuk menggunakan Random …

2
Menerapkan PCA untuk menguji data untuk tujuan klasifikasi
Saya baru-baru ini belajar tentang PCA yang luar biasa dan saya telah melakukan contoh yang diuraikan dalam dokumentasi scikit-learn . Saya tertarik untuk mengetahui bagaimana saya bisa menerapkan PCA ke titik data baru untuk tujuan klasifikasi. Setelah memvisualisasikan PCA dalam bidang 2 dimensi (sumbu x, y), saya melihat bahwa saya …


2
Output dari Scikit SVM dalam klasifikasi multiclass selalu memberikan label yang sama
Saat ini saya menggunakan Scikit belajar dengan kode berikut: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') dan kemudian cocok dan memprediksi untuk satu set data dengan 7 label berbeda. Saya mendapat hasil yang aneh. Tidak peduli teknik validasi silang mana yang saya gunakan label prediksi pada set validasi akan …

1
Bagaimana cara saya memasukkan pencilan inovatif pada pengamatan 48 dalam model ARIMA saya?
Saya sedang mengerjakan kumpulan data. Setelah menggunakan beberapa teknik identifikasi model, saya keluar dengan model ARIMA (0,2,1). Saya menggunakan detectIOfungsi dalam paket TSAdalam R untuk mendeteksi outlier inovatif (IO) pada pengamatan ke-48 set data asli saya. Bagaimana cara memasukkan pencilan ini ke dalam model saya sehingga saya dapat menggunakannya untuk …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
Apa perbedaan antara decision_function, predict_proba, dan fungsi prediksi untuk masalah regresi logistik?
Saya telah melalui dokumentasi sklearn tetapi saya tidak dapat memahami tujuan dari fungsi-fungsi ini dalam konteks regresi logistik. Untuk decision_functionitu dikatakan bahwa jarak antara hyperplane dan contoh uji. bagaimana informasi khusus ini bermanfaat? dan bagaimana hal ini berhubungan dengan predictdan predict-probametode?

2
Adjusted Rand Index vs Adjusted Mutual Information
Saya mencoba mengevaluasi kinerja pengelompokan. Saya sedang membaca dokumentasi skiscit-learning tentang metrik . Saya tidak mengerti perbedaan antara ARI dan AMI. Tampak bagi saya bahwa mereka melakukan hal yang sama dalam dua cara berbeda. Mengutip dari dokumentasi: Mengingat pengetahuan tentang tugas kelas kebenaran ground label_true dan penugasan algoritma pengelompokan sampel …

3
Mengidentifikasi fitur yang difilter setelah pemilihan fitur dengan scikit belajar
Ini kode saya untuk metode pemilihan fitur dengan Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Tetapi setelah mendapatkan X baru (variabel dependen - X_new), Bagaimana saya tahu variabel …

2
Implementasi validasi silang bersarang
Saya mencoba mencari tahu apakah pemahaman saya tentang validasi silang bersarang benar, oleh karena itu saya menulis contoh mainan ini untuk melihat apakah saya benar: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 …

1
Dapatkah Random Forests melakukan jauh lebih baik daripada 2,8% test error pada MNIST?
Saya belum menemukan literatur tentang penerapan Hutan Acak untuk MNIST, CIFAR, STL-10, dll. Jadi saya pikir saya akan mencobanya sendiri dengan permutasi MNIST invarian . Di R , saya mencoba: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Ini berjalan selama 2 jam dan mendapat 2,8% kesalahan pengujian. Saya juga mencoba scikit-belajar , …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.