Statistik dan Big Data python

6

Sumber daya untuk mempelajari cara menerapkan metode ansambel

Saya mengerti secara teoritis (semacam) bagaimana mereka akan bekerja, tetapi saya tidak yakin bagaimana cara menggunakan metode ensemble (seperti voting, campuran tertimbang, dll.). Apa sumber daya yang baik untuk menerapkan metode ensemble? Apakah ada sumber daya khusus mengenai implementasi di Python? EDIT: Untuk menjernihkan beberapa berdasarkan diskusi pada komentar, saya …

13 machine-learning python ensemble

3

Ruby sebagai meja kerja statistik

Ini juga merupakan pertanyaan yang sangat terkait dengan Python sebagai meja kerja statistik dan unggul sebagai meja kerja statistik . Saya tahu ada diskusi besar tentang Ruby versus Python tetapi ini bukan poin dari pertanyaan ini. Saya berpikir bahwa Ruby lebih cepat daripada Python dan memiliki sintaksis yang sangat alami …

13 r python software ruby

4

Apakah ada tutorial tentang teori probabilitas Bayesian atau model grafis dengan contoh?

Saya telah melihat referensi untuk mempelajari teori probabilitas Bayesian dalam R, dan saya bertanya-tanya apakah ada yang lebih seperti ini, mungkin secara khusus dalam Python? Ditujukan untuk mempelajari teori probabilitas Bayesian, inferensi, estimasi kemungkinan maksimum, model grafis dan sejenisnya?

13 machine-learning bayesian python graphical-model

9

Mendorong pohon keputusan dengan python? [Tutup]

Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 5 bulan lalu . Apakah ada perpustakaan python yang bagus untuk pelatihan pohon keputusan yang didorong?

13 python cart boosting

1

Paket GBM vs. Caret menggunakan GBM

Saya telah menggunakan model tuning caret, tetapi kemudian menjalankan kembali model menggunakan gbmpaket. Ini adalah pemahaman saya bahwa caretpaket menggunakan gbmdan hasilnya harus sama. Namun, hanya menjalankan tes cepat menggunakan data(iris)menunjukkan perbedaan dalam model sekitar 5% menggunakan RMSE dan R ^ 2 sebagai metrik evaluasi. Saya ingin menemukan kinerja model …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

Menggunakan BIC untuk memperkirakan jumlah k dalam KMEANS

Saat ini saya mencoba menghitung BIC untuk kumpulan data mainan saya (ofc iris (:). Saya ingin mereproduksi hasil seperti yang ditunjukkan di sini (Gbr. 5). Makalah itu juga merupakan sumber saya untuk formula BIC. Saya memiliki 2 masalah dengan ini: Notasi: nsayanin_i = jumlah elemen dalam klastersayaii CsayaCiC_i = pusat …

13 python k-means scikit-learn bic

2

Bagaimana cara menggunakan filter Kalman?

Saya memiliki lintasan objek dalam ruang 2D (permukaan). Lintasan diberikan sebagai urutan (x,y)koordinat. Saya tahu bahwa pengukuran saya berisik dan kadang-kadang saya memiliki outlier yang jelas. Jadi, saya ingin memfilter pengamatan saya. Sejauh yang saya mengerti filter Kalman, itu melakukan apa yang saya butuhkan. Jadi, saya mencoba menggunakannya. Saya menemukan …

12 python kalman-filter smoothing

4

Bagaimana cara (secara sistematis) menyesuaikan tingkat pembelajaran dengan Gradient Descent sebagai Pengoptimal?

Orang luar ke bidang ML / DL; memulai kursus Belajar Udacity Deep yang didasarkan pada Tensorflow; melakukan penugasan 3 masalah 4; mencoba menyesuaikan tingkat belajar dengan konfigurasi berikut: Ukuran batch 128 Jumlah langkah: cukup untuk mengisi 2 zaman Ukuran lapisan tersembunyi: 1024, 305, 75 Inisialisasi berat: terpotong normal dengan std. …

12 python machine-learning tensorflow deep-learning

1

Regresi logistik ordinal dalam Python

Saya ingin menjalankan regresi logistik ordinal dengan Python - untuk variabel respons dengan tiga level dan dengan beberapa faktor penjelas. The statsmodelspaket mendukung logit biner dan model multinomial logit (MNLogit), tapi tidak memerintahkan logit. Karena matematika yang mendasarinya tidak jauh berbeda, saya ingin tahu apakah matematika dapat diimplementasikan dengan mudah …

12 categorical-data python logit ordered-logit statsmodels

1

Cara menafsirkan plot autokorelasi di MCMC

Saya mulai mengenal statistik Bayesian dengan membaca buku Doing Bayesian Data Analysis , oleh John K. Kruschke yang juga dikenal sebagai "buku anak anjing". Dalam bab 9, model hierarkis diperkenalkan dengan contoh sederhana ini: dan pengamatan Bernoulli adalah 3 koin, masing-masing 10 membalik. Satu menunjukkan 9 kepala, yang lain 5 …

12 bayesian interpretation python mcmc autocorrelation

5

Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?

Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Mengapa distribusi seragam ini?

Kami sedang menyelidiki uji statistik Bayesian, dan menemukan fenomena aneh (bagi saya setidaknya). Pertimbangkan kasus berikut: kami tertarik untuk mengukur populasi mana, A atau B, yang memiliki tingkat konversi yang lebih tinggi. Untuk pemeriksaan kewarasan, kami menetapkan , yaitu probabilitas konversi sama di kedua grup. Kami menghasilkan data buatan menggunakan …

12 hypothesis-testing bayesian binomial python beta-distribution

1

Paket python untuk bekerja dengan model campuran Gaussian (GMM)

Tampaknya ada beberapa opsi yang tersedia untuk bekerja dengan Gaussian Mixture Model (GMMs) dengan Python. Sekilas, setidaknya ada: PyMix - http://www.pymix.org/pymix/index.php Alat untuk pemodelan campuran PyEM - http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/ yang merupakan bagian dari Scipy toolbox dan tampaknya berfokus pada Pembaruan GMM : Sekarang dikenal sebagai sklearn.mixture . PyPR - http://pypr.sourceforge.net/ pengenalan …

12 normal-distribution python mixture

1

Scikit predict_proba interpretasi keluaran

Saya bekerja dengan perpustakaan scikit-learn dengan python. Dalam kode di bawah ini, saya memprediksi probabilitas tetapi saya tidak tahu cara membaca output. Menguji data from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Pisahkan dataset X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, …

12 python scikit-learn

2

Dimungkinkan untuk mengevaluasi GLM dengan Python / scikit-belajar menggunakan distribusi Poisson, Gamma, atau Tweedie sebagai keluarga untuk distribusi kesalahan?

Mencoba mempelajari beberapa Python dan Sklearn, tetapi untuk pekerjaan saya, saya perlu menjalankan regresi yang menggunakan distribusi kesalahan dari keluarga Poisson, Gamma, dan terutama Tweedie. Saya tidak melihat apa pun dalam dokumentasi tentang mereka, tetapi mereka berada di beberapa bagian dari distribusi R, jadi saya bertanya-tanya apakah ada yang melihat …

12 generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

Pertanyaan yang diberi tag «python»