Statistik dan Big Data aggregation

4

Apa nilai yang benar untuk presisi dan mengingat dalam kasus tepi?

Presisi didefinisikan sebagai: p = true positives / (true positives + false positives) Apakah benar bahwa, sebagai true positivesdan false positivespendekatan 0, presisi mendekati 1? Pertanyaan yang sama untuk diingat: r = true positives / (true positives + false negatives) Saat ini saya sedang menerapkan tes statistik di mana saya …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

3

Bagaimana cara mengumpulkan data menit selama seminggu ke dalam sarana per jam?

Bagaimana Anda mendapatkan sarana per jam untuk beberapa kolom data, untuk periode harian, dan menunjukkan hasil selama dua belas "Tuan Rumah" dalam grafik yang sama? Yaitu, saya ingin menggambarkan seperti apa periode 24 jam itu, selama satu minggu untuk data yang berharga. Tujuan akhirnya adalah untuk membandingkan dua set data …

15 r time-series aggregation

6

Cara cepat di R untuk mendapatkan baris pertama dari bingkai data yang dikelompokkan oleh pengidentifikasi [ditutup]

Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Terkadang saya hanya perlu mendapatkan baris pertama dari kumpulan data yang dikelompokkan berdasarkan pengidentifikasi, seperti saat mengambil usia dan jenis …

14 r dataset aggregation plyr

1

LARS vs koordinate descent untuk laso

Apa pro dan kontra dari menggunakan LARS [1] dibandingkan menggunakan penurunan koordinat untuk menyesuaikan regresi linier yang diatur L1? Saya terutama tertarik pada aspek kinerja (masalah saya cenderung ada Ndalam ratusan ribu dan p<20.) Namun, wawasan lainnya juga akan dihargai. sunting: Karena saya telah memposting pertanyaan, chl telah dengan ramah …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Kuantitas dari kombinasi distribusi normal

Saya memiliki informasi tentang distribusi dimensi antropometrik (seperti rentang bahu) untuk anak-anak dari berbagai usia. Untuk setiap usia dan dimensi, maksud saya, standar deviasi. (Saya juga punya delapan kuantil, tetapi saya pikir saya tidak akan bisa mendapatkan yang saya inginkan dari mereka.) Untuk setiap dimensi, saya ingin memperkirakan kuantil tertentu …

13 normal-distribution quantiles gaussian-mixture aggregation

1

Bagaimana Anda memilih unit analisis (tingkat agregasi) dalam rangkaian waktu?

Jika Anda dapat mengukur serangkaian pengamatan pada setiap tingkat ketepatan waktu, dan tujuan penelitian Anda adalah untuk mengidentifikasi hubungan antara X dan Y, apakah ada justifikasi empiris untuk memilih tingkat agregasi tertentu di atas yang lain, atau haruskah pilihan hanya diambil berdasarkan teori dan / atau keterbatasan praktis? Saya punya …

13 time-series aggregation disaggregation

2

Statistik apa yang disimpan di bawah agregasi?

Jika kita memiliki rangkaian waktu yang panjang dan beresolusi tinggi, dengan banyak suara, seringkali masuk akal untuk menggabungkan data ke resolusi yang lebih rendah (misalnya, nilai harian hingga bulanan) untuk mendapatkan pemahaman yang lebih baik tentang apa yang terjadi, secara efektif menghilangkan beberapa dari kebisingan. Saya telah melihat setidaknya satu …

12 time-series aggregation

2

Haruskah saya menjalankan regresi terpisah untuk setiap komunitas, atau bisakah komunitas hanya menjadi variabel pengendali dalam model agregat?

Saya menjalankan model OLS dengan variabel indeks aset berkelanjutan sebagai DV. Data saya dikumpulkan dari tiga komunitas serupa dalam kedekatan geografis yang dekat satu sama lain. Meskipun demikian, saya pikir penting untuk menggunakan komunitas sebagai variabel kontrol. Ternyata, masyarakat signifikan pada tingkat 1% (t-skor -4,52). Komunitas adalah variabel nominal / …

11 regression categorical-data stata multiple-regression aggregation

6

Bagaimana menemukan statistik ringkasan untuk semua kombinasi unik faktor dalam data.frame di R? [Tutup]

Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Saya ingin menghitung ringkasan variabel dalam data.frame untuk setiap kombinasi unik faktor dalam data.frame. Haruskah saya menggunakan plyr untuk melakukan …

11 r categorical-data aggregation plyr

1

Prediksi Probabilitas Hutan Acak vs suara terbanyak

Scikit belajar tampaknya menggunakan prediksi probabilistik alih-alih suara mayoritas untuk teknik agregasi model tanpa penjelasan mengapa (1.9.2.1. Hutan Acak). Apakah ada penjelasan yang jelas mengapa? Lebih lanjut apakah ada makalah yang bagus atau ulasan artikel untuk berbagai teknik agregasi model yang dapat digunakan untuk mengantongi Hutan Acak? Terima kasih!

10 random-forest python scikit-learn aggregation bagging

2

Hitung kurva ROC untuk data

Jadi, saya memiliki 16 percobaan di mana saya mencoba untuk mengotentikasi seseorang dari sifat biometrik menggunakan Hamming Distance. Ambang batas saya diatur ke 3.5. Data saya di bawah dan hanya percobaan 1 yang Benar-Benar Positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Bagaimana cara menggabungkan model regresi?

Katakanlah saya memiliki tiga set data ukuran nnn setiap: y1y1y_1 = ketinggian orang dari AS saja y2y2y_2 = ketinggian pria dari seluruh dunia y3y3y_3 = Tinggi wanita dari seluruh dunia Dan saya membangun model linier untuk masing-masing faktor xixix_i, i=1,...,ki=1,...,ki = 1,..., k: y^j=β0+β1x1+β2x2+ϵjy^j=β0+β1x1+β2x2+ϵj\hat{y}_{j} = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} …

8 regression multiple-regression ensemble aggregation

3

Korelasi dan agregasi intraclass

Bayangkan itu: Anda memiliki sampel 1000 tim masing-masing dengan 10 anggota. Anda mengukur fungsi tim dengan bertanya kepada setiap anggota tim seberapa baik menurut mereka tim mereka berfungsi menggunakan skala numerik multi-item yang andal. Anda ingin menggambarkan sejauh mana ukuran efektivitas tim adalah properti dari keyakinan istimewa anggota tim atau …

8 correlation intraclass-correlation aggregation interpretation effect-size

Pertanyaan yang diberi tag «aggregation»