Statistik dan Big Data r

2

Bagaimana cara menafsirkan plot pas vs residual ini?

Saya tidak begitu mengerti heteroskedastisitas. Saya ingin tahu apakah model saya sesuai atau tidak sesuai dengan plot ini.

17 r regression residuals heteroscedasticity independence

2

Bagaimana mungkin Poisson GLM menerima angka yang bukan bilangan bulat?

Saya benar-benar terpana oleh kenyataan bahwa GLM Poisson menerima angka-angka non-integer! Lihat: Data (isi data.txt): 1 2001 0.25 1 1 2002 0.5 1 1 2003 1 1 2 2001 0.25 1 2 2002 0.5 1 2 2003 1 1 R script: t <- read.table("data.txt") names(t) <- c('site', 'year', 'count', 'weight') …

17 r generalized-linear-model poisson-distribution poisson-regression

3

Pas t-distribusi di R: parameter penskalaan

Bagaimana saya menyesuaikan parameter distribusi-t, yaitu parameter yang sesuai dengan 'rata-rata' dan 'standar deviasi' dari distribusi normal. Saya menganggap mereka disebut 'berarti' dan 'scaling / derajat kebebasan' untuk distribusi-t? Kode berikut sering menghasilkan kesalahan 'optimasi gagal'. library(MASS) fitdistr(x, "t") Apakah saya harus mengukur x terlebih dahulu atau mengubahnya menjadi probabilitas? …

17 r distributions maximum-likelihood fitting robust

5

Bagaimana menentukan distribusi lognormal dalam argumen keluarga GLM di R?

Pertanyaan sederhana: Bagaimana cara menentukan distribusi lognormal dalam argumen keluarga GLM di R? Saya tidak dapat menemukan bagaimana ini dapat dicapai. Mengapa lognormal (atau eksponensial) bukan opsi dalam argumen keluarga? Di suatu tempat di R-Archives saya membaca bahwa seseorang hanya harus menggunakan log-link untuk keluarga yang diatur ke gaussian di …

17 r distributions generalized-linear-model lognormal

3

Pas multivariat, spline kubik alami

catatan: tanpa jawaban yang benar setelah sebulan, saya telah memposting ulang ke SO Latar Belakang Saya punya model, fff , di mana Y=f(X)Y=f(X)Y=f(\textbf{X}) XX\textbf{X} adalahmatriksn×mn×mn \times m sampel dariparametermmm danYYY adalahvektorn×1n×1n \times 1 dari output model. fff adalah komputasi yang intensif, jadi saya ingin memperkirakanfff menggunakan spline kubik multivariat melalui(X,Y)(X,Y)(X,Y) …

17 r multivariate-analysis splines interpolation gaussian-process

2

Menghitung persentil ke-95: Membandingkan distribusi normal, R Quantile, dan pendekatan Excel

Saya mencoba menghitung persentil ke-95 pada dataset berikut. Saya menemukan beberapa referensi online untuk melakukannya. Pendekatan 1: Berdasarkan data sampel Yang pertama memberitahu saya untuk mendapatkan TOP 95 Percentdataset dan kemudian memilih MINatau AVGdari set yang dihasilkan. Melakukannya untuk dataset berikut memberi saya: AVG: 29162 MIN: 0 Pendekatan 2: Asumsikan …

17 r dataset quantiles sql

5

Untuk klasifikasi dengan Random Forests di R, bagaimana seharusnya seseorang menyesuaikan ukuran kelas yang tidak seimbang?

Saya mengeksplorasi berbagai metode klasifikasi untuk proyek yang sedang saya kerjakan, dan saya tertarik untuk mencoba Hutan Acak. Saya mencoba mendidik diri sendiri seiring berjalannya waktu, dan akan menghargai setiap bantuan yang diberikan oleh komunitas CV. Saya telah membagi data saya ke dalam set pelatihan / tes. Dari percobaan dengan …

17 r machine-learning random-forest

2

Apakah masuk akal untuk menggunakan variabel tanggal dalam regresi?

Saya tidak terbiasa menggunakan variabel dalam format tanggal dalam R. Saya hanya ingin tahu apakah mungkin untuk menambahkan variabel tanggal sebagai variabel penjelas dalam model regresi linier. Jika memungkinkan, bagaimana kita bisa menafsirkan koefisien? Apakah itu efek satu hari pada variabel hasil? Lihat intisari saya dengan contoh apa yang saya …

17 r regression time-series

2

Memahami uji Kolmogorov-Smirnov dalam R

Saya mencoba untuk memahami output dari fungsi tes Kolmogorov-Smirnov (dua sampel, dua sisi). Ini tes sederhana. x <- c(1,2,2,3,3,3,3,4,5,6) y <- c(2,3,4,5,5,6,6,6,6,7) z <- c(12,13,14,15,15,16,16,16,16,17) ks.test(x,y) # Two-sample Kolmogorov-Smirnov test # #data: x and y #D = 0.5, p-value = 0.1641 #alternative hypothesis: two-sided # #Warning message: #In ks.test(x, y) …

17 r kolmogorov-smirnov ties

1

Cara menemukan / memperkirakan fungsi kerapatan peluang dari fungsi kerapatan dalam R

Misalkan saya punya variabel suka Xdengan distribusi tidak dikenal. Dalam Mathematica, dengan menggunakan SmoothKernelDensityfungsi kita dapat memiliki fungsi kerapatan yang diperkirakan. Perkiraan fungsi kerapatan ini dapat digunakan bersama dengan PDFfungsi untuk menghitung probabilitas fungsi kerapatan dari suatu nilai seperti Xdalam bentuk PDF[density,X]asumsi bahwa "kerapatan" adalah hasil dari SmoothKernelDensity. Akan lebih …

17 r pdf cdf

2

Apa yang terjadi di sini, ketika saya menggunakan kuadrat kerugian dalam pengaturan regresi logistik?

Saya mencoba menggunakan kuadrat kerugian untuk melakukan klasifikasi biner pada kumpulan data mainan. Saya menggunakan mtcarskumpulan data, menggunakan mil per galon dan berat untuk memprediksi jenis transmisi. Plot di bawah ini menunjukkan dua jenis data tipe transmisi dalam warna berbeda, dan batas keputusan dihasilkan oleh fungsi kerugian yang berbeda. Kerugian …

16 r machine-learning logistic optimization loss-functions

1

Asal-usul notasi gaya Wilkinson seperti (1 | id) untuk efek acak dalam formula model campuran dalam R

Rumus model dalam R seperti y ~ x + a*b + c:d didasarkan pada apa yang disebut notasi Wilkinson : Wilkinson dan Rogers 1973, Deskripsi Simbolik Model Faktorial untuk Analisis Varians . Makalah ini tidak membahas notasi untuk model campuran (yang mungkin belum ada saat itu). Jadi di mana formula …

16 r mixed-model lme4-nlme notation history

2

Perbedaan kesalahan standar residual antara optim dan glm

Saya mencoba mereproduksi dengan optimhasil dari regresi linier sederhana yang dilengkapi dengan glmatau bahkan nlsfungsi R. Perkiraan parameter adalah sama tetapi estimasi varians residual dan kesalahan standar dari parameter lain tidak sama terutama ketika ukuran sampel rendah. Saya kira ini disebabkan oleh perbedaan dalam cara kesalahan standar residual dihitung antara …

16 r maximum-likelihood optimization

2

Bagaimana cara melakukan peramalan dengan deteksi outlier di R? - Prosedur dan Metode analisis deret waktu

Saya memiliki data deret waktu bulanan, dan ingin melakukan peramalan dengan deteksi pencilan. Ini adalah contoh kumpulan data saya: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 …

16 r time-series forecasting arima outliers

2

Mengapa log-mentransformasikan data sebelum melakukan analisis komponen utama?

Saya mengikuti tutorial di sini: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ untuk mendapatkan pemahaman yang lebih baik tentang PCA. Tutorial menggunakan dataset Iris dan menerapkan transformasi log sebelum ke PCA: Perhatikan bahwa dalam kode berikut ini kami menerapkan transformasi log ke variabel kontinu seperti yang disarankan oleh [1] dan mengatur centerdan scalesama dengan TRUEdalam panggilan …

16 r pca data-transformation logarithm

Pertanyaan yang diberi tag «r»