Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

3
Mengapa regresi polinomial dianggap sebagai kasus khusus regresi linier berganda?
Jika regresi polinomial memodelkan hubungan nonlinear, bagaimana hal itu dapat dianggap sebagai kasus khusus dari regresi linier berganda? Wikipedia mencatat bahwa "Meskipun regresi polinomial cocok dengan model nonlinier untuk data, sebagai masalah estimasi statistik linear, dalam arti bahwa fungsi regresi adalah linear dalam parameter yang tidak diketahui yang diperkirakan dari …


2
Apa perbedaan antara regresi kuantil kondisional dan tanpa syarat?
Estimator regresi kuantil bersyarat oleh Koenker dan Basset (1978) untuk kuantil didefinisikan sebagaiβ Qτt hτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau) mana adalah fungsi pembobotan ulang (disebut "periksa" -fungsi) residu u_i .ρτ=ui⋅(τ−1(ui&lt;0))ρτ=ui⋅(τ−1(ui&lt;0))\rho_\tau = u_i\cdot (\tau - 1(u_i<0))uiuiu_i Dalam sebuah makalah oleh Firpo et al. (2009) , …


2
Apa yang dimaksud dengan pengidentifikasian model?
Saya tahu bahwa dengan model yang tidak dapat diidentifikasi, data dapat dikatakan dihasilkan oleh beberapa penugasan berbeda ke parameter model. Saya tahu bahwa kadang-kadang dimungkinkan untuk membatasi parameter sehingga semua dapat diidentifikasi, seperti dalam contoh di Cassella &amp; Berger 2nd ed, bagian 11.2. Diberikan model tertentu, bagaimana saya bisa mengevaluasi …

5
Prediksi dalam regresi Cox
Saya melakukan regresi Cox multivarian, saya memiliki variabel independen dan nilai beta yang signifikan. Model ini cocok dengan data saya dengan sangat baik. Sekarang, saya ingin menggunakan model saya dan memprediksi kelangsungan hidup pengamatan baru. Saya tidak jelas bagaimana melakukan ini dengan model Cox. Dalam regresi linier atau logistik, akan …

7
Apakah ada browser / penampil yang baik untuk melihat dataset R (file .rda)
Saya ingin menelusuri file .rda (R dataset). Saya tahu tentang View(datasetname)perintah itu. R.app default yang datang untuk Mac tidak memiliki browser yang sangat bagus untuk data (ini membuka jendela di X11). Saya suka browser data RStudio yang terbuka dengan Viewperintah. Namun, ini hanya menampilkan 1000 baris dan menghilangkan sisanya. ( …
38 r 

2
Kapan Poisson dan regresi binomial negatif sesuai dengan koefisien yang sama?
Saya perhatikan bahwa dalam regresi R, Poisson dan negatif binomial (NB) selalu cocok dengan koefisien yang sama untuk prediktor kategoris, tetapi tidak kontinu. Misalnya, berikut ini adalah regresi dengan prediktor kategori: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) …

5
Rangkaian waktu 'pengelompokan' di R
Saya memiliki satu set data deret waktu. Setiap seri mencakup periode yang sama, meskipun tanggal sebenarnya dalam setiap seri waktu mungkin tidak semuanya 'berbaris' persis. Dengan kata lain, jika seri Time harus dibaca ke dalam matriks 2D, itu akan terlihat seperti ini: date T1 T2 T3 .... TN 1/1/01 100 …

8
Apakah valid untuk memasukkan ukuran dasar sebagai variabel kontrol ketika menguji pengaruh variabel independen terhadap skor perubahan?
Saya mencoba menjalankan regresi OLS: DV: Perubahan berat badan lebih dari setahun (berat awal - berat akhir) IV: Apakah Anda berolahraga atau tidak. Namun, tampaknya masuk akal bahwa orang yang lebih berat akan menurunkan lebih banyak berat badan per unit olahraga daripada orang yang lebih kurus. Jadi, saya ingin memasukkan …

9
Apa hubungan antara dan
Apa hubungan antara YYY dan XXX dalam plot berikut? Dalam pandangan saya ada hubungan linier negatif, tetapi karena kita memiliki banyak pencilan, hubungan ini sangat lemah. Apakah saya benar? Saya ingin belajar bagaimana kami bisa menjelaskan scatterplots.

4
Perkiraan statistik pesanan untuk variabel acak normal
Adakah formula terkenal untuk statistik urutan distribusi acak tertentu? Khususnya statistik urutan pertama dan terakhir dari variabel acak normal, tetapi jawaban yang lebih umum juga akan dihargai. Sunting: Untuk memperjelas, saya mencari rumus perkiraan yang dapat lebih atau kurang dievaluasi secara eksplisit, bukan ekspresi integral yang tepat. Sebagai contoh, saya …

6
Apa hubungan antara wilayah yang kredibel dan tes hipotesis Bayesian?
Dalam statistik frequentist, ada hubungan erat antara interval kepercayaan dan tes. Menggunakan inferensi tentang dalam distribusi sebagai contoh, interval kepercayaan berisi semua nilai yang tidak ditolak oleh uji- pada tingkat signifikansi .μμ\muN(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1−α1−α1-\alphax¯±tα/2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n}μμ\mutttαα\alpha Interval kepercayaan sering dalam tes terbalik ini. (Kebetulan, ini berarti bahwa kita dapat menginterpretasikan nilai …

8
Bagaimana cara secara efisien menghasilkan matriks korelasi positif-semidefinit acak?
Saya ingin dapat menghasilkan matriks korelasi positif-semidefinit (PSD) secara efisien. Metode saya melambat secara dramatis ketika saya meningkatkan ukuran matriks yang akan dihasilkan. Bisakah Anda menyarankan solusi yang efisien? Jika Anda mengetahui ada contoh di Matlab, saya akan sangat berterima kasih. Saat membuat matriks korelasi PSD bagaimana Anda memilih parameter …

9
Bagaimana saya bisa memodelkan jumlah variabel acak Bernoulli secara efisien?
Saya memodelkan variabel acak ( ) yang merupakan jumlah dari beberapa ~ 15-40k variabel acak Bernoulli independen ( ), masing-masing dengan probabilitas keberhasilan yang berbeda ( ). Secara formal, mana dan \ Pr (X_i = 0) = 1-p_i .YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Saya tertarik untuk dengan cepat menjawab pertanyaan seperti Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k) (di …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.