Statistik dan Big Data

5

Pemodelan data longitudinal di mana efek waktu bervariasi dalam bentuk fungsional antara individu

Konteks : Bayangkan Anda memiliki studi longitudinal yang mengukur variabel dependen (DV) sekali seminggu selama 20 minggu pada 200 peserta. Meskipun saya tertarik pada umumnya, DV yang saya pikirkan termasuk kinerja pekerjaan setelah perekrutan atau berbagai tindakan kesejahteraan setelah intervensi psikologi klinis. Saya tahu bahwa pemodelan multilevel dapat digunakan untuk …

32 repeated-measures random-effects-model latent-class

8

Berapa probabilitas orang ini adalah wanita?

Ada seseorang di balik tirai - saya tidak tahu apakah orang itu perempuan atau laki-laki. Saya tahu orang itu memiliki rambut panjang, dan 90% dari semua orang dengan rambut panjang adalah perempuan Saya tahu orang tersebut memiliki tipe darah AX3 yang langka, dan bahwa 80% dari semua orang dengan tipe …

32 conditional-probability probability

1

Bagaimana PCA membantu dengan analisis pengelompokan k-means?

Latar Belakang : Saya ingin mengklasifikasikan area perumahan kota ke dalam kelompok berdasarkan karakteristik sosial-ekonomi mereka, termasuk kepadatan unit perumahan, kepadatan populasi, area ruang hijau, harga perumahan, jumlah sekolah / pusat kesehatan / pusat penitipan anak, dll. Saya ingin memahami berapa banyak kelompok yang berbeda di daerah perumahan dapat dibagi …

32 clustering pca k-means dimensionality-reduction

2

Mengapa tidak ada mesin pembelajaran penguatan yang dalam untuk catur, mirip dengan AlphaGo?

Komputer sudah lama bisa bermain catur menggunakan teknik "brute-force", mencari ke kedalaman tertentu dan kemudian mengevaluasi posisi. Namun komputer AlphaGo, hanya menggunakan JST untuk mengevaluasi posisi (itu tidak melakukan pencarian mendalam sejauh yang saya tahu). Apakah mungkin untuk membuat mesin catur yang memainkan catur dengan cara yang sama seperti AlphaGo …

32 neural-networks deep-learning reinforcement-learning games

2

Fungsi biaya dalam regresi linier OLS

Saya agak bingung dengan kuliah tentang regresi linier yang diberikan oleh Andrew Ng pada Coursera tentang pembelajaran mesin. Di sana, ia memberikan fungsi biaya yang meminimalkan jumlah kuadrat sebagai: 12 m∑i = 1m( hθ( X( i )) - Y( i ))212m∑saya=1m(hθ(X(saya))-Y(saya))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Saya mengerti dari mana berasal. …

32 regression machine-learning loss-functions

3

PCA tentang korelasi atau kovarian: apakah PCA tentang korelasi pernah masuk akal? [Tutup]

Dalam analisis komponen utama (PCA), orang dapat memilih matriks kovarian atau matriks korelasi untuk menemukan komponen (dari vektor eigen masing-masing). Ini memberikan hasil yang berbeda (beban dan skor PC), karena vektor eigen antara kedua matriks tidak sama. Pemahaman saya adalah bahwa ini disebabkan oleh fakta bahwa vektor data mentah dan …

32 pca factor-analysis

4

Bagaimana cara menghitung kesalahan relatif ketika nilai sebenarnya adalah nol?

Bagaimana cara menghitung kesalahan relatif ketika nilai sebenarnya adalah nol? Katakanlah saya memiliki dan . Jika saya mendefinisikan kesalahan relatif sebagai:xtrue=0xtrue=0x_{true} = 0xtestxtestx_{test} relative error=xtrue−xtestxtruerelative error=xtrue−xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} Maka kesalahan relatif selalu tidak terdefinisi. Jika sebaliknya saya menggunakan definisi: relative error=xtrue−xtestxtestrelative error=xtrue−xtestxtest\text{relative error} = \frac{x_{true}-x_{test}}{x_{test}} Maka kesalahan relatif selalu …

32 error measurement-error

2

Rentang pencarian mana untuk menentukan parameter optimal C dan gamma SVM?

Saya menggunakan SVM untuk klasifikasi dan saya mencoba menentukan parameter optimal untuk kernel linear dan RBF. Untuk kernel linear saya menggunakan pemilihan parameter yang divalidasi silang untuk menentukan C dan untuk kernel RBF saya menggunakan pencarian grid untuk menentukan C dan gamma. Saya memiliki 20 fitur (angka) dan 70 contoh …

32 classification svm kernel-trick

1

Apa perbedaan antara "koefisien determinasi" dan "mean squared error"?

Untuk masalah regresi, saya telah melihat orang menggunakan "koefisien determinasi" (alias R kuadrat) untuk melakukan pemilihan model, misalnya, menemukan koefisien penalti yang tepat untuk regularisasi. Namun, itu juga umum untuk menggunakan "mean squared error" atau "root mean squared error" sebagai ukuran akurasi regresi. Jadi apa perbedaan utama antara keduanya? Bisakah …

32 regression r-squared

3

Apakah ada Project Euler yang serupa untuk pembelajaran mesin?

Saya menemukan Project Euler http://projecteuler.net/ sangat berguna dalam mempelajari bahasa pemrograman. Apakah ada situs serupa untuk Pembelajaran Mesin? Saya memang melihat http://www.kaggle.com/ , tetapi hampir tidak dapat diakses oleh pemula sebagai Project Euler.

32 teaching

1

Fungsi objektif PCA: apa hubungan antara memaksimalkan varians dan meminimalkan kesalahan?

Algoritma PCA dapat dirumuskan dalam bentuk matriks korelasi (anggap data telah dinormalisasi dan kami hanya mempertimbangkan proyeksi ke PC pertama). Fungsi objektif dapat ditulis sebagai:XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. Ini bagus, dan kami menggunakan pengganda Lagrangian untuk menyelesaikannya, yaitu menulis ulang sebagai: maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) …

32 pca optimization

2

Varians produk dari variabel dependen

Apa rumus untuk varian produk dari variabel dependen? Dalam kasus variabel independen, rumusnya sederhana: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 Tapi apa rumus untuk variabel berkorelasi? Omong-omong, bagaimana saya bisa menemukan korelasi berdasarkan data statistik?

32 correlation variance

4

Bagaimana saya menyesuaikan model multilevel untuk hasil poisson yang terlalu tersebar?

Saya ingin mencocokkan GLMM bertingkat dengan distribusi Poisson (dengan dispersi berlebih) menggunakan R. Saat ini saya menggunakan lme4 tetapi saya perhatikan bahwa baru-baru ini quasipoissonkeluarga telah dihapus. Saya telah melihat di tempat lain bahwa Anda dapat memodelkan over-dispersi aditif untuk distribusi binomial dengan menambahkan intersepsi acak dengan satu level per …

32 r mixed-model poisson-distribution lme4-nlme overdispersion

3

Bagaimana R menangani nilai yang hilang dalam lm?

Saya ingin mundur vektor B terhadap masing-masing kolom dalam matriks A. Ini sepele jika tidak ada data yang hilang, tetapi jika matriks A berisi nilai yang hilang, maka regresi saya terhadap A dibatasi untuk menyertakan hanya baris di mana semua nilai ada ( perilaku default na.omit ). Ini menghasilkan hasil …

32 r missing-data linear-model

3

Apa kriteria berhenti untuk pengelompokan hierarki aglomeratif yang digunakan dalam praktik?

Saya telah menemukan literatur yang luas yang mengusulkan segala macam kriteria (misalnya Glenn et al. 1985 (pdf) dan Jung et al. 2002 (pdf)). Namun, sebagian besar tidak mudah diimplementasikan (setidaknya dari sudut pandang saya). Saya menggunakan scipy.cluster.hierarchy untuk mendapatkan hierarki klaster, dan saya sekarang mencoba untuk memutuskan bagaimana membentuk cluster …

32 clustering