Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

5
Pemodelan data longitudinal di mana efek waktu bervariasi dalam bentuk fungsional antara individu
Konteks : Bayangkan Anda memiliki studi longitudinal yang mengukur variabel dependen (DV) sekali seminggu selama 20 minggu pada 200 peserta. Meskipun saya tertarik pada umumnya, DV yang saya pikirkan termasuk kinerja pekerjaan setelah perekrutan atau berbagai tindakan kesejahteraan setelah intervensi psikologi klinis. Saya tahu bahwa pemodelan multilevel dapat digunakan untuk …

8
Berapa probabilitas orang ini adalah wanita?
Ada seseorang di balik tirai - saya tidak tahu apakah orang itu perempuan atau laki-laki. Saya tahu orang itu memiliki rambut panjang, dan 90% dari semua orang dengan rambut panjang adalah perempuan Saya tahu orang tersebut memiliki tipe darah AX3 yang langka, dan bahwa 80% dari semua orang dengan tipe …

1
Bagaimana PCA membantu dengan analisis pengelompokan k-means?
Latar Belakang : Saya ingin mengklasifikasikan area perumahan kota ke dalam kelompok berdasarkan karakteristik sosial-ekonomi mereka, termasuk kepadatan unit perumahan, kepadatan populasi, area ruang hijau, harga perumahan, jumlah sekolah / pusat kesehatan / pusat penitipan anak, dll. Saya ingin memahami berapa banyak kelompok yang berbeda di daerah perumahan dapat dibagi …

2
Mengapa tidak ada mesin pembelajaran penguatan yang dalam untuk catur, mirip dengan AlphaGo?
Komputer sudah lama bisa bermain catur menggunakan teknik "brute-force", mencari ke kedalaman tertentu dan kemudian mengevaluasi posisi. Namun komputer AlphaGo, hanya menggunakan JST untuk mengevaluasi posisi (itu tidak melakukan pencarian mendalam sejauh yang saya tahu). Apakah mungkin untuk membuat mesin catur yang memainkan catur dengan cara yang sama seperti AlphaGo …

2
Fungsi biaya dalam regresi linier OLS
Saya agak bingung dengan kuliah tentang regresi linier yang diberikan oleh Andrew Ng pada Coursera tentang pembelajaran mesin. Di sana, ia memberikan fungsi biaya yang meminimalkan jumlah kuadrat sebagai: 12 m∑i = 1m( hθ( X( i )) - Y( i ))212m∑saya=1m(hθ(X(saya))-Y(saya))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Saya mengerti dari mana berasal. …


4
Bagaimana cara menghitung kesalahan relatif ketika nilai sebenarnya adalah nol?
Bagaimana cara menghitung kesalahan relatif ketika nilai sebenarnya adalah nol? Katakanlah saya memiliki dan . Jika saya mendefinisikan kesalahan relatif sebagai:xtrue=0xtrue=0x_{true} = 0xtestxtestx_{test} relative error=xtrue−xtestxtruerelative error=xtrue−xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} Maka kesalahan relatif selalu tidak terdefinisi. Jika sebaliknya saya menggunakan definisi: relative error=xtrue−xtestxtestrelative error=xtrue−xtestxtest\text{relative error} = \frac{x_{true}-x_{test}}{x_{test}} Maka kesalahan relatif selalu …


1
Apa perbedaan antara "koefisien determinasi" dan "mean squared error"?
Untuk masalah regresi, saya telah melihat orang menggunakan "koefisien determinasi" (alias R kuadrat) untuk melakukan pemilihan model, misalnya, menemukan koefisien penalti yang tepat untuk regularisasi. Namun, itu juga umum untuk menggunakan "mean squared error" atau "root mean squared error" sebagai ukuran akurasi regresi. Jadi apa perbedaan utama antara keduanya? Bisakah …

3
Apakah ada Project Euler yang serupa untuk pembelajaran mesin?
Saya menemukan Project Euler http://projecteuler.net/ sangat berguna dalam mempelajari bahasa pemrograman. Apakah ada situs serupa untuk Pembelajaran Mesin? Saya memang melihat http://www.kaggle.com/ , tetapi hampir tidak dapat diakses oleh pemula sebagai Project Euler.
32 teaching 

1
Fungsi objektif PCA: apa hubungan antara memaksimalkan varians dan meminimalkan kesalahan?
Algoritma PCA dapat dirumuskan dalam bentuk matriks korelasi (anggap data telah dinormalisasi dan kami hanya mempertimbangkan proyeksi ke PC pertama). Fungsi objektif dapat ditulis sebagai:XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. Ini bagus, dan kami menggunakan pengganda Lagrangian untuk menyelesaikannya, yaitu menulis ulang sebagai: maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) …
32 pca  optimization 

2
Varians produk dari variabel dependen
Apa rumus untuk varian produk dari variabel dependen? Dalam kasus variabel independen, rumusnya sederhana: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 Tapi apa rumus untuk variabel berkorelasi? Omong-omong, bagaimana saya bisa menemukan korelasi berdasarkan data statistik?

4
Bagaimana saya menyesuaikan model multilevel untuk hasil poisson yang terlalu tersebar?
Saya ingin mencocokkan GLMM bertingkat dengan distribusi Poisson (dengan dispersi berlebih) menggunakan R. Saat ini saya menggunakan lme4 tetapi saya perhatikan bahwa baru-baru ini quasipoissonkeluarga telah dihapus. Saya telah melihat di tempat lain bahwa Anda dapat memodelkan over-dispersi aditif untuk distribusi binomial dengan menambahkan intersepsi acak dengan satu level per …

3
Bagaimana R menangani nilai yang hilang dalam lm?
Saya ingin mundur vektor B terhadap masing-masing kolom dalam matriks A. Ini sepele jika tidak ada data yang hilang, tetapi jika matriks A berisi nilai yang hilang, maka regresi saya terhadap A dibatasi untuk menyertakan hanya baris di mana semua nilai ada ( perilaku default na.omit ). Ini menghasilkan hasil …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.