Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


5
Akankah fakta bahwa putra Italia saya akan menghadiri sekolah dasar mengubah jumlah anak-anak Italia yang diharapkan untuk hadir di kelasnya?
Ini adalah pertanyaan yang berasal dari situasi kehidupan nyata, yang mana saya benar-benar bingung dengan jawabannya. Anak saya akan memulai sekolah dasar di London. Karena kami orang Italia, saya ingin tahu berapa banyak anak Italia yang sudah bersekolah. Saya menanyakan hal ini kepada Admission Officer saat melamar, dan dia memberi …


1
Mengapa glmer tidak mencapai kemungkinan maksimum (seperti yang diverifikasi dengan menerapkan optimasi generik lebih lanjut)?
Secara numerik menurunkan MLE pada GLMM adalah sulit dan, dalam praktiknya, saya tahu, kita tidak boleh menggunakan optimasi brute force (misalnya, menggunakan optimdengan cara sederhana). Tetapi untuk tujuan pendidikan saya sendiri, saya ingin mencobanya untuk memastikan saya memahami model dengan benar (lihat kode di bawah). Saya menemukan bahwa saya selalu …

3
Varian dari estimasi cross-validasi lipat sebagai : apa peran "stabilitas"?
TL, DR: Tampaknya, bertentangan dengan saran yang sering diulang, validasi silang tinggalkan-satu-keluar (LOO-CV) - yaitu,lipat CV dengan(jumlah lipatan) sama dengan(angka pengamatan pelatihan) - menghasilkan perkiraan kesalahan generalisasi yang merupakanvariabel terkecil untuk setiap, bukan variabel terbanyak, dengan asumsikondisi stabilitas tertentubaik pada model / algoritma, dataset, atau keduanya (saya tidak yakin yang …

3
Membandingkan SVM dan regresi logistik
Bisakah seseorang tolong beri saya intuisi kapan harus memilih SVM atau LR? Saya ingin memahami intuisi di balik apa perbedaan antara kriteria optimasi belajar hyperplane keduanya, di mana tujuan masing-masing adalah sebagai berikut: SVM: Cobalah untuk memaksimalkan margin antara vektor dukungan terdekat LR: Maksimalkan probabilitas kelas posterior Mari kita pertimbangkan …

6
Uji apakah dua distribusi binomial secara statistik berbeda satu sama lain
Saya memiliki tiga kelompok data, masing-masing dengan distribusi binomial (yaitu masing-masing kelompok memiliki elemen yang berhasil atau gagal). Saya tidak memiliki probabilitas keberhasilan yang diprediksi, tetapi sebaliknya hanya dapat mengandalkan tingkat keberhasilan masing-masing sebagai perkiraan untuk tingkat keberhasilan yang sebenarnya. Saya hanya menemukan pertanyaan ini , yang dekat tetapi tampaknya …

2
Interval prediksi untuk model efek gabungan lmer () di R
Saya ingin mendapatkan interval prediksi sekitar prediksi dari model lmer (). Saya telah menemukan beberapa diskusi tentang ini: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq tetapi mereka tampaknya tidak memperhitungkan ketidakpastian efek acak. Inilah contoh spesifik. Saya balap ikan emas. Saya memiliki data pada 100 balapan terakhir. Saya ingin memprediksi 101, dengan mempertimbangkan ketidakpastian estimasi …


4
Apakah latar belakang yang kuat dalam matematika merupakan syarat total untuk ML?
Saya mulai ingin memajukan keahlian saya sendiri dan saya selalu terpesona dengan pembelajaran mesin. Namun, enam tahun yang lalu alih-alih mengejar ini, saya memutuskan untuk mengambil gelar yang sama sekali tidak terkait dengan ilmu komputer. Saya telah mengembangkan perangkat lunak dan aplikasi selama sekitar 8-10 tahun sekarang, jadi saya memiliki …

3
SVM, Overfitting, kutukan dimensi
Dataset saya kecil (120 sampel), namun jumlah fitur besar bervariasi dari (1000-200.000). Meskipun saya sedang melakukan pemilihan fitur untuk memilih subset fitur, itu mungkin masih sesuai. Pertanyaan pertama saya adalah, bagaimana SVM menangani overfitting, jika sama sekali. Kedua, ketika saya mempelajari lebih banyak tentang overfitting jika terjadi klasifikasi, saya sampai …


8
Bantu saya menghitung berapa banyak orang yang akan datang ke pernikahan saya! Dapatkah saya menghubungkan persentase ke setiap orang dan menambahkannya?
Saya merencanakan pernikahan saya. Saya ingin memperkirakan berapa banyak orang yang akan datang ke pernikahan saya. Saya telah membuat daftar orang dan kemungkinan mereka akan hadir dalam persentase. Sebagai contoh Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% Saya memiliki daftar sekitar 230 orang dengan persentase. …

2
Bagaimana menemukan model semi-sinusoidal yang cocok untuk R?
Saya ingin berasumsi bahwa suhu permukaan laut dari Laut Baltik adalah tahun yang sama tahun demi tahun, dan kemudian menggambarkannya dengan model fungsi / linier. Gagasan yang saya miliki adalah hanya memasukkan tahun sebagai angka desimal (atau num_months / 12) dan keluar berapa suhu yang seharusnya sekitar waktu itu. Melemparkannya …
37 r  regression  time-series  lm 

6
Bayesian vs frequentist Interpretations of Probability
Bisakah seseorang memberikan ikhtisar yang baik tentang perbedaan antara Bayesian dan pendekatan frequentist terhadap probabilitas? Dari apa yang saya mengerti: Pandangan frequentist adalah bahwa data adalah sampel acak yang dapat diulang (variabel acak) dengan frekuensi / probabilitas tertentu (yang didefinisikan sebagai frekuensi relatif suatu peristiwa karena jumlah percobaan mendekati tak …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.