Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data



7
Apa 'masalah besar' dalam statistik?
Matematika memiliki Masalah Milenium yang terkenal (dan, secara historis, Hilbert's 23 ), pertanyaan yang membantu membentuk arah bidang. Tapi saya tidak tahu apa itu Hipotesis Riemann dan P vs NP. Jadi, apa pertanyaan terbuka menyeluruh dalam statistik? Diedit untuk menambahkan: Sebagai contoh semangat umum (jika tidak cukup spesifik) dari jawaban …
77 history 



5
Apa yang modern, alternatif yang mudah digunakan untuk regresi bertahap?
Saya memiliki dataset dengan sekitar 30 variabel independen dan ingin membangun model linier umum (GLM) untuk mengeksplorasi hubungan antara mereka dan variabel dependen. Saya sadar bahwa metode yang saya ajarkan untuk situasi ini, regresi bertahap, sekarang dianggap sebagai dosa statistik . Metode pemilihan model modern apa yang harus digunakan dalam …


3
Pemilihan fitur dan validasi silang
Saya baru-baru ini banyak membaca di situs ini (@Aniko, @Dikran Marsupial, @Erik) dan di tempat lain tentang masalah overfitting yang terjadi dengan validasi silang - (Smialowski dkk 2010 Bioinformatika, Hastie, Elemen pembelajaran statistik). Sarannya adalah bahwa setiap pemilihan fitur yang diawasi (menggunakan korelasi dengan label kelas) dilakukan di luar estimasi …

1
Bantu saya memahami Mesin Dukungan Vektor
Saya memahami dasar-dasar apa tujuan Support Vector Machines dalam hal mengklasifikasikan set input ke beberapa kelas yang berbeda, tetapi apa yang saya tidak mengerti adalah beberapa detail seluk beluk. Sebagai permulaan, saya agak bingung dengan penggunaan Slack Variables. Apa tujuan mereka Saya melakukan masalah klasifikasi di mana saya menangkap pembacaan …

6
Pemilihan fitur untuk model "final" saat melakukan validasi silang dalam pembelajaran mesin
Saya agak bingung tentang pemilihan fitur dan pembelajaran mesin dan saya bertanya-tanya apakah Anda dapat membantu saya. Saya memiliki dataset microarray yang diklasifikasikan ke dalam dua kelompok dan memiliki ribuan fitur. Tujuan saya adalah mendapatkan sejumlah kecil gen (fitur saya) (10-20) dalam tanda tangan yang secara teori saya akan dapat …

3
Mengapa Lasso menyediakan Seleksi Variabel?
Saya telah membaca Elemen Pembelajaran Statistik , dan saya ingin tahu mengapa Lasso menyediakan pemilihan variabel dan regresi ridge tidak. Kedua metode meminimalkan jumlah residu kuadrat dan memiliki batasan pada nilai yang mungkin dari parameter ββ\beta . Untuk Lasso, batasannya adalah ||β||1≤t||β||1≤t||\beta||_1 \le t , sedangkan untuk punggungan adalah ||β||2≤t||β||2≤t||\beta||_2 …



5
Tolong jelaskan paradoks tunggu
Beberapa tahun yang lalu saya merancang detektor radiasi yang bekerja dengan mengukur interval antara peristiwa daripada menghitungnya. Asumsi saya adalah, bahwa ketika mengukur sampel yang tidak berdekatan, rata-rata saya akan mengukur setengah dari interval yang sebenarnya. Namun ketika saya menguji rangkaian dengan sumber yang dikalibrasi, bacaan adalah faktor dua terlalu …

2
Metode resampling / simulasi: monte carlo, bootstrap, jackknifing, validasi silang, tes pengacakan, dan tes permutasi
Saya mencoba memahami perbedaan antara metode resampling yang berbeda (simulasi Monte Carlo, bootstrap parametrik, bootstrap non-parametrik, jackknifing, validasi silang, tes pengacakan, dan tes permutasi) dan implementasinya dalam konteks saya sendiri menggunakan R. Katakanlah saya memiliki situasi berikut - Saya ingin melakukan ANOVA dengan variabel Y ( Yvar) dan variabel X …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.