Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


7
Mengapa istilah regularisasi * ditambahkan * ke fungsi biaya (bukan dikalikan dll.)?
Setiap kali regularisasi digunakan, sering ditambahkan ke fungsi biaya seperti dalam fungsi biaya berikut. Ini masuk akal bagi saya karena meminimalkan fungsi biaya berarti meminimalkan kesalahan (istilah kiri) dan meminimalkan besaran koefisien (istilah yang tepat) pada saat yang sama (atau setidaknya menyeimbangkan dua minimisasi).J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 Pertanyaan …

8
Apa sumber daya yang baik untuk desain meja?
Saya telah melihat berbagai perawatan teoritis dari grafik, seperti Grammar of Graphics . Tapi saya belum melihat yang setara dengan tabel. Sementara saya telah mengembangkan model informal praktik yang baik dalam desain tabel. Namun, saya ingin dapat memberikan referensi yang baik kepada siswa. The APA Style manual memiliki beberapa tips …
51 tables 

4
Mengapa tidak mendekati klasifikasi melalui regresi?
Beberapa bahan yang saya lihat pada pembelajaran mesin mengatakan bahwa itu adalah ide yang buruk untuk mendekati masalah klasifikasi melalui regresi. Tapi saya pikir itu selalu mungkin untuk melakukan regresi terus menerus agar sesuai dengan data dan memotong prediksi terus menerus untuk menghasilkan klasifikasi diskrit. Jadi mengapa itu ide yang …



3
Statistik dan inferensi kausal?
Dalam makalahnya tahun 1984 "Statistik dan Inferensial Kausal" , Paul Holland mengajukan salah satu pertanyaan paling mendasar dalam statistik: Apa yang bisa dikatakan model statistik tentang sebab akibat? Ini menyebabkan moto-nya: TIDAK ADA PENYEBAB TANPA MANIPULASI yang menekankan pentingnya pembatasan di sekitar eksperimen yang mempertimbangkan sebab-akibat. Andrew Gelman membuat poin …
51 causality 



5
Apakah hutan acak merupakan algoritma peningkatan?
Definisi singkat untuk meningkatkan : Bisakah satu set pelajar yang lemah menciptakan pelajar yang kuat? Pelajar yang lemah didefinisikan sebagai penggolong yang hanya sedikit berkorelasi dengan klasifikasi yang benar (ia dapat memberi label contoh yang lebih baik daripada menebak secara acak). Definisi singkat dari Hutan Acak : Hutan Acak menumbuhkan …




4
Regresi linier yang cepat kuat untuk pencilan
Saya berurusan dengan data linear dengan outlier, beberapa di antaranya berada pada 5 standar deviasi dari garis regresi yang diperkirakan. Saya mencari teknik regresi linier yang mengurangi pengaruh poin-poin ini. Sejauh ini yang saya lakukan adalah memperkirakan garis regresi dengan semua data, kemudian membuang titik data dengan residu kuadrat yang …

9
Adakah yang tahu perangkat lunak sumber terbuka yang bagus untuk memvisualisasikan data dari basis data?
Baru-baru ini saya menemukan Tableau dan mencoba memvisualisasikan data dari database dan file csv. User iterface memungkinkan pengguna untuk memvisualisasikan data waktu dan spasial dan membuat plot dalam sekejap. Alat seperti ini sangat berguna karena memungkinkan untuk mengamati data secara grafis tanpa menulis kode. Karena ada banyak sumber data dari …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.