Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


8
Apakah pengambilan sampel relevan pada saat 'data besar'?
Atau lebih tepatnya "apakah itu"? Big Data menjadikan statistik dan pengetahuan yang relevan menjadi lebih penting tetapi tampaknya tidak mendukung Teori Sampling. Saya telah melihat hype ini di sekitar 'Big Data' dan saya bertanya-tanya bahwa "mengapa" saya ingin menganalisis semuanya ? Apakah tidak ada alasan untuk "Teori Pengambilan Sampel" untuk …

3
Menggunakan analisis komponen utama (PCA) untuk pemilihan fitur
Saya baru dalam pemilihan fitur dan saya ingin tahu bagaimana Anda akan menggunakan PCA untuk melakukan pemilihan fitur. Apakah PCA menghitung skor relatif untuk setiap variabel input yang dapat Anda gunakan untuk menyaring variabel input noninformatif? Pada dasarnya, saya ingin dapat memesan fitur asli dalam data berdasarkan varians atau jumlah …

10
Bagaimana cara memutuskan jumlah cluster yang benar?
Kami menemukan pusat-pusat klaster dan menetapkan poin ke k tempat-tempat klaster yang berbeda dalam klaster k-means yang merupakan algoritma yang sangat terkenal dan ditemukan hampir di setiap paket pembelajaran mesin di internet. Tetapi bagian yang hilang dan paling penting menurut saya adalah pilihan k yang benar. Apa nilai terbaik untuk …



5
Apakah menyesuaikan nilai-p dalam regresi berganda untuk beberapa perbandingan adalah ide yang bagus?
Mari kita asumsikan bahwa Anda adalah seorang peneliti ilmu sosial / ekonometrik yang mencoba menemukan prediktor yang relevan dari permintaan layanan. Anda memiliki 2 variabel hasil / dependen yang menggambarkan permintaan (menggunakan layanan ya / tidak, dan jumlah kesempatan). Anda memiliki 10 variabel prediktor / independen yang secara teoritis dapat …



19
Video Statistik Matematika
Sebuah pertanyaan yang sebelumnya dicari rekomendasi untuk buku teks tentang statistik matematika Adakah yang tahu tentang kuliah video daring yang bagus tentang statistik matematika ? Yang paling dekat yang saya temukan adalah: Pembelajaran mesin Ekonometrika UPDATE: Sejumlah saran yang disebutkan di bawah ini adalah video jenis statistik-101 yang baik. Namun, …

6
Pengantar statistik untuk ahli matematika
Apa pengantar yang baik untuk statistik untuk seorang ahli matematika yang sudah berpengalaman dalam probabilitas? Saya memiliki dua motivasi berbeda untuk bertanya, yang mungkin mengarah pada saran yang berbeda: Saya ingin lebih memahami motivasi statistik di balik banyak masalah yang dipertimbangkan oleh para probabilis. Saya ingin tahu bagaimana cara lebih …
54 references 


5
Apa penjelasan intuitif untuk bagaimana PCA berubah dari masalah geometris (dengan jarak) ke masalah aljabar linier (dengan vektor eigen)?
Saya sudah membaca banyak tentang PCA, termasuk berbagai tutorial dan pertanyaan (seperti yang ini , yang ini , yang ini , dan yang ini ). Masalah geometris yang PCA coba optimalkan jelas bagi saya: PCA mencoba menemukan komponen utama pertama dengan meminimalkan kesalahan rekonstruksi (proyeksi), yang secara bersamaan memaksimalkan varians …

10
Validasi hold-out vs validasi silang
Bagi saya, tampaknya validasi tahan tidak berguna. Yaitu, memisahkan dataset asli menjadi dua bagian (pelatihan dan pengujian) dan menggunakan skor pengujian sebagai ukuran generalisasi, agak tidak berguna. K-fold cross-validation tampaknya memberikan perkiraan yang lebih baik dari generalisasi (karena melatih dan menguji pada setiap titik). Jadi, mengapa kita menggunakan validasi hold-out …

4
Kovarian dan kemerdekaan?
Saya membaca dari buku teks saya bahwa tidak menjamin X dan Y independen. Tetapi jika mereka independen, kovarian mereka harus 0. Saya belum bisa memikirkan contoh yang tepat; bisakah seseorang menyediakannya?cov(X,Y)=0cov(X,Y)=0\text{cov}(X,Y)=0

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.