Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

3
Jaringan Syaraf Berulang vs Rekursif: Mana yang lebih baik untuk NLP?
Ada Jaringan Syaraf Berulang dan Jaringan Syaraf Rekursif. Keduanya biasanya dilambangkan dengan akronim yang sama: RNN. Menurut Wikipedia , NN Berulang sebenarnya adalah NN Rekursif, tapi saya tidak begitu mengerti penjelasannya. Selain itu, saya sepertinya tidak menemukan yang lebih baik (dengan contoh atau lebih) untuk Pemrosesan Bahasa Alami. Faktanya adalah, …


7
Apakah chi-square selalu merupakan tes satu sisi?
Artikel yang diterbitkan ( pdf ) berisi 2 kalimat ini: Selain itu, kesalahan pelaporan dapat disebabkan oleh penerapan aturan yang salah atau oleh kurangnya pengetahuan tentang uji statistik. Misalnya, total df dalam ANOVA dapat dianggap sebagai kesalahan df dalam pelaporan uji , atau peneliti dapat membagi nilai p yang dilaporkan …


5
Apa perbedaan antara NaN dan NA?
Saya ingin tahu mengapa beberapa bahasa seperti R memiliki NA dan NaN. Apa perbedaannya atau apakah keduanya sama? Apakah benar-benar perlu memiliki NA?
48 r 

17
Apa blog visualisasi data favorit Anda?
Apa blog terbaik tentang visualisasi data? Saya membuat pertanyaan ini sebagai wiki komunitas karena sangat subyektif. Harap batasi setiap jawaban ke satu tautan. Harap perhatikan kriteria berikut untuk jawaban yang diajukan: [A] jawaban yang dapat diterima untuk pertanyaan seperti ini ... perlu memberikan deskripsi yang memadai dan alasan yang masuk …


4
Apa perbedaan antara penurunan gradien berbasis momentum dan percepatan penurunan gradien Nesterov?
Jadi penurunan gradien berbasis momentum bekerja sebagai berikut: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g di mana adalah pembaruan berat sebelumnya, dan adalah gradien saat ini sehubungan dengan parameter , adalah tingkat pembelajaran, dan adalah konstanta.g p l r s e l f . m o m e n t u mmmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + …



10
Apa algoritma yang baik untuk memperkirakan median dari set data baca-sekali yang besar?
Saya mencari algoritme yang baik (yang berarti perhitungan minimal, persyaratan penyimpanan minimal) untuk memperkirakan median kumpulan data yang terlalu besar untuk disimpan, sehingga setiap nilai hanya dapat dibaca satu kali (kecuali jika Anda secara eksplisit menyimpan nilai itu). Tidak ada batasan pada data yang dapat diasumsikan. Perkiraannya baik-baik saja, asal …

5
Intuisi pada Divergensi Kullback-Leibler (KL)
Saya telah belajar tentang intuisi di balik KL Divergence karena seberapa banyak fungsi distribusi model berbeda dari distribusi teoritis / benar data. Sumber saya membaca selanjutnya mengatakan bahwa pemahaman intuitif 'jarak' antara dua distribusi ini sangat membantu, tetapi tidak harus diambil secara harfiah karena selama dua distribusi PPP dan QQQ …

7
Di mana harus memulai dengan statistik untuk pengembang yang berpengalaman
Selama paruh pertama 2015 saya melakukan kursus coursera Machine Learning (oleh Andrew Ng, GREAT course). Dan mempelajari dasar-dasar pembelajaran mesin (regresi linier, regresi logistik, SVM, Jaringan Neuronal ...) Saya juga telah menjadi pengembang selama 10 tahun, jadi belajar bahasa pemrograman baru tidak akan menjadi masalah. Akhir-akhir ini, saya sudah mulai …

1
Bagaimana menerapkan standardisasi / normalisasi ke train- and testset jika prediksi adalah tujuannya?
Apakah saya mengubah semua data atau lipatan saya (jika CV diterapkan) secara bersamaan? misalnya (allData - mean(allData)) / sd(allData) Apakah saya mengubah trainset dan testset secara terpisah? misalnya (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Atau apakah saya mengubah trainset dan menggunakan perhitungan pada testset? misalnya (trainData …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.