Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


6
Mengapa Entropy dimaksimalkan ketika distribusi probabilitas seragam?
Saya tahu bahwa entropi adalah ukuran keacakan dari suatu proses / variabel dan dapat didefinisikan sebagai berikut. untuk variabel acak set : - . Dalam buku tentang Entropi dan Teori Informasi oleh MacKay, ia memberikan pernyataan ini dalam Ch2X∈X∈X \inAAAH(X)=∑xi∈A−p(xi)log(p(xi))H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) Entropi dimaksimalkan jika p …




5
Memahami unit LSTM vs. sel
Saya telah mempelajari LSTM untuk sementara waktu. Saya mengerti pada tingkat tinggi bagaimana semuanya bekerja. Namun, akan mengimplementasikannya menggunakan Tensorflow saya perhatikan bahwa BasicLSTMCell memerlukan sejumlah unit (yaitu num_units) parameter. Dari ini penjelasan yang sangat menyeluruh LSTMs, saya sudah mengumpulkan bahwa satu satuan LSTM adalah salah satu dari berikut ini …


2
Melakukan tes statistik setelah memvisualisasikan data - pengerukan data?
Saya akan mengajukan pertanyaan ini melalui contoh. Misalkan saya memiliki satu set data, seperti set data harga perumahan boston, di mana saya memiliki variabel kontinu dan kategori. Di sini, kami memiliki variabel "kualitas", dari 1 hingga 10, dan harga jual. Saya dapat memisahkan data menjadi rumah-rumah berkualitas "rendah", "sedang" dan …

2
Regresi Logistik: Scikit Learn vs Statsmodels
Saya mencoba memahami mengapa output dari regresi logistik kedua perpustakaan ini memberikan hasil yang berbeda. Saya menggunakan dataset dari tutorial idre UCLA , memprediksi admitberdasarkan gre, gpadan rank. rankdiperlakukan sebagai variabel kategori, jadi pertama-tama dikonversi ke variabel dummy dengan rank_1dijatuhkan. Kolom intersep juga ditambahkan. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = …

4
Apakah hasil ujian adalah binomial?
Ini pertanyaan statistik sederhana yang saya terima. Saya tidak begitu yakin saya memahaminya. X = jumlah poin yang diperoleh dalam ujian (pilihan ganda dan jawaban yang benar adalah satu poin). Apakah X binomial didistribusikan? Jawaban profesor adalah: Ya, karena hanya ada jawaban benar atau salah. Jawabanku: Tidak, karena setiap pertanyaan …



4
Apa manfaat relatif data Winsorizing vs. Trimming?
Data Winsorizing berarti mengganti nilai ekstrem dari kumpulan data dengan nilai persentil tertentu dari masing-masing ujung, sementara Pemangkasan atau Pemotongan melibatkan penghapusan nilai ekstrem tersebut. Saya selalu melihat kedua metode yang dibahas sebagai opsi yang layak untuk mengurangi efek pencilan ketika menghitung statistik seperti mean atau standar deviasi, tetapi saya …

6
Haruskah kekikiran benar-benar masih menjadi standar emas?
Hanya pemikiran saja: Model Parsimonious selalu menjadi pilihan standar dalam pemilihan model, tetapi sampai sejauh mana pendekatan ini sudah usang? Saya ingin tahu tentang seberapa besar kecenderungan kita terhadap kekikiran adalah peninggalan zaman abaci dan aturan geser (atau, lebih serius, komputer non-modern). Kekuatan komputasi saat ini memungkinkan kami untuk membangun …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.