Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

4
Bisakah bootstrap dilihat sebagai "obat" untuk ukuran sampel yang kecil?
Pertanyaan ini telah dipicu oleh sesuatu yang saya baca di buku teks statistik tingkat pascasarjana ini dan juga (secara independen) didengar selama presentasi ini di seminar statistik. Dalam kedua kasus, pernyataan itu sepanjang garis "karena ukuran sampel cukup kecil, kami memutuskan untuk melakukan estimasi melalui bootstrap daripada (atau bersamaan dengan) …


8
Hasilkan variabel acak dengan korelasi yang ditentukan dengan variabel yang ada
Untuk studi simulasi saya harus membuat variabel acak yang menunjukkan korelasi (populasi) prefined ke variabel .YYY Saya melihat ke dalam Rpaket copuladan CDVineyang dapat menghasilkan distribusi multivarian acak dengan struktur ketergantungan yang diberikan. Namun, tidak mungkin untuk memperbaiki salah satu variabel yang dihasilkan ke variabel yang ada. Setiap ide dan …

12
Apa kesalahpahaman paling umum tentang regresi linier?
Saya ingin tahu, bagi Anda yang memiliki pengalaman luas berkolaborasi dengan peneliti lain, apa beberapa kesalahpahaman paling umum tentang regresi linier yang Anda temui? Saya pikir bisa menjadi latihan yang berguna untuk memikirkan kesalahpahaman umum sebelumnya Mengantisipasi kesalahan orang dan mampu mengartikulasikan mengapa beberapa kesalahpahaman salah Sadarilah jika saya sendiri …

4
Bagaimana memvisualisasikan apa yang dilakukan analisis korelasi kanonik (dibandingkan dengan apa yang dilakukan analisis komponen utama)?
Analisis korelasi kanonik (CCA) adalah teknik yang terkait dengan analisis komponen utama (PCA). Meskipun mudah untuk mengajarkan PCA atau regresi linier menggunakan plot pencar (lihat beberapa ribu contoh di pencarian gambar google), saya belum melihat contoh dua dimensi intuitif yang serupa untuk CCA. Bagaimana menjelaskan secara visual apa yang dilakukan …

9
Apa perbedaan filosofis, metodologis, dan terminologis utama antara ekonometrik dan bidang statistik lainnya?
Ekonometrik memiliki tumpang tindih yang substansial dengan statistik tradisional, tetapi sering menggunakan jargonnya sendiri tentang berbagai topik ("identifikasi," "eksogen," dll.). Saya pernah mendengar seorang profesor statistik terapan di bidang lain berkomentar bahwa istilahnya sering berbeda tetapi konsepnya sama. Namun ia juga memiliki metode dan perbedaan filosofisnya sendiri (esai terkenal Heckman …

5
Menggunakan k-fold cross-validation untuk pemilihan model deret waktu
Pertanyaan: Saya ingin memastikan sesuatu, apakah penggunaan k-fold cross-validation dengan deret waktu sangat mudah, atau apakah orang perlu memberi perhatian khusus sebelum menggunakannya? Latar Belakang: Saya memodelkan serangkaian waktu 6 tahun (dengan rantai semi-markov), dengan sampel data setiap 5 menit. Untuk membandingkan beberapa model, saya menggunakan validasi silang 6 kali …

9
Mengapa mungkin untuk mendapatkan statistik F yang signifikan (p <0,001) tetapi uji-t regresi yang tidak signifikan?
Dalam regresi linier berganda, mengapa mungkin untuk memiliki statistik F yang sangat signifikan (p &lt;0,001) tetapi memiliki nilai p yang sangat tinggi pada semua uji t regresi? Dalam model saya, ada 10 regresi. Satu memiliki nilai p 0,1 dan sisanya di atas 0,9 Untuk mengatasi masalah ini lihat pertanyaan tindak …

15
Pemikiran praktis tentang pemodelan eksplanatif vs prediktif
Kembali pada bulan April, saya menghadiri ceramah di seri seminar kelompok Statistik Departemen Matematika UMD yang disebut "To Explain or To Predict?". Pembicaraan diberikan oleh Prof. Galit Shmueli yang mengajar di Smith Business School UMD. Ceramahnya didasarkan pada penelitian yang dia lakukan untuk makalah yang berjudul "Pemodelan Prediktif vs Penjelasan …

1
Bagaimana cara membagi dataset untuk validasi silang, kurva pembelajaran, dan evaluasi akhir?
Apa strategi yang tepat untuk memisahkan dataset? Saya meminta umpan balik pada pendekatan berikut (tidak pada parameter individu seperti test_sizeatau n_iter, tetapi jika saya menggunakan X, y, X_train, y_train, X_test, dan y_testtepat dan jika urutan masuk akal): (memperluas contoh ini dari dokumentasi scikit-learn) 1. Muat dataset from sklearn.datasets import load_digits …

9
Algoritma apa yang harus saya gunakan untuk mendeteksi anomali pada deret waktu?
Latar Belakang Saya bekerja di Pusat Operasi Jaringan, kami memantau sistem komputer dan kinerjanya. Salah satu metrik utama untuk dipantau adalah sejumlah pengunjung \ pelanggan yang saat ini terhubung ke server kami. Untuk membuatnya terlihat, kami (tim Ops) mengumpulkan metrik seperti data deret waktu dan menggambar grafik. Graphite memungkinkan kita …

4
Apa perbedaan antara fungsi R prcomp dan princomp?
Saya membandingkan ?prcompdan ?princompdan menemukan sesuatu tentang analisis komponen utama Q-mode dan R-mode (PCA). Tapi jujur ​​- saya tidak mengerti. Adakah yang bisa menjelaskan perbedaannya dan bahkan mungkin menjelaskan kapan menerapkannya?
70 r  pca 

2
Bagaimana cara kerja lapisan Keras 'Embedding'?
Perlu memahami cara kerja lapisan 'Embedding' di perpustakaan Keras. Saya menjalankan kode berikut dengan Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) yang memberikan output berikut input_array = [[4 …


3
Mengapa peneliti jaringan saraf peduli dengan zaman?
Sebuah zaman dalam penurunan gradien stokastik didefinisikan sebagai satu kali melewati data. Untuk setiap minibatch SGD, sampel diambil, gradien dihitung dan parameter diperbarui. Dalam pengaturan zaman, sampel diambil tanpa penggantian.kkk Tapi ini sepertinya tidak perlu. Mengapa tidak menggambar setiap minibid SGD sebagai penarikan acak dari seluruh kumpulan data di setiap …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.