Statistik dan Big Data

4

Bisakah bootstrap dilihat sebagai "obat" untuk ukuran sampel yang kecil?

Pertanyaan ini telah dipicu oleh sesuatu yang saya baca di buku teks statistik tingkat pascasarjana ini dan juga (secara independen) didengar selama presentasi ini di seminar statistik. Dalam kedua kasus, pernyataan itu sepanjang garis "karena ukuran sampel cukup kecil, kami memutuskan untuk melakukan estimasi melalui bootstrap daripada (atau bersamaan dengan) …

71 bootstrap small-sample

10

Apakah ada ukuran sampel minimum yang diperlukan agar uji-t valid?

Saat ini saya sedang mengerjakan makalah penelitian eksperimental semu. Saya hanya memiliki ukuran sampel 15 karena populasi rendah di daerah yang dipilih dan hanya 15 yang sesuai dengan kriteria saya. Apakah 15 ukuran sampel minimum untuk menghitung uji-t dan uji-F? Jika demikian, di mana saya bisa mendapatkan artikel atau buku …

71 t-test sample-size assumptions power

8

Hasilkan variabel acak dengan korelasi yang ditentukan dengan variabel yang ada

Untuk studi simulasi saya harus membuat variabel acak yang menunjukkan korelasi (populasi) prefined ke variabel .YYY Saya melihat ke dalam Rpaket copuladan CDVineyang dapat menghasilkan distribusi multivarian acak dengan struktur ketergantungan yang diberikan. Namun, tidak mungkin untuk memperbaiki salah satu variabel yang dihasilkan ke variabel yang ada. Setiap ide dan …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

12

Apa kesalahpahaman paling umum tentang regresi linier?

Saya ingin tahu, bagi Anda yang memiliki pengalaman luas berkolaborasi dengan peneliti lain, apa beberapa kesalahpahaman paling umum tentang regresi linier yang Anda temui? Saya pikir bisa menjadi latihan yang berguna untuk memikirkan kesalahpahaman umum sebelumnya Mengantisipasi kesalahan orang dan mampu mengartikulasikan mengapa beberapa kesalahpahaman salah Sadarilah jika saya sendiri …

70 regression multiple-regression

4

Bagaimana memvisualisasikan apa yang dilakukan analisis korelasi kanonik (dibandingkan dengan apa yang dilakukan analisis komponen utama)?

Analisis korelasi kanonik (CCA) adalah teknik yang terkait dengan analisis komponen utama (PCA). Meskipun mudah untuk mengajarkan PCA atau regresi linier menggunakan plot pencar (lihat beberapa ribu contoh di pencarian gambar google), saya belum melihat contoh dua dimensi intuitif yang serupa untuk CCA. Bagaimana menjelaskan secara visual apa yang dilakukan …

70 regression data-visualization pca canonical-correlation geometry

9

Apa perbedaan filosofis, metodologis, dan terminologis utama antara ekonometrik dan bidang statistik lainnya?

Ekonometrik memiliki tumpang tindih yang substansial dengan statistik tradisional, tetapi sering menggunakan jargonnya sendiri tentang berbagai topik ("identifikasi," "eksogen," dll.). Saya pernah mendengar seorang profesor statistik terapan di bidang lain berkomentar bahwa istilahnya sering berbeda tetapi konsepnya sama. Namun ia juga memiliki metode dan perbedaan filosofisnya sendiri (esai terkenal Heckman …

70 econometrics terminology

5

Menggunakan k-fold cross-validation untuk pemilihan model deret waktu

Pertanyaan: Saya ingin memastikan sesuatu, apakah penggunaan k-fold cross-validation dengan deret waktu sangat mudah, atau apakah orang perlu memberi perhatian khusus sebelum menggunakannya? Latar Belakang: Saya memodelkan serangkaian waktu 6 tahun (dengan rantai semi-markov), dengan sampel data setiap 5 menit. Untuk membandingkan beberapa model, saya menggunakan validasi silang 6 kali …

70 time-series modeling cross-validation

9

Mengapa mungkin untuk mendapatkan statistik F yang signifikan (p <0,001) tetapi uji-t regresi yang tidak signifikan?

Dalam regresi linier berganda, mengapa mungkin untuk memiliki statistik F yang sangat signifikan (p <0,001) tetapi memiliki nilai p yang sangat tinggi pada semua uji t regresi? Dalam model saya, ada 10 regresi. Satu memiliki nilai p 0,1 dan sisanya di atas 0,9 Untuk mengatasi masalah ini lihat pertanyaan tindak …

70 hypothesis-testing regression t-test multicollinearity

15

Pemikiran praktis tentang pemodelan eksplanatif vs prediktif

Kembali pada bulan April, saya menghadiri ceramah di seri seminar kelompok Statistik Departemen Matematika UMD yang disebut "To Explain or To Predict?". Pembicaraan diberikan oleh Prof. Galit Shmueli yang mengajar di Smith Business School UMD. Ceramahnya didasarkan pada penelitian yang dia lakukan untuk makalah yang berjudul "Pemodelan Prediktif vs Penjelasan …

70 predictive-models

1

Bagaimana cara membagi dataset untuk validasi silang, kurva pembelajaran, dan evaluasi akhir?

Apa strategi yang tepat untuk memisahkan dataset? Saya meminta umpan balik pada pendekatan berikut (tidak pada parameter individu seperti test_sizeatau n_iter, tetapi jika saya menggunakan X, y, X_train, y_train, X_test, dan y_testtepat dan jika urutan masuk akal): (memperluas contoh ini dari dokumentasi scikit-learn) 1. Muat dataset from sklearn.datasets import load_digits …

70 machine-learning cross-validation python scikit-learn

9

Algoritma apa yang harus saya gunakan untuk mendeteksi anomali pada deret waktu?

Latar Belakang Saya bekerja di Pusat Operasi Jaringan, kami memantau sistem komputer dan kinerjanya. Salah satu metrik utama untuk dipantau adalah sejumlah pengunjung \ pelanggan yang saat ini terhubung ke server kami. Untuk membuatnya terlihat, kami (tim Ops) mengumpulkan metrik seperti data deret waktu dan menggambar grafik. Graphite memungkinkan kita …

70 machine-learning time-series python computational-statistics anomaly-detection

4

Apa perbedaan antara fungsi R prcomp dan princomp?

Saya membandingkan ?prcompdan ?princompdan menemukan sesuatu tentang analisis komponen utama Q-mode dan R-mode (PCA). Tapi jujur - saya tidak mengerti. Adakah yang bisa menjelaskan perbedaannya dan bahkan mungkin menjelaskan kapan menerapkannya?

70 r pca

2

Bagaimana cara kerja lapisan Keras 'Embedding'?

Perlu memahami cara kerja lapisan 'Embedding' di perpustakaan Keras. Saya menjalankan kode berikut dengan Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) yang memberikan output berikut input_array = [[4 …

70 text-mining word-embeddings keras

1

Bagaimana model regresi logistik sederhana mencapai akurasi klasifikasi 92% pada MNIST?

Meskipun semua gambar dalam dataset MNIST dipusatkan, dengan skala yang sama, dan menghadap ke atas tanpa rotasi, mereka memiliki variasi tulisan tangan yang signifikan yang membuat saya bingung bagaimana model linier mencapai akurasi klasifikasi tinggi. Sejauh yang saya bisa memvisualisasikan, mengingat variasi tulisan tangan yang signifikan, digit harus tidak dapat …

70 logistic image-processing

3

Mengapa peneliti jaringan saraf peduli dengan zaman?

Sebuah zaman dalam penurunan gradien stokastik didefinisikan sebagai satu kali melewati data. Untuk setiap minibatch SGD, sampel diambil, gradien dihitung dan parameter diperbarui. Dalam pengaturan zaman, sampel diambil tanpa penggantian.kkk Tapi ini sepertinya tidak perlu. Mengapa tidak menggambar setiap minibid SGD sebagai penarikan acak dari seluruh kumpulan data di setiap …

69 neural-networks deep-learning gradient-descent