Statistik dan Big Data

5

Tentang pentingnya asumsi iid dalam pembelajaran statistik

Dalam pembelajaran statistik, secara implisit atau eksplisit, seseorang selalu mengasumsikan bahwa set pelatihan terdiri dari input input / respon yang diambil secara independen dari distribusi gabungan yang sama denganD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) dan hubungan yang kami coba tangkap …

54 machine-learning cross-validation non-independent iid

3

Box-Cox suka transformasi untuk variabel independen?

Apakah ada transformasi seperti Box-Cox untuk variabel independen? Artinya, transformasi yang mengoptimalkan variabel sehingga akan membuat lebih cocok untuk model linier?xxxy~f(x) Jika demikian, apakah ada fungsi untuk melakukan ini R?

53 r regression data-transformation normality-assumption

4

Bagaimana cara menghasilkan angka acak berkorelasi (diberikan berarti, varian dan tingkat korelasi)?

Maaf jika ini agak terlalu mendasar, tapi kurasa aku hanya ingin mengonfirmasi pengertian di sini. Saya merasa saya harus melakukan ini dalam dua langkah, dan saya mulai mencoba untuk mendapatkan matriks korelasi, tetapi itu baru mulai terlihat benar-benar terlibat. Saya mencari penjelasan singkat (idealnya dengan petunjuk menuju solusi pseudocode) tentang …

53 probability correlation conditional-probability random-generation

3

API data / umpan tersedia sebagai paket di R

EDIT: Tampilan tugas Teknologi dan Layanan Web CRAN berisi daftar sumber data dan API yang jauh lebih komprehensif yang tersedia di R. Anda dapat mengirimkan permintaan tarik di github jika Anda ingin menambahkan paket ke tampilan tugas. Saya membuat daftar berbagai umpan data yang sudah terhubung ke R atau yang …

53 r references dataset

10

Pembelajaran Mesin menggunakan Python

Saya mempertimbangkan untuk menggunakan pustaka Python untuk melakukan eksperimen Machine Learning saya. Sejauh ini, saya mengandalkan WEKA, tetapi secara keseluruhan tidak puas. Ini terutama karena saya menemukan WEKA tidak begitu didukung (sangat sedikit contoh, dokumentasi jarang dan dukungan masyarakat kurang dari yang diinginkan dalam pengalaman saya), dan telah menemukan diri …

53 machine-learning python

6

Regresi linier online yang efisien

Saya menganalisis beberapa data di mana saya ingin melakukan regresi linier biasa, namun ini tidak mungkin karena saya berurusan dengan pengaturan online dengan aliran input data yang berkelanjutan (yang dengan cepat akan terlalu besar untuk memori) dan perlu untuk memperbarui perkiraan parameter saat ini sedang dikonsumsi. yaitu saya tidak bisa …

53 time-series regression algorithms real-time

5

Praktik terbaik ketika menganalisis desain kontrol perawatan pra-pasca

Bayangkan desain umum berikut: 100 peserta secara acak dialokasikan untuk kelompok perlakuan atau kelompok kontrol variabel dependen adalah numerik dan diukur sebelum dan sesudah perawatan Tiga opsi yang jelas untuk menganalisis data tersebut adalah: Uji kelompok dengan efek interaksi waktu dalam ANOVA campuran Lakukan ANCOVA dengan kondisi sebagai IV dan …

53 anova ancova clinical-trials change-scores

9

Mengukur entropi / informasi / pola matriks biner 2d

Saya ingin mengukur entropi / kepadatan informasi / pola-kemiripan dari matriks biner dua dimensi. Biarkan saya menunjukkan beberapa gambar untuk klarifikasi: Tampilan ini harus memiliki entropi yang agak tinggi: SEBUAH) Ini harus memiliki entropi sedang: B) Foto-foto ini, akhirnya, semua harus memiliki entropi mendekati nol: C) D) E) Apakah ada …

53 algorithms binary-data entropy pattern-recognition information

30

Kebanyakan ahli statistik terkenal

Apa ahli statistik yang paling penting, dan apa yang membuat mereka terkenal? (Tolong jawab hanya satu ilmuwan per jawaban.)

53 methodology history

5

Apa kerugian dari model ruang-negara dan Filter Kalman untuk pemodelan time-series?

Mengingat semua sifat yang baik dari model ruang-negara dan KF, saya bertanya-tanya - apa kerugian dari pemodelan ruang-negara dan menggunakan Filter Kalman (atau EKF, UKF atau filter partikel) untuk estimasi? Lebih dari katakanlah metodologi konvensional seperti ARIMA, VAR atau metode ad-hoc / heuristik. Apakah mereka sulit dikalibrasi? Apakah mereka rumit …

53 time-series arima kalman-filter var

7

Deteksi periode dari deret waktu umum

Posting ini adalah kelanjutan dari posting lain yang terkait dengan metode umum untuk deteksi outlier dalam deret waktu . Pada dasarnya, pada titik ini saya tertarik pada cara yang kuat untuk menemukan periodisitas / musim dari rangkaian waktu generik yang dipengaruhi oleh banyak kebisingan. Dari sudut pandang pengembang, saya ingin …

53 time-series algorithms frequency real-time

2

Bagaimana JST jaringan saraf tiruan, digunakan untuk pengelompokan tanpa pengawasan?

Saya mengerti bagaimana sebuah artificial neural network (ANN), dapat dilatih dengan cara yang diawasi menggunakan backpropogation untuk meningkatkan pemasangan dengan mengurangi kesalahan dalam prediksi. Saya telah mendengar bahwa JST dapat digunakan untuk pembelajaran yang tidak diawasi tetapi bagaimana hal ini dapat dilakukan tanpa fungsi biaya untuk memandu tahap optimasi? Dengan …

53 clustering neural-networks unsupervised-learning self-organizing-maps

6

Adam optimizer dengan peluruhan eksponensial

Dalam sebagian besar kode Tensorflow yang saya lihat Adam Optimizer digunakan dengan Laju Pembelajaran konstan 1e-4(yaitu 0,0001). Kode biasanya terlihat sebagai berikut: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op …

53 neural-networks deep-learning gradient-descent tensorflow adam

2

Apa artinya memiliki "varian konstan" dalam model regresi linier?

Apa artinya memiliki "varian konstan" dalam istilah kesalahan? Seperti yang saya lihat, kami memiliki data dengan satu variabel dependen dan satu variabel independen. Varians konstan adalah salah satu asumsi regresi linier. Saya bertanya-tanya apa arti homoseksualitas. Karena walaupun saya memiliki 500 baris, saya akan memiliki nilai varians tunggal yang jelas …

53 regression heteroscedasticity

5

Kapan data tidak seimbang benar-benar masalah dalam Pembelajaran Mesin?

Kami sudah memiliki beberapa pertanyaan tentang data yang tidak seimbang ketika menggunakan regresi logistik , SVM , pohon keputusan , mengantongi dan sejumlah pertanyaan serupa lainnya, yang menjadikannya topik yang sangat populer! Sayangnya, masing-masing pertanyaan tampaknya khusus untuk algoritma dan saya tidak menemukan pedoman umum untuk menangani data yang tidak …

53 machine-learning classification predictive-models unbalanced-classes