Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

5
Tentang pentingnya asumsi iid dalam pembelajaran statistik
Dalam pembelajaran statistik, secara implisit atau eksplisit, seseorang selalu mengasumsikan bahwa set pelatihan terdiri dari input input / respon yang diambil secara independen dari distribusi gabungan yang sama denganD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) dan hubungan yang kami coba tangkap …


4
Bagaimana cara menghasilkan angka acak berkorelasi (diberikan berarti, varian dan tingkat korelasi)?
Maaf jika ini agak terlalu mendasar, tapi kurasa aku hanya ingin mengonfirmasi pengertian di sini. Saya merasa saya harus melakukan ini dalam dua langkah, dan saya mulai mencoba untuk mendapatkan matriks korelasi, tetapi itu baru mulai terlihat benar-benar terlibat. Saya mencari penjelasan singkat (idealnya dengan petunjuk menuju solusi pseudocode) tentang …

3
API data / umpan tersedia sebagai paket di R
EDIT: Tampilan tugas Teknologi dan Layanan Web CRAN berisi daftar sumber data dan API yang jauh lebih komprehensif yang tersedia di R. Anda dapat mengirimkan permintaan tarik di github jika Anda ingin menambahkan paket ke tampilan tugas. Saya membuat daftar berbagai umpan data yang sudah terhubung ke R atau yang …
53 r  references  dataset 

10
Pembelajaran Mesin menggunakan Python
Saya mempertimbangkan untuk menggunakan pustaka Python untuk melakukan eksperimen Machine Learning saya. Sejauh ini, saya mengandalkan WEKA, tetapi secara keseluruhan tidak puas. Ini terutama karena saya menemukan WEKA tidak begitu didukung (sangat sedikit contoh, dokumentasi jarang dan dukungan masyarakat kurang dari yang diinginkan dalam pengalaman saya), dan telah menemukan diri …

6
Regresi linier online yang efisien
Saya menganalisis beberapa data di mana saya ingin melakukan regresi linier biasa, namun ini tidak mungkin karena saya berurusan dengan pengaturan online dengan aliran input data yang berkelanjutan (yang dengan cepat akan terlalu besar untuk memori) dan perlu untuk memperbarui perkiraan parameter saat ini sedang dikonsumsi. yaitu saya tidak bisa …





7
Deteksi periode dari deret waktu umum
Posting ini adalah kelanjutan dari posting lain yang terkait dengan metode umum untuk deteksi outlier dalam deret waktu . Pada dasarnya, pada titik ini saya tertarik pada cara yang kuat untuk menemukan periodisitas / musim dari rangkaian waktu generik yang dipengaruhi oleh banyak kebisingan. Dari sudut pandang pengembang, saya ingin …

2
Bagaimana JST jaringan saraf tiruan, digunakan untuk pengelompokan tanpa pengawasan?
Saya mengerti bagaimana sebuah artificial neural network (ANN), dapat dilatih dengan cara yang diawasi menggunakan backpropogation untuk meningkatkan pemasangan dengan mengurangi kesalahan dalam prediksi. Saya telah mendengar bahwa JST dapat digunakan untuk pembelajaran yang tidak diawasi tetapi bagaimana hal ini dapat dilakukan tanpa fungsi biaya untuk memandu tahap optimasi? Dengan …

6
Adam optimizer dengan peluruhan eksponensial
Dalam sebagian besar kode Tensorflow yang saya lihat Adam Optimizer digunakan dengan Laju Pembelajaran konstan 1e-4(yaitu 0,0001). Kode biasanya terlihat sebagai berikut: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op …

2
Apa artinya memiliki "varian konstan" dalam model regresi linier?
Apa artinya memiliki "varian konstan" dalam istilah kesalahan? Seperti yang saya lihat, kami memiliki data dengan satu variabel dependen dan satu variabel independen. Varians konstan adalah salah satu asumsi regresi linier. Saya bertanya-tanya apa arti homoseksualitas. Karena walaupun saya memiliki 500 baris, saya akan memiliki nilai varians tunggal yang jelas …

5
Kapan data tidak seimbang benar-benar masalah dalam Pembelajaran Mesin?
Kami sudah memiliki beberapa pertanyaan tentang data yang tidak seimbang ketika menggunakan regresi logistik , SVM , pohon keputusan , mengantongi dan sejumlah pertanyaan serupa lainnya, yang menjadikannya topik yang sangat populer! Sayangnya, masing-masing pertanyaan tampaknya khusus untuk algoritma dan saya tidak menemukan pedoman umum untuk menangani data yang tidak …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.