Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

2
Kapan t-SNE menyesatkan?
Mengutip dari salah satu penulis: t-Distributed Stochastic Neighbor Embedding (t-SNE) adalah teknik ( pemenang hadiah ) untuk pengurangan dimensi yang sangat cocok untuk visualisasi dataset dimensi tinggi. Jadi kedengarannya hebat, tapi itu yang penulis bicarakan. Kutipan lain dari penulis (re: kompetisi yang disebutkan sebelumnya): Apa yang telah Anda ambil dari …


3
Apakah tanda skor atau beban di PCA atau FA memiliki arti? Bolehkah saya membalikkan tandanya?
Saya melakukan analisis komponen utama (PCA) dengan R menggunakan dua fungsi yang berbeda ( prcompdan princomp) dan mengamati bahwa skor PCA berbeda dalam tanda. Bagaimana bisa? Pertimbangkan ini: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 …
37 r  pca  factor-analysis 

4
Perbedaan antara perkiraan dan prediksi?
Saya bertanya-tanya apa perbedaan dan hubungan antara perkiraan dan prediksi? Terutama dalam deret waktu dan regresi? Sebagai contoh, apakah saya benar bahwa: Dalam deret waktu, peramalan tampaknya berarti memperkirakan nilai masa depan yang diberikan nilai lampau dari deret waktu. Dalam regresi, prediksi tampaknya berarti memperkirakan nilai apakah itu masa depan, …

3
Bootstrap vs pengujian hipotesis permutasi
Ada beberapa teknik resampling populer, yang sering digunakan dalam praktik, seperti bootstrap, uji permutasi, jackknife, dll. Ada banyak artikel & buku yang membahas teknik ini, misalnya Philip I Good (2010) Permutasi, Parametrik, dan Bootstrap Tests Hipotesis Pertanyaan saya adalah teknik resampling mana yang mendapatkan popularitas lebih dan lebih mudah untuk …

2
Memahami parameter di dalam Distribusi Binomial Negatif
Saya mencoba untuk menyesuaikan data saya ke dalam berbagai model dan tahu bahwa fitdistrfungsi dari perpustakaan MASSdari Rmemberi saya Negative Binomialsebagai yang terbaik-fit. Sekarang dari halaman wiki , definisi diberikan sebagai: Distribusi NegBin (r, p) menggambarkan probabilitas kegagalan k dan keberhasilan r dalam percobaan k + r Bernoulli (p) dengan …

5
Analisis seri waktu validasi silang
Saya telah menggunakan paket caret dalam R untuk membangun model prediksi untuk klasifikasi dan regresi. Caret menyediakan antarmuka terpadu untuk menyetel model hiper-parameter dengan validasi silang atau strapping boot. Misalnya, jika Anda sedang membangun model 'tetangga terdekat' yang sederhana untuk klasifikasi, berapa banyak tetangga yang harus Anda gunakan? 2? 10? …

2
Jika hanya prediksi yang menarik, mengapa menggunakan laso over ridge?
Pada halaman 223 dalam Pengantar Pembelajaran Statistik , penulis merangkum perbedaan antara regresi ridge dan laso. Mereka memberikan contoh (Gambar 6.9) ketika "laso cenderung mengungguli regresi ridge dalam hal bias, varians, dan MSE". Saya mengerti mengapa laso diinginkan: ini menghasilkan solusi yang jarang karena menyusut banyak koefisien menjadi 0, menghasilkan …

8
Apa perbedaan antara prediksi dan kesimpulan?
Saya membaca " Pengantar Pembelajaran Statistik ". Dalam bab 2, mereka membahas alasan untuk memperkirakan fungsi .fff 2.1.1 Mengapa Memperkirakan ?fff Ada dua alasan utama yang kami perkirakan untuk memperkirakan f : prediksi dan inferensi . Kami membahas masing-masing secara bergantian. Saya sudah membacanya beberapa kali, tetapi saya masih belum …

4
Apa yang harus saya lakukan ketika jaringan saraf saya tidak menggeneralisasi dengan baik?
Saya melatih jaringan saraf dan kehilangan pelatihan berkurang, tetapi kehilangan validasi tidak, atau berkurang jauh lebih sedikit daripada yang saya harapkan, berdasarkan referensi atau percobaan dengan arsitektur dan data yang sangat mirip. Bagaimana saya bisa memperbaikinya? Adapun pertanyaan Apa yang harus saya lakukan ketika jaringan saraf saya tidak belajar? dimana …


1
Mengapa tes Mantel lebih disukai daripada Moran's I?
Uji Mantel digunakan secara luas dalam penelitian biologi untuk menguji korelasi antara distribusi spasial hewan (posisi dalam ruang) dengan, misalnya, keterkaitan genetiknya, tingkat agresi atau beberapa atribut lainnya. Banyak jurnal yang baik menggunakannya ( PNAS, Perilaku Hewan, Ekologi Molekuler ... ). Saya membuat beberapa pola yang mungkin terjadi di alam, …



2
Siapa yang menemukan keturunan gradien stokastik?
Saya mencoba memahami sejarah keturunan Gradient dan Stochastic gradient descent . Keturunan gradien ditemukan di Cauchy pada tahun 1847. Méthode générale pour la résolution des systèmes d'équations simultanées . hlm. 536–538 Untuk informasi lebih lanjut lihat di sini . Sejak itu metode gradient descent terus berkembang dan saya tidak terbiasa …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.