Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

4
Asal “5
Laporan berita mengatakan bahwa CERN akan mengumumkan besok bahwa boson Higgs telah secara eksperimental terdeteksi dengan 5 σσ\sigma bukti. Menurut artikel itu: 5 σσ\sigma setara dengan 99.99994% peluang bahwa data yang dilihat oleh detektor CMS dan ATLAS bukan hanya derau acak - dan peluang 0,00006% bahwa mereka telah ditipu; 5 …



3
Bagaimana cara memasang model ARIMAX dengan R?
Saya memiliki empat seri pengukuran waktu yang berbeda: Konsumsi panas di dalam rumah Suhu di luar rumah Radiasi matahari Kecepatan angin Saya ingin dapat memprediksi konsumsi panas di dalam rumah. Ada tren musiman yang jelas, baik secara tahunan, dan setiap hari. Karena ada korelasi yang jelas antara seri yang berbeda, …

2
Derajat kebebasan
Statistik uji untuk uji Hosmer-Lemeshow (HLT) untuk goodness of fit (GOF) dari model regresi logistik didefinisikan sebagai berikut: Sampel kemudian dibagi menjadi d=10d=10d=10 desil, D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} , per desil menghitung jumlah berikut: O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , yaitu jumlah diamati dari kasus positif di desilDdDdD_d ; …




6
Bagaimana cara menilai kesamaan dua histogram?
Dengan dua histogram, bagaimana kita menilai apakah mereka serupa atau tidak? Apakah cukup dengan hanya melihat kedua histogram? Pemetaan sederhana ke satu memiliki masalah bahwa jika histogram sedikit berbeda dan sedikit bergeser maka kita tidak akan mendapatkan hasil yang diinginkan. Ada saran?

3
Apa cara paling akurat untuk menentukan warna objek?
Saya telah menulis program komputer yang dapat mendeteksi koin dalam gambar statis (.jpeg, .png, dll.) Menggunakan beberapa teknik standar untuk penglihatan komputer (Gaussian Blur, thresholding, Hough-Transform dll.). Dengan menggunakan rasio koin yang diambil dari gambar yang diberikan, saya dapat menetapkan dengan pasti koin mana yang mana. Namun, saya ingin menambah …


4
Pengelompokan kesalahan standar dalam R (baik secara manual atau dalam plm)
Saya mencoba memahami kesalahan "clustering" standar dan bagaimana mengeksekusi di R (itu sepele di Stata). Di RI telah gagal menggunakan salah satu plmatau menulis fungsi saya sendiri. Saya akan menggunakan diamondsdata dari ggplot2paket. Saya bisa melakukan efek tetap dengan salah satu variabel dummy > library(plyr) > library(ggplot2) > library(lmtest) > …

10
Bagaimana cara mengajar siswa yang takut dengan statistik?
Saya akan membantu mengajar statistik kepada mahasiswa kedokteran semester ini. Saya telah mendengar banyak cerita horor tentang ketakutan para siswa ini dari belajar statistik. Adakah yang bisa menyarankan apa yang harus dilakukan dengan rasa takut ini? (Entah tautan ke orang yang sedang membahas ini, atau menawarkan saran dari pengalaman Anda …
33 teaching 

2
Varians fungsi dari satu variabel acak
Katakanlah kita memiliki variabel acak XXX dengan varian dan mean yang diketahui. Pertanyaannya adalah: apa varian f(X)f(X)f(X) untuk beberapa fungsi yang diberikan f. Satu-satunya metode umum yang saya ketahui adalah metode delta, tetapi hanya memberikan aproximation. Sekarang saya tertarik pada f(x)=x−−√f(x)=xf(x)=\sqrt{x} , tetapi akan menyenangkan juga mengetahui beberapa metode umum. …

1
Perbedaan matematika antara GBM, XGBoost, LightGBM, CatBoost?
Ada beberapa implementasi model keluarga GBDT seperti: GBM XGBoost LightGBM Catboost. Apa perbedaan matematika antara implementasi yang berbeda ini? Catboost tampaknya mengungguli implementasi lainnya bahkan dengan hanya menggunakan parameter standarnya sesuai dengan tanda bangku ini , tetapi masih sangat lambat. Dugaan saya adalah bahwa catboost tidak menggunakan variabel dummi, sehingga …
33 boosting  xgboost 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.