Pertanyaan yang diberi tag «large-data»

'Data besar' mengacu pada situasi di mana jumlah pengamatan (titik data) sangat besar sehingga memerlukan perubahan dalam cara analis data memikirkan atau melakukan analisis. (Jangan bingung dengan 'dimensi tinggi'.)




7
Tantangan Industri vs Kaggle. Apakah mengumpulkan lebih banyak pengamatan dan memiliki akses ke lebih banyak variabel lebih penting daripada pemodelan mewah?
Saya harap judulnya cukup jelas. Di Kaggle, sebagian besar pemenang menggunakan susun dengan kadang-kadang ratusan model dasar, untuk memeras beberapa% ekstra MSE, keakuratan ... Secara umum, menurut pengalaman Anda, seberapa pentingkah pemodelan mewah seperti menumpuk vs sekadar mengumpulkan lebih banyak data dan lebih banyak fitur untuk data?

8
Apakah pengambilan sampel relevan pada saat 'data besar'?
Atau lebih tepatnya "apakah itu"? Big Data menjadikan statistik dan pengetahuan yang relevan menjadi lebih penting tetapi tampaknya tidak mendukung Teori Sampling. Saya telah melihat hype ini di sekitar 'Big Data' dan saya bertanya-tanya bahwa "mengapa" saya ingin menganalisis semuanya ? Apakah tidak ada alasan untuk "Teori Pengambilan Sampel" untuk …

10
Apa algoritma yang baik untuk memperkirakan median dari set data baca-sekali yang besar?
Saya mencari algoritme yang baik (yang berarti perhitungan minimal, persyaratan penyimpanan minimal) untuk memperkirakan median kumpulan data yang terlalu besar untuk disimpan, sehingga setiap nilai hanya dapat dibaca satu kali (kecuali jika Anda secara eksplisit menyimpan nilai itu). Tidak ada batasan pada data yang dapat diasumsikan. Perkiraannya baik-baik saja, asal …

10
Apa itu Big Data?
Saya telah ditanya beberapa kali pertanyaan: Apa itu Big-Data? Baik oleh siswa dan kerabat saya yang mengambil buzz di sekitar statistik dan ML. Saya menemukan posting CV ini . Dan saya merasa saya setuju dengan satu-satunya jawaban di sana. The halaman Wikipedia juga memiliki beberapa komentar tentang itu, tapi saya …
44 large-data 


6
Ukuran efek sebagai hipotesis untuk pengujian signifikansi
Hari ini, di Cross Validated Journal Club (mengapa Anda tidak ada di sana?), @Mbq bertanya: Apakah Anda pikir kami (ilmuwan data modern) tahu apa arti pentingnya? Dan bagaimana hubungannya dengan kepercayaan kita pada hasil kita? @Michelle menjawab karena beberapa (termasuk saya) biasanya melakukan: Saya menemukan konsep signifikansi (berdasarkan nilai-p) kurang …




1
Pembelajaran streaming yang canggih
Saya telah bekerja dengan kumpulan data besar belakangan ini dan menemukan banyak makalah metode streaming. Untuk beberapa nama: Ikuti-the-Regularized-Leader dan Mirror Descent: Teorema Kesetaraan dan Regularisasi L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Streamed Learning: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos: Primal Estimasi sub-GrAdient SOlver untuk SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf atau di sini: Dapatkah SVM …

1
Bagaimana cara memvisualisasikan tabel kontingensi jarang yang sangat besar?
Saya memiliki dua variabel: Nama Obat (DN) dan Kejadian Buruk yang sesuai (AE), yang berdiri dalam hubungan banyak-ke-banyak. Ada 33.556 nama obat dan 9.516 efek samping. Ukuran sampel adalah sekitar 5,8 juta pengamatan. Saya ingin belajar dan memahami hubungan / hubungan antara DN dan AE. Saya sedang memikirkan cara memvisualisasikan …

3
Langkah pertama untuk data besar ( , )
Misalkan Anda menganalisis kumpulan data besar dengan jumlah milyaran pengamatan per hari, di mana setiap pengamatan memiliki beberapa ribu variabel yang mungkin jarang dan variabel numerik dan kategororial yang berlebihan. Katakanlah ada satu masalah regresi, satu masalah klasifikasi biner yang tidak seimbang, dan satu tugas "mencari tahu prediktor mana yang …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.