Ilmu Data bigdata

8

Saya membaca di posting ini Apakah bahasa R cocok untuk Big Data yang merupakan data besar 5TB, dan sementara itu melakukan pekerjaan yang baik dalam memberikan informasi tentang kelayakan bekerja dengan jenis data di Rdalamnya memberikan informasi yang sangat sedikit tentang Python. Saya bertanya-tanya apakah Pythondapat bekerja dengan data sebanyak …

14 bigdata python

1

Ketika database relasional memiliki kinerja yang lebih baik daripada yang tidak relasional

Ketika database relasional, seperti MySQL, memiliki kinerja yang lebih baik daripada yang tidak relasional, seperti MongoDB? Saya melihat pertanyaan pada Quora tempo hari, tentang mengapa Quora masih menggunakan MySQL sebagai backend mereka, dan bahwa kinerja mereka masih bagus.

13 bigdata performance databases nosql

4

Studi kasus big data atau contoh penggunaan kasus

Saya telah membaca banyak artikel \ blog tentang bagaimana berbagai jenis industri menggunakan Big Data Analytic. Tetapi sebagian besar dari artikel ini gagal menyebutkan Apa yang agak data perusahaan ini digunakan. Berapa ukuran data Alat teknologi apa yang mereka gunakan untuk memproses data Apa masalah yang mereka hadapi dan bagaimana …

13 data-mining bigdata usecase

4

Bisakah kita mengambil manfaat dari menggunakan pembelajaran transfer sambil melatih model word2vec?

Saya mencari bobot pra-terlatih dari model yang sudah dilatih seperti data Google News dll. Saya merasa sulit untuk melatih model baru dengan jumlah data (10 GB dll) yang cukup untuk saya sendiri. Jadi, saya ingin mengambil manfaat dari pembelajaran transfer di mana saya akan bisa mendapatkan bobot lapisan pra-dilatih dan …

13 machine-learning bigdata word2vec

7

Apa itu 'nama lama' ilmuwan data?

Istilah seperti 'ilmu data' dan 'ilmuwan data' semakin banyak digunakan akhir-akhir ini. Banyak perusahaan merekrut 'ilmuwan data'. Tapi saya pikir itu bukan pekerjaan yang sama sekali baru. Data sudah ada dari masa lalu dan seseorang harus berurusan dengan data. Saya kira istilah 'ilmuwan data' menjadi lebih populer karena kedengarannya lebih …

12 bigdata

2

Algoritma Pencocokan Preferensi

Ada proyek sampingan yang sedang saya kerjakan di mana saya perlu menyusun solusi untuk masalah berikut. Saya memiliki dua kelompok orang (klien). Grup Abermaksud untuk membeli dan grup Bbermaksud untuk menjual produk yang ditentukan X. Produk ini memiliki serangkaian atribut x_i, dan tujuan saya adalah untuk memfasilitasi transaksi antara Adan …

12 bigdata text-mining recommender-system

2

Pengorbanan antara Storm dan Hadoop (MapReduce)

Dapatkah seseorang dengan ramah memberi tahu saya tentang pertukaran yang terlibat ketika memilih antara Storm dan MapReduce di Hadoop Cluster untuk pemrosesan data? Tentu saja, selain dari yang sudah jelas, bahwa Hadoop (pemrosesan melalui MapReduce dalam Hadoop Cluster) adalah sistem pemrosesan batch, dan Storm adalah sistem pemrosesan waktu-nyata. Saya telah …

12 bigdata efficiency apache-hadoop distributed

3

Bagaimana kueri ke dalam basis data besar kembali dengan latensi yang dapat diabaikan?

Misalnya, saat mencari sesuatu di Google, hasilnya kembali hampir secara instan. Saya memahami bahwa Google mengurutkan dan mengindeks halaman dengan algoritme, dll., Tetapi saya membayangkan tidak mungkin untuk membuat setiap kueri yang mungkin diindeks (dan hasilnya dipersonalisasi, yang menjadikan ini semakin tidak layak)? Selain itu, bukankah latensi perangkat keras di …

12 bigdata google search

1

Berapa banyak sel LSTM yang harus saya gunakan?

Apakah ada aturan praktis (atau aturan aktual) yang berkaitan dengan jumlah sel LSTM minimum, maksimum, dan "wajar" yang harus saya gunakan? Secara khusus saya berhubungan dengan BasicLSTMCell dari TensorFlow dan num_unitsproperti. Harap asumsikan bahwa saya memiliki masalah klasifikasi yang ditentukan oleh: t - number of time steps n - length …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

Apakah FPGrowth masih dianggap "canggih" dalam penambangan pola yang sering?

Sejauh yang saya tahu pengembangan algoritma untuk memecahkan masalah Frequent Pattern Mining (FPM), jalan perbaikan memiliki beberapa pos pemeriksaan utama. Pertama, algoritma Apriori diusulkan pada tahun 1993, oleh Agrawal et al. , bersamaan dengan formalisasi masalah. Algoritma ini dapat menghapus beberapa set dari 2^n - 1set (powerset) dengan menggunakan kisi …

12 bigdata data-mining efficiency state-of-the-art

4

Bekerja dengan cluster HPC

Di universitas saya, kami memiliki cluster komputasi HPC. Saya menggunakan cluster untuk melatih pengklasifikasi dan sebagainya. Jadi, biasanya, untuk mengirim pekerjaan ke cluster, (misalnya skrip python scikit-learn), saya perlu menulis skrip Bash yang berisi (antara lain) perintah seperti qsub script.py. Namun, saya merasa proses ini sangat menyebalkan. Biasanya yang terjadi …

11 bigdata data-mining

3

Bahasa terbaik untuk komputasi ilmiah [ditutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Sepertinya sebagian besar bahasa memiliki sejumlah perpustakaan komputasi ilmiah yang tersedia. Python memiliki Scipy …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Mana yang lebih cepat: PostgreSQL vs MongoDB pada dataset JSON besar?

Saya memiliki dataset besar dengan objek JSON 9m masing-masing ~ 300 byte. Mereka adalah posting dari agregator tautan: pada dasarnya tautan (URL, judul dan id penulis) dan komentar (teks dan ID penulis) + metadata. Mereka bisa menjadi catatan relasional dalam sebuah tabel, kecuali fakta bahwa mereka memiliki satu bidang array …

10 data-mining bigdata databases sql mongodb

2

Deteksi Pencilan / Anomali Terukur

Saya mencoba menyiapkan infrastruktur data besar menggunakan Hadoop, Hive, Elastic Search (di antara yang lain), dan saya ingin menjalankan beberapa algoritma melalui set data tertentu. Saya ingin algoritma itu sendiri dapat diskalakan, jadi ini tidak termasuk menggunakan alat seperti Weka, R, atau bahkan RHadoop. The Apache Mahout Perpustakaan tampaknya menjadi …

10 data-mining bigdata algorithms outlier

3

Bagaimana berbagai teknik statistik (regresi, PCA, dll) berskala dengan ukuran dan dimensi sampel?

Adakah tabel umum teknik statistik yang diketahui yang menjelaskan bagaimana skala dengan ukuran dan dimensi sampel? Sebagai contoh, seorang teman saya mengatakan kepada saya tempo hari bahwa waktu perhitungan hanya menyortir data satu dimensi dengan ukuran n berjalan seperti n * log (n). Jadi, misalnya, jika kita mundur y terhadap …

10 bigdata statistics efficiency scalability

Pertanyaan yang diberi tag «bigdata»