Pertanyaan yang diberi tag «data-mining»

Aktivitas yang mencari pola dalam kumpulan data yang besar dan kompleks. Biasanya menekankan teknik algoritmik, tetapi mungkin juga melibatkan serangkaian keterampilan, aplikasi, atau metodologi terkait dengan tujuan itu.

2
Berapa banyak data yang cukup untuk melatih model pembelajaran mesin saya?
Saya telah bekerja pada pembelajaran mesin dan bioinformatika untuk sementara waktu, dan hari ini saya berbicara dengan seorang kolega tentang masalah umum utama dari penambangan data. Rekan saya (yang ahli dalam pembelajaran mesin) mengatakan bahwa, menurut pendapatnya, aspek praktis yang paling penting dari pembelajaran mesin adalah bagaimana memahami apakah Anda …


7
Menggores web LinkedIn
Baru- baru ini saya menemukan paket R baru untuk terhubung ke API LinkedIn. Sayangnya API LinkedIn tampaknya cukup terbatas untuk memulainya; misalnya, Anda hanya bisa mendapatkan data dasar tentang perusahaan, dan ini terlepas dari data individu. Saya ingin mendapatkan data tentang semua karyawan perusahaan tertentu, yang dapat Anda lakukan secara …

3
Hubungan antara KS, AUROC, dan Gini
Statistik validasi model umum seperti uji Kolmogorov-Smirnov (KS), AUROC , dan koefisien Gini semuanya terkait secara fungsional. Namun, pertanyaan saya berkaitan dengan pembuktian bagaimana semua ini terkait. Saya ingin tahu apakah ada yang bisa membantu saya membuktikan hubungan ini. Saya belum dapat menemukan apa pun secara online, tetapi saya benar-benar …

4
Bekerja dengan cluster HPC
Di universitas saya, kami memiliki cluster komputasi HPC. Saya menggunakan cluster untuk melatih pengklasifikasi dan sebagainya. Jadi, biasanya, untuk mengirim pekerjaan ke cluster, (misalnya skrip python scikit-learn), saya perlu menulis skrip Bash yang berisi (antara lain) perintah seperti qsub script.py. Namun, saya merasa proses ini sangat menyebalkan. Biasanya yang terjadi …


3
Bahasa terbaik untuk komputasi ilmiah [ditutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Sepertinya sebagian besar bahasa memiliki sejumlah perpustakaan komputasi ilmiah yang tersedia. Python memiliki Scipy …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
Visualisasi barang yang sering dibeli bersama
Saya memiliki dataset dalam struktur berikut yang disisipkan dalam file CSV: Banana Water Rice Rice Water Bread Banana Juice Setiap baris menunjukkan koleksi barang yang dibeli bersama. Misalnya, baris pertama menunjukkan bahwa item Banana, Waterdan Ricedibeli bersama-sama. Saya ingin membuat visualisasi seperti berikut: Ini pada dasarnya adalah bagan kotak tetapi …


4
Bagaimana cara mengikis halaman web imdb?
Saya mencoba mempelajari pengikisan web menggunakan Python sendiri sebagai bagian dari upaya mempelajari analisis data. Saya mencoba untuk mengikis halaman web imdb yang url-nya adalah sebagai berikut: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Saya menggunakan modul BeautifulSoup. Berikut ini adalah kode yang saya gunakan: r = requests.get(url) # where url is the above url bs …

2
Deteksi Pencilan / Anomali Terukur
Saya mencoba menyiapkan infrastruktur data besar menggunakan Hadoop, Hive, Elastic Search (di antara yang lain), dan saya ingin menjalankan beberapa algoritma melalui set data tertentu. Saya ingin algoritma itu sendiri dapat diskalakan, jadi ini tidak termasuk menggunakan alat seperti Weka, R, atau bahkan RHadoop. The Apache Mahout Perpustakaan tampaknya menjadi …

4
Langkah awal apa yang harus saya gunakan untuk memahami kumpulan data besar, dan alat apa yang harus saya gunakan?
Peringatan: Saya seorang pemula yang lengkap dalam hal pembelajaran mesin, tetapi ingin sekali belajar. Saya memiliki dataset besar dan saya mencoba menemukan pola di dalamnya. Mungkin ada / mungkin tidak ada korelasi di seluruh data, baik dengan variabel yang diketahui, atau variabel yang terkandung dalam data tetapi yang belum saya …


1
Pengguna-produk positif (data klik) tersedia. Bagaimana cara menghasilkan negatif (data tanpa klik)?
Sangat umum di pemberi rekomendasi bahwa kami memiliki data produk pengguna yang memiliki label sebagai contoh "klik". Untuk mempelajari modelnya, saya perlu data klik dan tanpa klik. Pendekatan sederhana untuk menghasilkan adalah mengambil pasangan produk-pengguna yang tidak ditemukan dalam data klik. Namun, itu mungkin menyesatkan. Contoh: user1, product1 (click) user2, …

1
Bagaimana cara menghitung jangka waktu delta dari Lapisan Konvolusional, mengingat syarat dan berat delta dari Lapisan Konvolusional sebelumnya?
Saya mencoba untuk melatih jaringan saraf tiruan dengan dua lapisan convolutional (c1, c2) dan dua lapisan tersembunyi (c1, c2). Saya menggunakan pendekatan backpropagation standar. Dalam pass mundur saya menghitung istilah kesalahan lapisan (delta) berdasarkan kesalahan lapisan sebelumnya, bobot lapisan sebelumnya dan gradien aktivasi sehubungan dengan fungsi aktivasi lapisan saat ini. …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.