Survei alat perangkat lunak penambangan data


15

Meskipun saya dilatih sebagai seorang insinyur, saya menemukan bahwa saya menjadi lebih tertarik pada data mining. Saat ini saya sedang mencoba untuk menyelidiki bidang ini lebih lanjut. Secara khusus, saya ingin memahami berbagai kategori alat perangkat lunak yang ada dan alat mana yang menonjol di setiap kategori dan mengapa. (Perhatikan bahwa saya tidak mengatakan alat "terbaik", hanya yang terkenal jangan sampai kita memulai perang api.) Terutama buat catatan tentang alat yang open-source dan tersedia secara bebas - meskipun tidak menganggap ini berarti bahwa Saya hanya tertarik pada open-source dan gratis.


1
Saya menyarankan ini menjadi wiki komunitas.
Tal Galili

Kedengarannya seperti pertanyaan pekerjaan rumah
Neil McGuigan

@ Tal Tentu saja, sekarang dikonversi.

@el chief - Ini pertanyaan yang sangat luas dan umum ... tapi saya khawatir itu bukan pertanyaan pekerjaan rumah.
John Berryman

Jawaban:


7

Ini mungkin daftar paling lengkap yang akan Anda temukan: mloss.org


Ini difokuskan pada Machine-Learning, yang dapat dilihat sebagai bidang terkait data mining, seperti AI. Meskipun umumnya digunakan sinonim, karena "prediksi" adalah salah satu tantangan utama dalam penambangan data. Tetapi ada lebih dari "belajar" untuk data mining.
Memiliki QUIT - Anony-Mousse

7

Lihatlah

  • Weka (java, kuat dalam klasifikasi)
  • Oranye (skrip python, sebagian besar klasifikasi)
  • GNU R (bahasa R, berorientasi tabel vektor agak, lihat taskview Machine Learning , dan Rattle UI)
  • ELKI (java, kuat dalam pengelompokan dan deteksi outlier, dukungan struktur indeks untuk speedups, daftar algoritma )
  • Sais gajah (Java, milik Hadoop, jika Anda memiliki sekelompok dan kumpulan data besar)

dan Repositori Pembelajaran Mesin UCI untuk set data.


1
Anda bisa menambahkan Red-R ke daftar (semacam klon Oranye di R): red-r.org
Amro

Saya sudah mengunduh R dan sekarang sedang bermain dengannya.
John Berryman

@Amro, terima kasih! Namun, itu tidak tersedia di platform Mac, kecuali saya salah?
chl

Saya bukan pengguna Mac, tetapi saya pikir Linux build dapat bekerja untuk Anda (Anda perlu menginstal semua dependensi python secara manual): red-r.org/forum/topic.php?id=22#post-76
Amro

@Amro saya akan mencobanya; di masa lalu saya telah menguji RAnalyticFlow ( j.mp/bYF8xs ) tetapi tidak yakin: Saya pada dasarnya adalah pengguna CLI :-)
chl


3

Lihatlah KNIME .

Sangat mudah dipelajari. Dengan banyak ruang untuk kemajuan lebih lanjut. Terintegrasi dengan baik dengan Weka dan R.




2

Ada ELKI , proyek universitas open-source yang agak sebanding dengan WEKA, tetapi jauh lebih kuat dalam hal pengelompokan dan deteksi outlier. WEKA sebenarnya bukan benar-benar data mining, tetapi perangkat lunak pembelajaran mesin.


1

Ada Red-R ini yang memiliki GUI yang bagus dan antarmuka pemrograman visual. Itu menggunakan R untuk memproses berbagai analisis data.



0

SQL Server Data Mining (SSDM) belum diperbarui dalam waktu yang lama, tetapi masih cukup kompetitif jika Anda menambang basis data relasional besar dan kubus. Saya pelan-pelan tetapi secara sistematis bekerja keras melalui pengujian alat penambangan sebanyak yang saya bisa dan antarmuka Windows SQL Server adalah yang paling produktif dan stabil yang saya temukan sampai saat ini (terutama ketika datang ke database perusahaan, beberapa di antaranya secara mengejutkan antarmuka ceroboh) meskipun usianya. Saya lebih suka antarmuka Windows Presentation Foundation (WPF) modern tetapi ini adalah hal terbaik berikutnya.

Saya menulis serangkaian tutorial amatir terperinci di atasnya berjudul A Rickety Stairway ke SQL Server Data Mining , ketika saya mencoba untuk mendapatkan beberapa keterampilan dasar penambangan. Meskipun pengalaman saya kurang, mereka masih berguna dalam membantu mengidentifikasi beberapa "gotcha" di muka.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.