Apakah Ilmu Data Sama Dengan Penambangan Data?


22

Saya yakin ilmu data seperti yang akan dibahas dalam forum ini memiliki beberapa sinonim atau setidaknya bidang terkait di mana data besar dianalisis.

Pertanyaan khusus saya adalah tentang Penambangan Data. Saya mengambil kelas pascasarjana di Data Mining beberapa tahun yang lalu. Apa perbedaan antara Ilmu Data dan Data Mining dan khususnya apa lagi yang perlu saya perhatikan untuk menjadi mahir dalam Data Mining?


Mengenai bagian kedua dari pertanyaan Anda, saya telah mengusulkan diskusi dalam meta: meta.datascience.stackexchange.com/questions/5/… Bagaimana hal itu diterima dapat membentuk apakah masalah kemampuan Anda dapat dijawab atau dalam lingkup.
Clayton

Jawaban:


25

@statsRus mulai meletakkan dasar untuk jawaban Anda dalam pertanyaan lain /datascience/1/what-characterises-the-ddference-between-data-science-and-statistics :

  • Pengumpulan data : pengikisan web dan survei online
  • Manipulasi data : pengodean ulang data yang berantakan dan penggalian makna dari data jejaring sosial dan data
  • Skala data : bekerja dengan set data yang sangat besar
  • Penambangan data : menemukan pola dalam kumpulan data yang besar dan kompleks, dengan penekanan pada teknik algoritmik
  • Komunikasi data : membantu mengubah "data yang dapat dibaca mesin" menjadi informasi "dapat dibaca manusia" melalui visualisasi

Definisi

dapat dilihat sebagai satu item (atau serangkaian keterampilan dan aplikasi) dalam toolkit ilmuwan data. Saya suka bagaimana dia memisahkan definisi penambangan dari koleksi dalam semacam jargon khusus perdagangan.

Namun, saya berpikir bahwa penambangan data akan identik dengan pengumpulan data dalam definisi sehari-hari AS-Inggris.

Ke mana harus pergi untuk menjadi mahir? Saya pikir pertanyaan itu terlalu luas karena saat ini dinyatakan dan akan menerima jawaban yang terutama didasarkan pada pendapat. Mungkin jika Anda bisa memperbaiki pertanyaan Anda, mungkin lebih mudah untuk melihat apa yang Anda tanyakan.


11

Apa yang @Clayton posting tampaknya benar bagi saya, untuk istilah-istilah itu, dan untuk "data mining" menjadi salah satu alat ilmuwan data. Namun, saya belum benar-benar menggunakan istilah "pengumpulan data," dan itu tidak menurut saya identik dengan "penambangan data."

Jawaban saya sendiri untuk pertanyaan Anda: tidak , syaratnya tidak sama. Definisi mungkin longgar di bidang ini, tapi saya belum melihat istilah itu digunakan secara bergantian. Dalam pekerjaan saya, kadang-kadang kita menggunakannya untuk membedakan antara tujuan, atau metodologi. Bagi kami, lebih tentang pengujian hipotesis, dan biasanya data telah dikumpulkan hanya untuk tujuan itu. lebih lanjut tentang menyaring data yang ada, mencari struktur, dan mungkin menghasilkan hipotesis. Penambangan data dapat dimulai dengan hipotesis, tetapi seringkali sangat lemah atau umum, dan bisa sulit untuk diselesaikan dengan keyakinan. (Gali cukup lama dan Anda akan menemukan sesuatu , meskipun itu bisa berubah menjadi pirit.)

Namun, kami juga telah menggunakan "ilmu data" sebagai istilah yang lebih luas, termasuk "penambangan data." Kami juga berbicara tentang "pemodelan data," yang bagi kami adalah tentang menemukan model untuk sistem yang menarik, berdasarkan data serta pengetahuan dan tujuan lainnya. Kadang-kadang itu berarti mencoba menemukan matematika yang menjelaskan sistem yang sebenarnya, dan kadang-kadang itu berarti menemukan model prediksi yang cukup baik untuk suatu tujuan.


8

Jawaban saya adalah tidak. Saya menganggap penambangan data sebagai salah satu bidang lain dalam ilmu data. Penambangan Data lebih banyak dipertimbangkan untuk menghasilkan pertanyaan daripada menjawabnya. Ini sering disebut sebagai "mendeteksi sesuatu yang baru", bila dibandingkan dengan ilmu Data, di mana ilmuwan data mencoba memecahkan masalah yang kompleks untuk dapat mencapai hasil akhir mereka. Namun kedua istilah tersebut memiliki banyak kesamaan di antara mereka. Misalnya .. jika Anda memiliki lahan pertanian di mana Anda bertujuan untuk menemukan tanaman yang terkena dampak..Ini penambangan data spasial memainkan peran kunci dalam melakukan pekerjaan ini. Ada kemungkinan besar bahwa Anda mungkin berakhir dengan tidak hanya mencari tahu tanaman yang terkena dampak di tanah tetapi juga sejauh mana mereka terpengaruh ....... ini adalah sesuatu yang tidak mungkin dengan ilmu data.


Jawaban Anda sangat bagus, dan menyenangkan juga jika Anda menambahkan sedikit contoh, untuk menekankan poin Anda tentang penambangan data lebih terkait dengan mendeteksi sesuatu yang baru daripada mencoba memecahkan dan mencapai hasil .
Rubens

6

Ada banyak tumpang tindih antara data mining dan datacience. Saya akan mengatakan bahwa orang-orang dengan peran datamining berkaitan dengan pengumpulan data dan ekstraksi fitur dari dataset tanpa filter, tidak terorganisir dan sebagian besar mentah / liar. Beberapa data yang sangat penting mungkin sulit untuk diekstraksi, tidak dilakukan untuk masalah implementasi tetapi karena mungkin memiliki artefak asing.

Misalnya. jika saya membutuhkan seseorang untuk melihat data keuangan dari pengembalian pajak tertulis pada tahun 70-an yang dipindai dan dibaca mesin untuk mengetahui apakah orang lebih banyak menabung pada asuransi mobil; dataminer akan menjadi orang yang mendapatkannya.

Jika saya membutuhkan seseorang untuk memeriksa pengaruh profil Twitter Nike di tweet Brasil dan mengidentifikasi fitur-fitur positif utama dari profil tersebut, saya akan mencari seorang ilmuwan data.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.