Apa perbedaan antara penambangan data, statistik, pembelajaran mesin dan AI?


208

Apa perbedaan antara penambangan data, statistik, pembelajaran mesin dan AI?

Apakah akurat untuk mengatakan bahwa mereka adalah 4 bidang yang berusaha menyelesaikan masalah yang sangat mirip tetapi dengan pendekatan yang berbeda? Apa sebenarnya kesamaan yang mereka miliki dan di mana mereka berbeda? Jika ada semacam hirarki di antara mereka, apakah itu?

Pertanyaan serupa telah diajukan sebelumnya tetapi saya masih belum mengerti:

Jawaban:


109

Ada banyak tumpang tindih di antara ini, tetapi beberapa perbedaan dapat dibuat. Karena kebutuhan, saya harus terlalu menyederhanakan beberapa hal atau memberikan sedikit perhatian kepada orang lain, tetapi saya akan melakukan yang terbaik untuk memberikan pengertian tentang bidang-bidang ini.

Pertama, Kecerdasan Buatan cukup berbeda dari yang lain. AI adalah studi tentang cara membuat agen cerdas. Dalam praktiknya, ini adalah cara memprogram komputer untuk berperilaku dan melakukan tugas seperti yang akan dilakukan oleh agen cerdas (misalnya, seseorang). Ini tidak harus melibatkan pembelajaran atau induksi sama sekali, itu hanya bisa menjadi cara untuk 'membangun perangkap tikus yang lebih baik'. Misalnya, aplikasi AI telah memasukkan program untuk memantau dan mengontrol proses yang sedang berlangsung (misalnya, tingkatkan aspek A jika tampaknya terlalu rendah). Perhatikan bahwa AI dapat mencakup sangat dekat apa pun yang dilakukan mesin, asalkan tidak melakukannya dengan 'bodoh'.

Namun dalam praktiknya, sebagian besar tugas yang membutuhkan kecerdasan memerlukan kemampuan untuk membujuk pengetahuan baru dari pengalaman. Dengan demikian, area luas dalam AI adalah pembelajaran mesin . Suatu program komputer dikatakan mempelajari beberapa tugas dari pengalaman jika kinerjanya pada tugas tersebut meningkat dengan pengalaman, menurut beberapa ukuran kinerja. Pembelajaran mesin melibatkan studi tentang algoritma yang dapat mengekstraksi informasi secara otomatis (yaitu, tanpa panduan manusia online). Memang benar bahwa beberapa dari prosedur ini memasukkan ide-ide yang berasal langsung dari, atau diilhami oleh, statistik klasik, tetapi mereka tidak memilikinyamenjadi. Demikian pula untuk AI, pembelajaran mesin sangat luas dan dapat mencakup hampir semua, asalkan ada beberapa komponen induktif untuk itu. Contoh dari algoritma pembelajaran mesin mungkin adalah filter Kalman.

Penambangan data adalah bidang yang telah mengambil banyak inspirasi dan teknik dari pembelajaran mesin (dan beberapa, juga, dari statistik), tetapi diletakkan untuk tujuan yang berbeda . Penambangan data dilakukan oleh seseorang , dalam situasi tertentu, pada set data tertentu, dengan tujuan dalam pikiran. Biasanya, orang ini ingin memanfaatkan kekuatan berbagai teknik pengenalan pola yang telah dikembangkan dalam pembelajaran mesin. Seringkali, kumpulan data bersifat masif , rumit , dan / atau mungkin memiliki masalah khusus(seperti ada lebih banyak variabel daripada pengamatan). Biasanya, tujuannya adalah untuk menemukan / menghasilkan beberapa wawasan awal di daerah di mana hanya ada sedikit pengetahuan sebelumnya, atau untuk dapat memprediksi pengamatan di masa depan secara akurat. Selain itu, prosedur penambangan data dapat berupa 'tidak diawasi' (kami tidak tahu jawabannya - penemuan) atau 'diawasi' (kami tahu jawabannya - prediksi). Perhatikan bahwa tujuannya umumnya bukan untuk mengembangkan pemahaman yang lebih canggih tentang proses pembuatan data yang mendasarinya. Teknik penambangan data umum akan mencakup analisis klaster, pohon klasifikasi dan regresi, dan jaringan saraf.

Saya kira saya tidak perlu banyak bicara untuk menjelaskan statistik apa yang ada di situs ini, tapi mungkin saya bisa mengatakan beberapa hal. Statistik klasik (di sini yang saya maksud adalah sering dan Bayesian) adalah sub-topik dalam matematika. Saya menganggapnya sebagai persimpangan sebagian besar dari apa yang kita ketahui tentang probabilitas dan apa yang kita ketahui tentang optimasi. Meskipun statistik matematika dapat dipelajari hanya sebagai objek penyelidikan Platonis, sebagian besar dipahami sebagai lebih praktis dan diterapkan dalam karakter daripada bidang matematika lainnya yang lebih jarang. Karena itu (dan sangat berbeda dengan penambangan data di atas), sebagian besar digunakan untuk lebih memahami beberapa proses menghasilkan data tertentu. Jadi, biasanya dimulai dengan model yang ditentukan secara formal, dan dari sini didapat prosedur untuk mengekstraksi model itu secara akurat dari contoh bising (yaitu, estimasi - dengan mengoptimalkan beberapa fungsi kerugian) dan untuk dapat membedakannya dari kemungkinan lain (yaitu, kesimpulan berdasarkan sifat yang diketahui dari distribusi sampel). Teknik statistik prototipikal adalah regresi.


1
Saya setuju dengan sebagian besar posting, tetapi saya akan mengatakan AI sebagian besar waktu tidak mencoba untuk membuat agen cerdas (apa itu intelijen, sih?), Tetapi agen rasional. Secara rasional itu berarti "optimal mengingat pengetahuan yang tersedia tentang dunia". Meskipun diakui tujuan akhir adalah sesuatu seperti pemecah masalah umum.
kutschkem

3
maaf, saya masih belum mendapatkan perbedaan antara penambangan data dan pembelajaran mesin. dari apa yang saya lihat, data mining = pembelajaran tanpa pengawasan mesin belajar. bukankah pembelajaran mesin tanpa pengawasan tentang menemukan wawasan baru?
dtc

Seorang pengguna anonim menyarankan posting blog ini untuk sebuah tabel yang merinci perbedaan antara penambangan data dan pembelajaran mesin berdasarkan parameter.
gung

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.Apakah aman untuk mengatakan bahwa jaringan saraf adalah contoh alat pembelajaran mesin yang digunakan dalam data mining, dibandingkan dengan analisis cluster yang merupakan algoritma yang tidak dirancang untuk pembelajaran mesin yang digunakan untuk data mining?
t0mgs

Pada kenyataannya itu semua cukup kabur, @ TomGranot-Scalosub. Saya akan mengatakan jaringan saraf pasti ML, & tentu saja analisis cluster & CART dipelajari oleh peneliti ML Saya mencoba untuk membuat ide-ide yang agak lebih jelas & berbeda, tetapi sebenarnya tidak ada garis terang di antara kategori-kategori ini.
gung

41

Banyak jawaban lain telah membahas poin-poin utama tetapi Anda meminta hierarki jika ada dan seperti yang saya lihat, meskipun mereka masing-masing disiplin dalam hak mereka sendiri, ada hierarki yang belum ada yang disebutkan karena masing-masing dibangun di atas yang sebelumnya.

Statistik hanya tentang angka, dan mengukur data. Ada banyak alat untuk menemukan properti yang relevan dari data tetapi ini cukup dekat dengan matematika murni.

Penambangan Data adalah tentang menggunakan Statistik serta metode pemrograman lainnya untuk menemukan pola yang tersembunyi dalam data sehingga Anda dapat menjelaskan beberapa fenomena. Penambangan data membangun intuisi tentang apa yang sebenarnya terjadi dalam beberapa data dan masih sedikit lebih ke arah matematika daripada pemrograman, tetapi menggunakan keduanya.

Machine Learning menggunakan teknik Penambangan Data dan algoritma pembelajaran lainnya untuk membangun model dari apa yang terjadi di balik beberapa data sehingga dapat memprediksi hasil di masa mendatang. Matematika adalah dasar untuk banyak algoritma, tetapi ini lebih mengarah pada pemrograman.

Inteligensi buatan menggunakan model-model yang dibangun oleh Machine Learning dan cara-cara lain untuk bernalar tentang dunia dan memunculkan perilaku cerdas apakah ini bermain game atau mengendarai robot / mobil. Kecerdasan Buatan memiliki beberapa tujuan untuk dicapai dengan memprediksi bagaimana tindakan akan mempengaruhi model dunia dan memilih tindakan yang paling baik untuk mencapai tujuan itu. Berbasis pemrograman.

Pendeknya

  • Statistik menghitung angka
  • Penambangan Data menjelaskan pola
  • Pembelajaran Mesin memprediksi dengan model
  • Kecerdasan Buatan berperilaku dan beralasan

Sekarang ini dikatakan, akan ada beberapa masalah AI yang jatuh hanya ke AI dan juga untuk bidang lain tetapi sebagian besar masalah menarik saat ini (misalnya, mobil yang bisa menyetir sendiri) dapat dengan mudah dan tepat disebut semua ini. Semoga ini membersihkan hubungan di antara mereka yang Anda tanyakan.


Apakah Anda pernah menggunakan WEKA atau RapidMiner? Misalnya, EM berada dalam penambangan data dan menerapkan model. Selain itu, periksa definisi yang diberikan oleh mariana soffer dan bandingkan dengan jawaban Anda. Beberapa tahun yang lalu saya membaca Uskup dan Russell / Norvig, tetapi sejauh yang saya ingat def. oleh mariana soffer lebih cocok. btw data mining adalah ("hanya") langkah utama sebelum penemuan pengetahuan. penggalian data hanya mengambil data - dan selanjutnya untuk informasi - ketika menggunakan algoritma dengan parameter yang memadai. penambangan data tidak dapat menjelaskan pola.
mnemonic

Tidak, @ mnemonic, definisi AI ini jauh lebih sesuai dengan Russell dan Norvig daripada definisi mariana, yang cukup
kuno

2
Saya pikir deskripsi statistiknya buruk; angka kuantitatif adalah statistik yang dilaporkan oleh departemen statistik nasional, tetapi ini tidak sama dengan ilmu statistik yang membuat model untuk data, memperkirakan parameternya dan membuat kesimpulan. Juga, hubungan antara penambangan data dan pembelajaran mesin terbalik; ilmu data menggunakan teknik pembelajaran mesin, bukan sebaliknya. Lihat jawabannya oleh Ken van Haren juga.
Richard Hardy

25
  • Statistik berkaitan dengan model probabilistik, khususnya inferensi pada model ini menggunakan data.
  • Machine Learning berkaitan dengan memprediksi hasil tertentu yang diberikan beberapa data. Hampir semua metode pembelajaran mesin yang masuk akal dapat dirumuskan sebagai model probabilistik formal, sehingga dalam hal ini pembelajaran mesin sangat mirip dengan statistik, tetapi berbeda karena umumnya tidak peduli tentang perkiraan parameter (hanya prediksi) dan berfokus pada efisiensi komputasi dan dataset besar.
  • Penambangan Data (seperti yang saya mengerti) menerapkan pembelajaran mesin. Ini lebih berfokus pada aspek praktis dari penerapan algoritma pembelajaran mesin pada dataset besar. Ini sangat mirip dengan pembelajaran mesin.
  • Kecerdasan Buatan adalah segala sesuatu yang berkaitan dengan (beberapa definisi sewenang-wenang) kecerdasan dalam komputer. Jadi, itu termasuk banyak hal.

Secara umum, model probabilistik (dan dengan demikian statistik) telah terbukti menjadi cara yang paling efektif untuk secara formal menyusun pengetahuan dan pemahaman dalam suatu mesin, sedemikian rupa sehingga ketiganya (AI, ML dan DM) saat ini sebagian besar merupakan subbidang dari statistik. Bukan disiplin pertama yang menjadi lengan bayangan statistik ... (Ekonomi, psikologi, bioinformatika, dll.)


5
@ Ken - Akan tidak akurat untuk menggambarkan psikologi ekonomi atau AI sebagai statistik bayangan - bahkan jika statistik banyak digunakan dalam masing-masing untuk menganalisis banyak masalah yang diminati bidang ini. Anda tidak ingin menyarankan obat-obatan adalah lengan bayangan statistik bahkan jika sebagian besar kesimpulan medis sangat bergantung pada analisis data.
mpacer

@ Ken - Ini adalah respons yang hebat tetapi Anda bisa menggambarkan dengan lebih lengkap apa hal-hal lain yang terdiri dari AI. Sebagai contoh, secara historis AI juga memasukkan sejumlah besar analisis model non-probabilistik (misalnya sistem produksi, automata seluler dll., Misalnya lihat Newell & Simon 1972). Tentu saja semua model seperti itu membatasi kasus-kasus dari beberapa model probabilistik, tetapi mereka tidak dianalisis dalam nada seperti itu sampai jauh kemudian.
mpacer

4
penambangan data melampaui pembelajaran mesin, karena sebenarnya melibatkan bagaimana data disimpan dan diindeks untuk membuat algoritma lebih cepat. Ini dapat dikarakteristikkan sebagai mengambil metode sebagian besar dari AI, ML dan statistik dan menggabungkannya dengan manajemen data yang efisien dan pintar serta teknik tata letak data. Ketika itu tidak melibatkan manajemen data, Anda sering dapat menyebutnya "pembelajaran mesin". Namun ada beberapa tugas, khususnya "tanpa pengawasan", di mana tidak ada "pembelajaran" yang terlibat, tetapi juga tidak ada manajemen data, ini masih disebut "data mining" (pengelompokan, deteksi outlier).
Anony-Mousse

21

Kita dapat mengatakan bahwa mereka semua terkait, tetapi mereka semua adalah hal yang berbeda. Meskipun Anda dapat memiliki kesamaan di antara mereka, seperti dalam statistik dan data mining Anda menggunakan metode pengelompokan.
Biarkan saya mencoba mendefinisikan secara singkat masing-masing:

  • Statistik adalah disiplin yang sangat tua terutama didasarkan pada metode matematika klasik, yang dapat digunakan untuk tujuan yang sama bahwa kadang-kadang data mining adalah mengklasifikasikan dan mengelompokkan hal-hal.

  • Penambangan data terdiri dari model bangunan untuk mendeteksi pola yang memungkinkan kita untuk mengklasifikasikan atau memprediksi situasi mengingat sejumlah fakta atau faktor.

  • Kecerdasan buatan (lihat Marvin Minsky *) adalah disiplin yang mencoba meniru cara otak bekerja dengan metode pemrograman, misalnya membangun program yang memainkan catur.

  • Pembelajaran mesin adalah tugas membangun pengetahuan dan menyimpannya dalam beberapa bentuk di komputer; bentuk itu bisa dari model matematika, algoritma, dll ... Apa pun yang dapat membantu mendeteksi pola.


2
Tidak, sebagian besar AI modern tidak mengikuti pendekatan awal "meniru otak". Ini berfokus pada pembuatan "agen rasional" yang bertindak dalam lingkungan untuk memaksimalkan utilitas, dan lebih erat terkait dengan pembelajaran mesin. Lihat buku Russell dan Norvig.
nealmcb

1
Saya tidak melihat perbedaan antara ML dan data mining dalam definisi Anda
Martin Thoma

16

Saya paling akrab dengan pembelajaran mesin - poros penambangan data - jadi saya akan berkonsentrasi pada hal itu:

Pembelajaran mesin cenderung tertarik pada kesimpulan dalam situasi non-standar, misalnya data non-iid, pembelajaran aktif, pembelajaran semi-diawasi, pembelajaran dengan data terstruktur (misalnya string atau grafik). ML juga cenderung tertarik pada batasan teoretis tentang apa yang dapat dipelajari, yang sering membentuk dasar untuk algoritma yang digunakan (misalnya mesin vektor dukungan). ML cenderung bersifat Bayesian.

Penambangan data tertarik untuk menemukan pola dalam data yang belum Anda ketahui. Saya tidak yakin itu sangat berbeda dari analisis data eksplorasi dalam statistik, sedangkan dalam pembelajaran mesin umumnya ada masalah yang lebih jelas untuk dipecahkan.

ML cenderung lebih tertarik pada dataset kecil di mana over-fitting adalah masalahnya dan data mining cenderung tertarik pada dataset skala besar di mana masalahnya berkaitan dengan jumlah data.

Statistik dan pembelajaran mesin menyediakan banyak alat dasar yang digunakan oleh penambang data.


Saya tidak setuju dengan "ML cenderung lebih tertarik pada kumpulan data kecil".
Martin Thoma

penambangan data menjadi jauh lebih sulit dengan set data kecil karena meningkatkan kemungkinan menemukan asosiasi palsu (dan meningkatkan kesulitan mendeteksi itu). Dengan inferensi dataset kecil yang membuat pilihan sesedikit mungkin cenderung jauh lebih aman.
Dikran Marsupial

13

Ini saya ambil. Mari kita mulai dengan dua kategori yang sangat luas:

  • apa pun yang bahkan hanya berpura - pura menjadi pintar adalah kecerdasan buatan (termasuk ML dan DM).
  • segala sesuatu yang meringkas data adalah statistik , meskipun Anda biasanya hanya menerapkan ini pada metode yang memperhatikan validitas hasil (sering digunakan dalam ML dan DM)

Baik ML dan DM biasanya keduanya, AI dan statistik, karena mereka biasanya melibatkan metode dasar dari keduanya. Berikut ini beberapa perbedaannya:

  • dalam pembelajaran mesin , Anda memiliki tujuan yang jelas (biasanya prediksi )
  • di data mining , Anda pada dasarnya memiliki tujuan yang " sesuatu yang saya tidak tahu sebelumnya "

Selain itu, penambangan data biasanya melibatkan lebih banyak manajemen data , yaitu bagaimana mengatur data dalam struktur indeks dan database yang efisien.

Sayangnya, mereka tidak mudah untuk dipisahkan. Misalnya, ada "pembelajaran tanpa pengawasan", yang seringkali lebih erat kaitannya dengan DM daripada ML, karena tidak dapat mengoptimalkan menuju tujuan. Di sisi lain, metode DM sulit untuk dievaluasi (bagaimana Anda menilai sesuatu yang tidak Anda ketahui?) Dan sering dievaluasi pada tugas yang sama seperti pembelajaran mesin, dengan meninggalkan beberapa informasi. Namun, ini biasanya akan membuat mereka tampak bekerja lebih buruk daripada metode pembelajaran mesin yang dapat mengoptimalkan menuju tujuan evaluasi yang sebenarnya.

Selain itu, mereka sering digunakan dalam kombinasi. Misalnya, metode penambangan data (katakanlah, pengelompokan, atau deteksi outlier yang tidak diawasi) digunakan untuk memproses data, kemudian metode pembelajaran mesin diterapkan pada data yang telah diproses untuk melatih pengklasifikasi yang lebih baik.

Pembelajaran mesin biasanya lebih mudah untuk dievaluasi: ada tujuan seperti skor atau prediksi kelas. Anda dapat menghitung presisi dan daya ingat. Dalam penggalian data, sebagian besar evaluasi dilakukan dengan meninggalkan beberapa informasi (seperti label kelas) dan kemudian menguji apakah metode Anda menemukan struktur yang sama. Ini naif dalam arti, karena Anda menganggap bahwa label kelas menyandikan struktur data sepenuhnya; Anda benar-benar menghukum algoritma penambangan data yang menemukan sesuatu yang baru dalam data Anda. Cara lain - secara tidak langsung - mengevaluasinya, adalah bagaimana struktur yang ditemukan meningkatkan kinerja algoritma ML yang sebenarnya (misalnya saat mempartisi data atau menghapus pencilan). Namun, evaluasi ini didasarkan pada mereproduksi hasil yang ada, yang sebenarnya bukan tujuan data mining ...


1
Respons Anda sangat mendalam. Saya sangat menghargai paragraf terakhir, tentang perbedaan dalam mengevaluasi kinerja ML dan mengevaluasi kinerja DM.
justis

8

Saya akan menambahkan beberapa pengamatan pada apa yang dikatakan ...

AI adalah istilah yang sangat luas untuk segala sesuatu yang berkaitan dengan mesin yang melakukan kegiatan yang tampak seperti penalaran atau penampilan, mulai dari merencanakan tugas atau bekerja sama dengan entitas lain, hingga belajar mengoperasikan tungkai berjalan. Definisi empuk adalah bahwa AI adalah sesuatu yang berhubungan dengan komputer yang belum kita ketahui bagaimana melakukannya dengan baik. (Begitu kita tahu bagaimana melakukannya dengan baik, umumnya namanya akan sendiri dan tidak lagi "AI".)

Kesan saya, bertentangan dengan Wikipedia, bahwa Pengenalan Pola dan Pembelajaran Mesin adalah bidang yang sama, tetapi yang pertama dipraktikkan oleh orang-orang ilmu komputer sedangkan yang kedua dipraktikkan oleh ahli statistik dan insinyur. (Banyak bidang teknis ditemukan berulang kali oleh subkelompok yang berbeda, yang sering membawa istilah dan pola pikir mereka sendiri ke meja.)

Bagaimanapun, Data Mining, mengambil Machine Learning / Pengenalan Pola (teknik yang bekerja dengan data) dan membungkusnya dalam database, infrastruktur, dan teknik validasi data / pembersihan.


6
Pembelajaran mesin dan pengenalan pola bukan hal yang sama, pembelajaran mesin juga tertarik pada hal-hal seperti regresi dan inferensi kausal dll. Pengenalan pola hanyalah salah satu masalah yang menarik dalam pembelajaran mesin. Sebagian besar orang yang belajar mesin yang saya kenal ada di departemen ilmu komputer.
Dikran Marsupial

2
@Dikran Setuju tetapi ML dan PR sering kali disebut dan disajikan dalam topik analisis data yang serupa. Buku pilihan saya memang Pengenalan Pola Dan Pembelajaran Mesin , dari Christophe M. Bishop. Berikut ini ulasan oleh John MainDonald di JSS, j.mp/etg3w1 .
chl

Saya juga merasa bahwa kata "pembelajaran mesin" jauh lebih umum daripada "pengenalan pola" di dunia CS.
bayerj

Juga rasakan di sini bahwa ML lebih merupakan istilah CS.
Karl Morrison

3

Sayangnya, perbedaan antara bidang-bidang ini sebagian besar di mana mereka diajarkan: statistik didasarkan pada dept matematika, ai, pembelajaran mesin di dept ilmu komputer, dan penambangan data lebih diterapkan (digunakan oleh dept bisnis atau pemasaran, dikembangkan oleh perusahaan perangkat lunak) .

Pertama AI (meskipun bisa berarti sistem cerdas) secara tradisional berarti pendekatan berbasis logika (misalnya sistem pakar) daripada estimasi statistik. Statistik, berbasis di dept matematika, telah memiliki pemahaman teoritis yang sangat baik, bersama dengan pengalaman terapan yang kuat dalam ilmu-ilmu eksperimental, di mana ada model ilmiah yang jelas, dan statistik diperlukan untuk berurusan dengan data eksperimen terbatas yang tersedia. Fokusnya sering pada memeras informasi maksimum dari kumpulan data yang sangat kecil. selanjutnya ada bias terhadap bukti matematika: Anda tidak akan dipublikasikan kecuali Anda dapat membuktikan hal-hal tentang pendekatan Anda. Ini cenderung berarti bahwa statistik telah ketinggalan dalam penggunaan komputer untuk mengotomatisasi analisis. Lagi, kurangnya pengetahuan pemrograman telah mencegah ahli statistik untuk bekerja pada masalah skala besar di mana masalah komputasi menjadi penting (pertimbangkan GPU dan sistem terdistribusi seperti hadoop). Saya percaya bahwa bidang-bidang seperti bioinformatika kini telah memindahkan statistik lebih banyak ke arah ini. Akhirnya saya akan mengatakan bahwa ahli statistik adalah kelompok yang lebih skeptis: mereka tidak mengklaim bahwa Anda menemukan pengetahuan dengan statistik - lebih tepatnya seorang ilmuwan muncul dengan hipotesis, dan pekerjaan ahli statistik adalah untuk memeriksa bahwa hipotesis didukung oleh data. Pembelajaran mesin diajarkan di departemen cs, yang sayangnya tidak mengajarkan matematika yang sesuai: kalkulus multivariabel, probabilitas, statistik, dan optimisasi bukanlah hal yang biasa ... seseorang memiliki konsep 'glamor' yang samar-samar seperti belajar dari contoh ...Elemen pembelajaran statistik halaman 30. Ini cenderung berarti bahwa ada sangat sedikit pemahaman teoretis dan ledakan algoritma karena peneliti selalu dapat menemukan beberapa dataset yang membuktikan algoritma mereka lebih baik. Jadi ada fase besar hype sebagai peneliti ML mengejar hal besar berikutnya: jaringan saraf, pembelajaran mendalam dll. Sayangnya ada lebih banyak uang di departemen CS (pikirkan google, Microsoft, bersama dengan 'pembelajaran' yang lebih berharga) sehingga ahli statistik yang lebih skeptis diabaikan. Akhirnya, ada bengkok empiris: pada dasarnya ada keyakinan yang mendasari bahwa jika Anda membuang data yang cukup pada algoritma itu akan 'mempelajari' prediksi yang benar. Sementara saya bias terhadap ML, ada wawasan mendasar dalam ML yang diabaikan ahli statistik: bahwa komputer dapat merevolusi penerapan statistik.

Ada dua cara - a) mengotomatiskan penerapan tes dan model standar. Misalnya menjalankan baterai model (regresi linier, hutan acak, dll. Mencoba berbagai kombinasi input, pengaturan parameter, dll). Ini belum benar-benar terjadi - walaupun saya curiga bahwa pesaing di kaggle mengembangkan teknik otomasi mereka sendiri. b) menerapkan model statistik standar untuk data yang sangat besar: pikirkan misalnya google translate, sistem merekomendasikan dll (tidak ada yang mengklaim bahwa misalnya orang menerjemahkan atau merekomendasikan seperti itu..tapi itu alat yang berguna). Model statistik yang mendasarinya sangat mudah tetapi ada masalah komputasi yang sangat besar dalam menerapkan metode ini hingga miliaran poin data.

Penambangan data adalah puncak dari filosofi ini ... mengembangkan cara otomatis untuk mengekstraksi pengetahuan dari data. Namun, ia memiliki pendekatan yang lebih praktis: pada dasarnya itu diterapkan pada data perilaku, di mana tidak ada teori ilmiah menyeluruh (pemasaran, deteksi penipuan, spam dll) dan tujuannya adalah untuk mengotomatiskan analisis volume data yang besar: tidak diragukan lagi Tim ahli statistik dapat menghasilkan analisis yang lebih baik dengan waktu yang cukup, tetapi lebih hemat biaya untuk menggunakan komputer. Lebih lanjut seperti yang dijelaskan oleh D. Hand, ini adalah analisis data sekunder - data yang dicatat tetap daripada data yang telah dikumpulkan secara eksplisit untuk menjawab pertanyaan ilmiah dalam desain eksperimental yang solid. Statistik penambangan data dan banyak lagi, D Hand

Jadi saya akan meringkas bahwa AI tradisional lebih didasarkan pada logika daripada statistik, pembelajaran mesin adalah statistik tanpa teori dan statistik adalah 'statistik tanpa komputer', dan data mining adalah pengembangan alat otomatis untuk analisis statistik dengan intervensi pengguna yang minimal.


Jawaban ini banyak mengoceh, sehingga sulit untuk diikuti dan tidak perlu panjang, tetapi itu benar-benar mengenai bahwa perbedaan lebih berkaitan dengan tradisi dan penekanan disiplin daripada yang lainnya.
Tripartio

1

Penambangan data adalah tentang menemukan pola tersembunyi atau pengetahuan yang tidak diketahui, yang dapat digunakan untuk pengambilan keputusan oleh orang-orang.

Pembelajaran mesin adalah tentang mempelajari model untuk mengklasifikasikan objek baru.


Apakah pembelajaran mesin hanya tentang klasifikasi? Tidak bisakah pembelajaran mesin digunakan untuk melayani tujuan lain?
gung

@ung Sama sekali tidak. Penguatan pembelajaran adalah, IMHO, sub-bidang paling mengkarakterisasi dari ML dan saya tidak akan mengatakan bahwa itu didasarkan pada klasifikasi tetapi pada pencapaian tujuan.
nbro

@nbro, komentar itu seharusnya menjadi petunjuk bagi OP untuk mempertimbangkan betapa sempitnya mereka mendefinisikan ML.
gung

0

Menurut pendapat saya, Kecerdasan Buatan dapat dianggap sebagai "superset" bidang seperti Pembelajaran Mesin, Penambangan Data, Pengenalan Pola, dll.

  • Statistik, adalah bidang matematika yang mencakup semua model matematika, teknik, dan teorema yang digunakan dalam AI.

  • Machine Learning adalah bidang AI yang mencakup semua algoritme yang menerapkan Model Statistik yang disebutkan di atas dan memahami data, yaitu, analitik prediktif seperti pengelompokan dan klasifikasi.

  • Penambangan Data adalah ilmu yang menggunakan semua teknik di atas (terutama pembelajaran mesin) untuk mengekstraksi pola yang berguna dan penting dari data. Penambangan Data biasanya berkaitan dengan penggalian informasi bermanfaat dari kumpulan data besar, yaitu, Big Data.


-1

Bagaimana dengan: mengajar mesin untuk belajar

Kenali pola yang berarti dalam data: penggalian data

Memprediksi hasil dari pola yang diketahui: ML

Temukan fitur baru untuk memetakan ulang data mentah: AI

Otak burung ini sangat membutuhkan definisi sederhana.


-1

Seringkali penambangan data mencoba untuk "memprediksi" beberapa data masa depan, atau "menjelaskan" mengapa sesuatu terjadi.

Statistik lebih digunakan untuk memvalidasi hipotesis di mata saya. Tapi ini adalah diskusi subjektif.

Satu perbedaan yang jelas antara ahli statistik dan penambang data dapat ditemukan dalam jenis statistik ringkasan yang mereka lihat.

Statistik sering membatasi diri pada R² dan akurasi, sedangkan penambang data akan melihat AUC, kurva ROC, kurva angkat, dll, dan mungkin juga khawatir dengan menggunakan kurva akurasi terkait biaya.

Paket data mining (misalnya open source Weka), telah membangun teknik untuk pemilihan input, mendukung klasifikasi mesin vektor, dll. Sementara ini sebagian besar hanya tidak ada dalam paket statistik seperti JMP. Saya baru-baru ini ketika kursus "penambangan data di jmp" dari orang-orang jmp, dan meskipun itu adalah paket yang kuat secara visual, beberapa teknik penambangan data penting pra / post / mid hanya hilang. Seleksi input dilakukan secara manual, untuk mendapatkan wawasan dalam data, masih dalam data mining, itu hanya niat Anda untuk merilis algoritma, cerdas, pada data besar dan secara otomatis melihat apa yang keluar. Kursus ini jelas diajarkan oleh orang-orang statistik, yang menekankan perbedaan pola pikir antara keduanya.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.