Perbedaan antara klasifikasi dan pengelompokan dalam penambangan data? [Tutup]


195

Adakah yang bisa menjelaskan perbedaan antara klasifikasi dan pengelompokan dalam penambangan data?

Jika Anda bisa, tolong berikan contoh keduanya untuk memahami ide utama.

Jawaban:


242

Secara umum, dalam klasifikasi Anda memiliki satu set kelas yang telah ditentukan dan ingin tahu kelas mana yang dimiliki objek baru.

Clustering mencoba mengelompokkan satu set objek dan menemukan apakah ada beberapa hubungan antara objek.

Dalam konteks pembelajaran mesin, klasifikasi adalah pembelajaran terawasi dan pengelompokan adalah pembelajaran tanpa pengawasan .

Lihat juga Klasifikasi dan Klaster di Wikipedia.


3
Terima kasih atas balasannya Jadi seperti yang saya mengerti. Dalam klasifikasi saya punya contoh dan saya mengelompokkan contoh-contoh ini ke dalam satu atau lain kelas. Tetapi dalam pengelompokan saya memiliki contoh tetapi tidak memiliki kelas di mana untuk mengelompokkan contoh. Jadi, dalam pengelompokan berdasarkan contoh saya perlu mencari klausa? Apakah saya benar atau ada sesuatu yang penting untuk diingat? Dan permohonan dapat Anda berikan contoh? Salam, Kristaps
Kristaps

4
@ Kristaps: Saya pikir Anda benar sejauh ini. Tetapi Anda tidak perlu menemukan kelas dengan pengelompokan. Lebih dari itu Anda ingin melihat apakah beberapa set item membentuk semacam hubungan (dengan menjadi lebih dekat bersama dalam beberapa model). Anda biasanya tidak menemukan kelas (jika Anda berpikir bahwa Anda menggunakan pengelompokan untuk menemukan kelas untuk klasifikasi). Bukan itu masalahnya. Sebagai gantinya, Anda memiliki satu set pelatihan di awal yang terdiri dari item yang diberi label (jadi Anda tahu kelas mana mereka berasal). Anda kemudian melatih algoritma klasifikasi untuk menetapkan item ke kelas yang tepat dan Anda memverifikasi
Felix Kling

4
kebenaran (yang dapat Anda lakukan, karena data diberi label). Contoh klasifikasi harian adalah penyaringan spam. Filter spam harus memutuskan apakah suatu email adalah spam atau bukan. Anda juga dapat memberi tahu filter jika email telah diklasifikasikan secara salah. Untuk pengelompokan, saya tidak benar-benar tahu contoh. Tetapi Anda bisa mis. Mengambil 1000 pesan Twitter, mencoba mengelompokkan dan kemudian memeriksa hubungan apa (dan jika) yang diungkapkan oleh kluster.
Felix Kling

Saya pikir Klasifikasi dan Klaster adalah metode Klasifikasi , apakah itu benar?
WoooHaaaa

@MRROY Jika menurut Klasifikasi maksud Anda: "mengatur (sekelompok orang atau benda) dalam kelas atau kategori sesuai dengan kualitas atau karakteristik bersama." lalu ya.
bitek

76

Silakan baca informasi berikut:

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini


Clustering tidak perlu mengetahui jumlah kelas.
D1X

5
@ D1X Benar. Itulah yang dikatakan jawaban ini .. (jumlah kelas yang tidak diketahui)
Sayali Sonawane

57

Jika Anda telah mengajukan pertanyaan ini kepada orang-orang yang melakukan penambangan data atau pembelajaran mesin, mereka akan menggunakan istilah pembelajaran terawasi dan pembelajaran tanpa pengawasan untuk menjelaskan kepada Anda perbedaan antara pengelompokan dan klasifikasi. Jadi, izinkan saya terlebih dahulu menjelaskan kepada Anda tentang kata kunci diawasi dan tidak diawasi.

Pembelajaran terawasi: terawasi misalkan Anda memiliki keranjang dan diisi dengan beberapa buah segar dan tugas Anda adalah mengatur jenis buah yang sama di satu tempat. misalkan buahnya adalah apel, pisang, ceri, dan anggur. jadi Anda sudah tahu dari pekerjaan Anda sebelumnya bahwa, bentuk masing-masing dan setiap buah sehingga mudah untuk mengatur jenis buah yang sama di satu tempat. di sini pekerjaan Anda sebelumnya disebut sebagai data terlatih dalam penambangan data. jadi Anda sudah belajar hal-hal dari data terlatih Anda, Ini karena Anda memiliki variabel respon yang mengatakan bahwa jika beberapa buah memiliki fitur maka anggur, seperti itu untuk setiap buah.

Jenis data ini akan Anda dapatkan dari data yang dilatih. Jenis pembelajaran ini disebut pembelajaran terawasi. Jenis pemecahan masalah ini berada di bawah Klasifikasi. Jadi Anda sudah mempelajari berbagai hal sehingga Anda dapat melakukan pekerjaan dengan percaya diri.

tanpa pengawasan: misalkan Anda memiliki keranjang dan diisi dengan beberapa buah segar dan tugas Anda adalah mengatur jenis buah yang sama di satu tempat.

Kali ini Anda tidak tahu apa-apa tentang buah-buahan itu, Anda pertama kali melihat buah-buahan ini jadi bagaimana Anda akan mengatur jenis buah yang sama.

Apa yang akan Anda lakukan pertama adalah mengambil buah dan Anda akan memilih karakter fisik dari buah tertentu. misalkan Anda mengambil warna.

Kemudian Anda akan mengaturnya berdasarkan warna, maka kelompok akan ada beberapa hal seperti ini. KELOMPOK WARNA MERAH: apel & buah ceri. KELOMPOK WARNA HIJAU: pisang & anggur. jadi sekarang kamu akan mengambil karakter fisik lain sebagai ukuran, jadi sekarang grup akan menjadi sesuatu seperti ini. WARNA MERAH DAN UKURAN BESAR: apel. WARNA MERAH DAN UKURAN KECIL: buah ceri. WARNA HIJAU DAN UKURAN BESAR: pisang. WARNA HIJAU DAN UKURAN KECIL : anggur. pekerjaan yang dilakukan happy ending.

di sini Anda tidak belajar apa pun sebelumnya, berarti tidak ada data kereta dan tidak ada variabel respons. Jenis pembelajaran ini dikenal sebagai pembelajaran tanpa pengawasan. clustering berada di bawah pembelajaran tanpa pengawasan.


18

+ Klasifikasi: Anda diberi beberapa data baru, Anda harus menetapkan label baru untuknya.

Sebagai contoh, sebuah perusahaan ingin mengklasifikasikan pelanggan prospektif mereka. Ketika pelanggan baru datang, mereka harus menentukan apakah ini adalah pelanggan yang akan membeli produk mereka atau tidak.

+ Clustering: Anda diberikan serangkaian transaksi riwayat yang mencatat siapa yang membeli apa.

Dengan menggunakan teknik pengelompokan, Anda dapat memberi tahu segmentasi pelanggan Anda.


3
Saya berpendapat bahwa "Ketika pelanggan baru datang, mereka harus menentukan apakah ini adalah pelanggan yang akan membeli produk mereka atau tidak." adalah kandidat yang lebih baik untuk regresi logistik. Contoh klasifikasi adalah untuk memprediksi apakah pelanggan akan membeli model "premium", "standar" atau "ekonomi". Contoh maskapai: pelatih, pelatih dengan boarding awal, pelatih dengan ruang kaki ekstra.
GDB

16

Saya yakin beberapa dari Anda telah mendengar tentang pembelajaran mesin. Selusin dari Anda bahkan mungkin tahu apa itu. Dan beberapa dari Anda mungkin telah bekerja dengan algoritma pembelajaran mesin juga. Anda lihat kemana ini? Tidak banyak orang yang akrab dengan teknologi yang akan sangat penting 5 tahun dari sekarang. Siri adalah pembelajaran mesin. Amazon Alexa adalah pembelajaran mesin. Sistem rekomendasi dan item belanja adalah pembelajaran mesin. Mari kita coba memahami pembelajaran mesin dengan analogi sederhana anak lelaki berusia 2 tahun. Hanya untuk bersenang-senang, sebut saja Kylo Ren

Sumber: blog.printkeg.com

Mari kita asumsikan Kylo Ren melihat seekor gajah. Apa yang akan dikatakan otaknya kepadanya? (Ingat, ia memiliki kapasitas berpikir minimum, meskipun ia adalah penerus Vader). Otaknya akan memberitahunya bahwa dia melihat makhluk besar bergerak yang berwarna abu-abu. Dia melihat kucing berikutnya, dan otaknya memberi tahu dia bahwa itu adalah makhluk bergerak kecil yang berwarna emas. Akhirnya, dia melihat saber cahaya di sebelahnya dan otaknya memberitahunya bahwa itu adalah benda mati yang bisa dia mainkan!

Otaknya pada saat ini tahu bahwa pedang berbeda dari gajah dan kucing, karena pedang adalah sesuatu untuk dimainkan dan tidak bergerak sendiri. Otaknya bisa memikirkan hal ini walaupun Kylo tidak tahu apa artinya bergerak. Fenomena sederhana ini disebut Clustering.

Sumber: jeffcarpenterblog.tumblr.com

Pembelajaran mesin tidak lain adalah versi matematika dari proses ini. Banyak orang yang mempelajari statistik menyadari bahwa mereka dapat membuat beberapa persamaan bekerja dengan cara yang sama seperti kerja otak. Otak dapat mengelompokkan benda-benda yang serupa, otak dapat belajar dari kesalahan dan otak dapat belajar mengidentifikasi berbagai hal.

Semua ini dapat direpresentasikan dengan statistik, dan simulasi berbasis komputer dari proses ini disebut Machine Learning. Mengapa kita memerlukan simulasi berbasis komputer? karena komputer dapat melakukan matematika berat lebih cepat daripada otak manusia. Saya akan senang masuk ke bagian matematika / statistik dari pembelajaran mesin tetapi Anda tidak ingin melompat ke dalamnya tanpa membersihkan beberapa konsep terlebih dahulu.

Mari kita kembali ke Kylo Ren. Katakanlah Kylo mengambil pedang dan mulai bermain dengannya. Dia tidak sengaja menabrak stormtrooper dan stormtrooper terluka. Dia tidak mengerti apa yang sedang terjadi dan terus bermain. Selanjutnya dia menabrak kucing dan kucing itu terluka. Kali ini Kylo yakin dia telah melakukan sesuatu yang buruk, dan mencoba untuk agak berhati-hati. Tetapi mengingat kemampuan pedang yang buruk, ia memukul gajah dan benar-benar yakin bahwa ia dalam kesulitan. Dia menjadi sangat berhati-hati setelah itu, dan hanya memukul ayahnya dengan sengaja seperti yang kita lihat di Force Awakens !!

Sumber: joyreactor.com

Seluruh proses belajar dari kesalahan Anda dapat ditiru dengan persamaan, di mana perasaan melakukan sesuatu yang salah diwakili oleh kesalahan atau biaya. Proses mengidentifikasi apa yang tidak harus dilakukan dengan pedang disebut Klasifikasi. Clustering dan Klasifikasi adalah dasar mutlak pembelajaran mesin. Mari kita lihat perbedaan di antara mereka.

Kylo membedakan antara binatang dan pedang cahaya karena otaknya memutuskan bahwa pedang cahaya tidak dapat bergerak sendiri dan oleh karena itu, berbeda. Keputusan itu semata-mata didasarkan pada objek yang ada (data) dan tidak ada bantuan atau saran eksternal yang diberikan. Berbeda dengan ini, Kylo membedakan pentingnya berhati-hati dengan pedang cahaya dengan terlebih dahulu mengamati apa yang bisa dilakukan oleh benda. Keputusan itu tidak sepenuhnya didasarkan pada pedang, tetapi pada apa yang bisa dilakukan untuk objek yang berbeda. Singkatnya, ada bantuan di sini.

Sumber: pintrest

Karena perbedaan dalam pembelajaran ini, Clustering disebut metode belajar tanpa pengawasan dan Klasifikasi disebut metode pembelajaran terawasi. Mereka sangat berbeda dalam dunia pembelajaran mesin, dan seringkali ditentukan oleh jenis data yang ada. Mendapatkan data berlabel (atau hal-hal yang membantu kita belajar, seperti stormtrooper, gajah dan kucing dalam kasus Kylo) seringkali tidak mudah dan menjadi sangat rumit ketika data yang akan dibedakan adalah besar. Di sisi lain, belajar tanpa label dapat memiliki kelemahannya sendiri, seperti tidak mengetahui apa judul labelnya. Jika Kylo belajar untuk berhati-hati dengan pedang tanpa contoh atau bantuan, dia tidak akan tahu apa yang akan dilakukannya. Dia hanya akan tahu bahwa itu tidak seharusnya dilakukan. Ini semacam analogi timpang tetapi Anda mengerti maksudnya!

Kami baru memulai dengan Machine Learning. Klasifikasi itu sendiri dapat berupa klasifikasi angka kontinu atau klasifikasi label. Misalnya, jika Kylo harus mengklasifikasikan berapa tinggi masing-masing stormtrooper, akan ada banyak jawaban karena ketinggiannya bisa 5.0, 5.01, 5.011, dll. Tapi klasifikasi sederhana seperti jenis pedang cahaya (merah, biru. Hijau) akan memiliki jawaban yang sangat terbatas. Bahkan mereka dapat diwakili dengan angka sederhana. Merah bisa 0, Biru bisa 1 dan Hijau bisa 2.

Jika Anda tahu matematika dasar, Anda tahu bahwa 0,1,2 dan 5,1,5,01,011 berbeda dan masing-masing disebut bilangan diskrit dan kontinu. Klasifikasi bilangan diskrit disebut Regresi Logistik, dan klasifikasi bilangan kontinu disebut Regresi. Regresi Logistik juga dikenal sebagai klasifikasi kategori, jadi jangan bingung ketika Anda membaca istilah ini di tempat lain

Ini adalah pengantar yang sangat mendasar untuk Pembelajaran Mesin. Saya akan tinggal di sisi statistik di posting saya berikutnya. Tolong beri tahu saya jika saya perlu koreksi :)

Bagian kedua diposting di sini . masukkan deskripsi gambar di sini


2
Hai Amit, mengapa Anda tidak menambahkan posting blog Anda ke jawabannya alih-alih hanya sebuah tautan. Tautan hanya jawaban yang disukai karena situs turun dan dengan itu jawabannya.
Matematika

3
Terima kasih. Saya akan melakukannya :)
Amit Juneja

2
"Klasifikasi angka diskrit disebut Regresi Logistik" adalah penyederhanaan besar-besaran; LR hanyalah salah satu dari banyak teknik yang mungkin yang dapat digunakan untuk klasifikasi (yang lain berbasis pohon (RF, GBT / XGB), berbasis NN, dll. "Klasifikasi bilangan kontinu disebut Regresi" adalah kontradiksi sederhana; Anda berarti "prediksi angka terus-menerus" .
smci

7

Saya pendatang baru untuk Penambangan Data, tetapi seperti yang dikatakan dalam buku teks saya, CLASSICIATION seharusnya merupakan pembelajaran yang diawasi, dan CLUSTERING pembelajaran yang tidak diawasi. Perbedaan antara pembelajaran terawasi dan pembelajaran tanpa pengawasan dapat ditemukan di sini .


6

Klasifikasi

Apakah tugas kelas yang telah ditentukan untuk pengamatan baru , berdasarkan pembelajaran dari contoh.

Ini adalah salah satu tugas utama dalam pembelajaran mesin.

Clustering (atau Analisis Cluster)

Walaupun populer diberhentikan sebagai "klasifikasi tanpa pengawasan", ini sangat berbeda.

Berbeda dengan apa yang akan diajarkan oleh banyak pelajar mesin, ini bukan tentang menugaskan "kelas" ke objek, tetapi tanpa menentukannya. Ini adalah pandangan yang sangat terbatas tentang orang-orang yang melakukan terlalu banyak klasifikasi; contoh khas jika Anda memiliki palu (classifier), semuanya tampak seperti paku (masalah klasifikasi) bagi Anda . Tapi itu juga mengapa klasifikasi orang tidak memahami pengelompokan.

Sebaliknya, anggap itu sebagai penemuan struktur . Tugas pengelompokan adalah untuk menemukan struktur (misalnya grup) dalam data Anda yang tidak Anda ketahui sebelumnya . Clustering telah berhasil jika Anda mempelajari sesuatu yang baru. Gagal, jika Anda hanya mendapatkan struktur yang sudah Anda ketahui.

Analisis klaster adalah tugas utama dari penambangan data (dan itik buruk rupa dalam pembelajaran mesin, jadi jangan dengarkan pelajar mesin yang menolak pengelompokan).

"Pembelajaran tanpa pengawasan" agaknya adalah Oxymoron

Ini telah mengulangi atas dan ke bawah literatur, tapi belajar tanpa pengawasan adalah b llsh t. Itu tidak ada, tetapi itu adalah sebuah oxymoron seperti "kecerdasan militer".

Entah algoritma belajar dari contoh (maka itu adalah "supervised learning"), atau tidak belajar. Jika semua metode pengelompokan adalah "belajar", maka menghitung minimum, maksimum, dan rata-rata dari suatu kumpulan data adalah "pembelajaran tanpa pengawasan" juga. Kemudian perhitungan apa pun "mempelajari" hasilnya. Jadi istilah 'belajar tanpa pengawasan' sama sekali tidak berarti , itu berarti segalanya dan tidak ada apa-apa.

Namun, beberapa algoritma "pembelajaran tanpa pengawasan" termasuk dalam kategori optimisasi . Misalnya k-means adalah optimasi kuadrat-terkecil. Metode seperti itu semuanya statistik, jadi saya tidak berpikir kita perlu memberi label "pembelajaran tanpa pengawasan", tetapi harus terus menyebutnya "masalah optimasi". Ini lebih tepat, dan lebih bermakna. Ada banyak algoritma pengelompokan yang tidak melibatkan optimisasi, dan yang tidak cocok dengan paradigma pembelajaran mesin dengan baik. Jadi berhentilah meremas mereka di sana di bawah payung "pembelajaran tanpa pengawasan".

Ada beberapa "pembelajaran" yang terkait dengan pengelompokan, tetapi bukan program yang belajar. Pengguna yang seharusnya mempelajari hal-hal baru tentang kumpulan datanya.


Jawaban ini membuat saya sadar bahwa saya adalah orang klasifikasi. Itu sangat membantu saya.
Kta

Setiap algoritma pengelompokan mengasumsikan model meta umum. Btw, hal yang sama berlaku untuk pembelajaran yang diawasi, misalnya jaringan saraf (NN). Dalam kedua cased (diawasi dan tidak diawasi), kami mengoptimalkan parameter model meta umum agar sesuai dengan data sesuai dengan fungsi biaya (kadang-kadang tersembunyi). (Bagian ini disebut "belajar".) Ini berlaku untuk pengelompokan dan klasifikasi. Dalam kedua kasus kami mempelajari model tertentu (berdasarkan asumsi model meta umum) melalui dioptimalkan sesuai dengan data yang disajikan. Dengan menggunakan model pengelompokan yang dioptimalkan spesifik kami dapat mengelompokkan data menjadi kelompok-kelompok.
Make42

TL; DR: Anda benar bahwa pengelompokan bukanlah "klasifikasi tanpa pengawasan", tetapi pembelajaran yang diawasi bukan merupakan oxymoron - pembelajaran sedang terjadi !
Make42

Di mana "pembelajaran" di DBSCAN, misalnya?
Memiliki QUIT - Anony-Mousse

4

Dengan pengelompokan, Anda dapat mengelompokkan data dengan properti yang Anda inginkan seperti nomor, bentuk, dan properti lain dari cluster yang diekstraksi. Sementara, dalam klasifikasi, jumlah dan bentuk kelompok adalah tetap. Sebagian besar algoritma clustering memberikan jumlah cluster sebagai parameter. Namun, ada beberapa pendekatan untuk mengetahui jumlah cluster yang sesuai.


4

Pertama-tama, seperti yang dinyatakan oleh banyak jawaban di sini: klasifikasi adalah pembelajaran terbimbing dan pengelompokan tidak diawasi. Ini berarti:

  1. Klasifikasi membutuhkan data berlabel sehingga pengklasifikasi dapat dilatih tentang data ini, dan setelah itu mulailah mengklasifikasikan data baru yang tidak terlihat berdasarkan apa yang ia ketahui. Pembelajaran tanpa pengawasan seperti pengelompokan tidak menggunakan data berlabel, dan apa yang sebenarnya dilakukannya adalah menemukan struktur intrinsik dalam data seperti kelompok.

  2. Perbedaan lain antara kedua teknik (terkait dengan yang sebelumnya), adalah fakta bahwa klasifikasi adalah bentuk masalah regresi diskrit di mana output adalah variabel dependen kategoris. Sedangkan output clustering menghasilkan seperangkat himpunan bagian yang disebut kelompok. Cara untuk mengevaluasi kedua model ini juga berbeda karena alasan yang sama: dalam klasifikasi Anda sering harus memeriksa ketepatan dan daya ingat, hal-hal seperti overfitting dan underfitting, dll. Hal-hal itu akan memberi tahu Anda seberapa baik modelnya. Tetapi dalam pengelompokan Anda biasanya memerlukan visi dan ahli untuk menafsirkan apa yang Anda temukan, karena Anda tidak tahu jenis struktur apa yang Anda miliki (jenis kelompok atau kelompok). Itu sebabnya pengelompokan milik analisis data eksplorasi.

  3. Akhirnya, saya akan mengatakan bahwa aplikasi adalah perbedaan utama antara keduanya. Klasifikasi seperti kata kata, digunakan untuk membedakan contoh-contoh yang dimiliki kelas atau lainnya, misalnya pria atau wanita, kucing atau anjing, dll. Clustering sering digunakan dalam diagnosis penyakit medis, penemuan pola, dll.


3

Klasifikasi : Memprediksi hasil dalam output diskrit => memetakan variabel input ke dalam kategori diskrit

masukkan deskripsi gambar di sini

Kasus penggunaan populer:

  1. Klasifikasi email: Spam atau non-Spam

  2. Pinjaman sanksi untuk pelanggan: Ya jika ia mampu membayar EMI untuk jumlah pinjaman yang terkena sanksi. Tidak, jika dia tidak bisa

  3. Identifikasi sel-sel tumor kanker: Apakah kritis atau tidak kritis?

  4. Analisis sentimen tweet: Apakah tweet positif atau negatif atau netral

  5. Klasifikasi berita: Klasifikasi berita menjadi salah satu kelas yang telah ditentukan sebelumnya - Politik, Olahraga, Kesehatan, dll

Clustering : adalah tugas pengelompokan satu set objek sedemikian rupa sehingga objek dalam grup yang sama (disebut cluster) lebih mirip (dalam beberapa hal) satu sama lain daripada pada kelompok lain (cluster)

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

Kasus penggunaan populer:

  1. Pemasaran: Temukan segmen pelanggan untuk tujuan pemasaran

  2. Biologi: Klasifikasi antara berbagai spesies tanaman dan hewan

  3. Perpustakaan: Mengelompokkan berbagai buku berdasarkan topik dan informasi

  4. Asuransi: Mengakui pelanggan, kebijakan mereka dan mengidentifikasi penipuan

  5. Perencanaan Kota: Buat kelompok rumah dan untuk mempelajari nilai-nilai mereka berdasarkan lokasi geografis mereka dan faktor lainnya.

  6. Studi gempa: Mengidentifikasi zona berbahaya

  7. Sistem rekomendasi :

Referensi:

geeksforgeeks

pemegang data

3leafnodes


2

Klasifikasi - Memprediksi label kelas kategorikal - Mengklasifikasikan data (membangun model) berdasarkan pada set pelatihan dan nilai-nilai (label kelas) dalam atribut label kelas - Menggunakan model dalam mengklasifikasikan data baru

Cluster: kumpulan objek data - Mirip satu sama lain di dalam cluster yang sama - Berbeda dengan objek di cluster lain


2

Clustering bertujuan menemukan kelompok dalam data. "Cluster" adalah konsep intuitif dan tidak memiliki definisi matematis yang ketat. Anggota satu klaster harus serupa satu sama lain dan berbeda dengan anggota kluster lainnya. Algoritma pengelompokan beroperasi pada kumpulan data yang tidak berlabel Z dan menghasilkan partisi di atasnya.

Untuk Kelas dan Label Kelas, kelas berisi objek yang sama, sedangkan objek dari kelas yang berbeda berbeda. Beberapa kelas memiliki makna yang jelas, dan dalam kasus paling sederhana adalah saling eksklusif. Misalnya, dalam verifikasi tanda tangan, tanda tangan itu asli atau palsu. Kelas sebenarnya adalah salah satu dari dua, tidak peduli bahwa kita mungkin tidak dapat menebak dengan benar dari pengamatan tanda tangan tertentu.


2

Clustering adalah metode pengelompokan objek sedemikian rupa sehingga objek-objek dengan fitur yang sama datang bersama-sama, dan objek dengan fitur yang berbeda terpisah. Ini adalah teknik umum untuk analisis data statistik yang digunakan dalam pembelajaran mesin dan penambangan data.

Klasifikasi adalah proses kategorisasi di mana objek dikenali, dibedakan dan dipahami berdasarkan set data pelatihan. Klasifikasi adalah teknik pembelajaran yang diawasi di mana pelatihan ditetapkan dan pengamatan yang ditetapkan dengan benar tersedia.


2

Dari buku Mahout in Action, dan saya pikir itu menjelaskan perbedaannya dengan sangat baik:

Algoritma klasifikasi terkait, tetapi masih sangat berbeda dari, algoritma clustering seperti algoritma k-means.

Algoritma klasifikasi adalah suatu bentuk pembelajaran terawasi, sebagai lawan dari pembelajaran tanpa pengawasan, yang terjadi dengan algoritma pengelompokan.

Algoritma pembelajaran terawasi adalah salah satu yang diberikan contoh yang berisi nilai yang diinginkan dari variabel target. Algoritma yang tidak diawasi tidak diberi jawaban yang diinginkan, tetapi sebaliknya harus menemukan sesuatu yang masuk akal sendiri.


2

Satu liner untuk Klasifikasi:

Klasifikasi data ke dalam kategori yang telah ditentukan

Satu liner untuk Clustering:

Mengelompokkan data ke dalam satu set kategori

Perbedaan utama:

Klasifikasi mengambil data dan memasukkannya ke dalam kategori yang telah ditentukan sebelumnya dan dalam Mengelompokkan set kategori, yang Anda inginkan untuk mengelompokkan data, tidak diketahui sebelumnya.

Kesimpulan:

  • Klasifikasi memberikan kategori ke 1 item baru, berdasarkan item yang sudah diberi label sementara Clustering mengambil banyak item yang tidak berlabel dan membaginya ke dalam kategori
  • Dalam Klasifikasi, kategori \ grup yang akan dibagi diketahui sebelumnya sedangkan di Clustering, kategori \ grup yang akan dibagi tidak diketahui sebelumnya
  • Dalam Klasifikasi, ada 2 fase - fase pelatihan dan kemudian fase uji sementara di Clustering, hanya ada 1 fase - membagi data pelatihan dalam kelompok
  • Klasifikasi adalah Pembelajaran Terawasi sedangkan Clustering adalah Pembelajaran Tanpa Pengawasan

Saya telah menulis posting panjang tentang topik yang sama yang dapat Anda temukan di sini:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/


1

Jika Anda mencoba untuk mengajukan sejumlah besar lembar ke rak Anda (berdasarkan tanggal atau spesifikasi file lainnya), Anda KLASIFIKASI.

Jika Anda membuat cluster dari set sheet, itu berarti ada sesuatu yang serupa di antara sheet.


1

Ada dua definisi dalam penambangan data "Supervised" dan "Unsupervised". Ketika seseorang memberi tahu komputer, algoritma, kode, ... bahwa benda ini seperti apel dan benda itu seperti jeruk, ini adalah pembelajaran terbimbing dan menggunakan pembelajaran terbimbing (seperti tag untuk setiap sampel dalam kumpulan data) untuk mengklasifikasikan data, Anda akan mendapatkan klasifikasi. Tetapi di sisi lain jika Anda membiarkan komputer mencari tahu apa itu dan membedakan antara fitur set data yang diberikan, sebenarnya belajar tanpa pengawasan, untuk mengklasifikasikan set data ini akan disebut clustering. Dalam hal ini data yang diumpankan ke algoritma tidak memiliki tag dan algoritma harus mencari tahu kelas yang berbeda.


1

Machine Learning atau AI sebagian besar dipersepsikan oleh tugas yang dilakukan / dicapainya.

Menurut pendapat saya, dengan memikirkan tentang Clustering dan Klasifikasi dalam pengertian tugas yang mereka capai dapat benar-benar membantu memahami perbedaan antara keduanya.

Clustering adalah untuk mengelompokkan hal-hal dan Klasifikasi adalah untuk, jenis, label hal.

Mari kita asumsikan Anda berada di aula pesta di mana semua pria dalam Setelan dan wanita di Gaun.

Sekarang, Anda mengajukan beberapa pertanyaan kepada teman Anda:

T1: Heyy, bisakah Anda membantu saya mengelompokkan orang?

Kemungkinan jawaban yang bisa diberikan teman Anda adalah:

1: Ia dapat mengelompokkan orang berdasarkan Jenis Kelamin, Pria atau Wanita

2: Dia dapat mengelompokkan orang berdasarkan pakaian mereka, 1 memakai jas lain dengan mengenakan gaun

3: Dia dapat mengelompokkan orang berdasarkan warna rambut mereka

4: Dia dapat mengelompokkan orang berdasarkan kelompok umur mereka, dll. Dll.

Ada banyak cara teman Anda dapat menyelesaikan tugas ini.

Tentu saja, Anda dapat memengaruhi proses pengambilan keputusannya dengan memberikan input tambahan seperti:

Dapatkah Anda membantu saya mengelompokkan orang-orang ini berdasarkan jenis kelamin (atau kelompok umur, atau warna rambut atau pakaian, dll.)

Q2:

Sebelum Q2, Anda perlu melakukan beberapa pra-kerja.

Anda harus mengajar atau memberi tahu teman Anda sehingga ia dapat mengambil keputusan yang tepat. Jadi, katakanlah Anda berkata kepada teman Anda bahwa:

  • Orang dengan rambut panjang adalah wanita.

  • Orang dengan rambut pendek adalah Pria.

Q2. Sekarang, Anda tunjukkan pada Seseorang dengan rambut panjang dan tanyakan teman Anda - Apakah itu Pria atau Wanita?

Satu-satunya jawaban yang dapat Anda harapkan adalah: Wanita.

Tentu saja, mungkin ada pria berambut panjang dan wanita berambut pendek di pesta itu. Tapi, jawabannya benar berdasarkan pembelajaran yang Anda berikan kepada teman Anda. Anda selanjutnya dapat meningkatkan proses dengan mengajar lebih banyak kepada teman Anda tentang cara membedakan keduanya.

Dalam contoh di atas,

Q1 mewakili tugas yang dicapai Clustering.

Di Clustering Anda memberikan data (orang) ke algoritma (teman Anda) dan meminta untuk mengelompokkan data.

Sekarang, tergantung pada algoritma untuk memutuskan apa cara terbaik untuk grup? (Jenis kelamin, Warna atau kelompok umur).

Sekali lagi, Anda pasti dapat memengaruhi keputusan yang dibuat oleh algoritma dengan memberikan input tambahan.

Q2 mewakili tugas yang dicapai Klasifikasi.

Di sana, Anda memberikan algoritma Anda (teman Anda) beberapa data (Orang), disebut sebagai data Pelatihan, dan membuatnya belajar data mana yang sesuai dengan label mana (Pria atau Wanita). Kemudian Anda mengarahkan algoritme Anda ke data tertentu, yang disebut sebagai Data uji, dan memintanya untuk menentukan apakah itu Pria atau Wanita. Semakin baik pengajaran Anda, semakin baik prediksi itu.

Dan Pra-kerja di Q2 atau Klasifikasi tidak lain hanyalah melatih model Anda sehingga dapat belajar cara membedakan. Dalam Clustering atau Q1 pra-kerja ini adalah bagian dari pengelompokan.

Semoga ini bisa membantu seseorang.

Terima kasih


1

masukkan deskripsi gambar di sini

Klasifikasi - Kumpulan data dapat memiliki kelompok / kelas yang berbeda. merah, hijau dan hitam. Klasifikasi akan mencoba menemukan aturan yang membaginya dalam kelas yang berbeda.

Pengelompokan- jika kumpulan data tidak memiliki kelas dan Anda ingin menempatkan mereka di beberapa kelas / pengelompokan, Anda melakukan pengelompokan. Lingkaran ungu di atas.

Jika aturan klasifikasi tidak baik, Anda akan memiliki kesalahan klasifikasi dalam pengujian atau aturan Anda tidak cukup benar.
jika pengelompokan tidak baik, Anda akan memiliki banyak outlier yaitu. titik data tidak dapat jatuh di cluster mana pun.


1

Perbedaan Utama Antara Klasifikasi dan Klaster adalah: Klasifikasi adalah proses mengklasifikasikan data dengan bantuan label kelas. Di sisi lain, Clustering mirip dengan klasifikasi tetapi tidak ada label kelas yang telah ditentukan. Klasifikasi diarahkan untuk pembelajaran yang diawasi. Sebaliknya, pengelompokan juga dikenal sebagai pembelajaran tanpa pengawasan. Sampel pelatihan disediakan dalam metode klasifikasi sedangkan dalam kasus pengelompokan data pelatihan tidak disediakan.

Semoga ini bisa membantu!


-1

Saya percaya klasifikasi adalah mengklasifikasikan catatan dalam kumpulan data ke dalam kelas yang telah ditentukan atau bahkan mendefinisikan kelas saat bepergian. Saya melihatnya sebagai prasyarat untuk setiap penggalian data yang berharga, saya suka memikirkannya pada pembelajaran tanpa pengawasan yaitu seseorang tidak tahu apa yang dia cari saat menambang data dan klasifikasi berfungsi sebagai titik awal yang baik

Pengelompokan di ujung yang lain berada di bawah pembelajaran yang diawasi yaitu orang tahu parameter apa yang harus dicari, korelasi di antara mereka bersama dengan tingkat kritis. Saya percaya ini membutuhkan pemahaman tentang statistik dan matematika


3
Sebenarnya sebaliknya. Klasifikasi biasanya diawasi dan clustering biasanya tidak diawasi.
AlexK
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.