Apa itu pencampuran data?


15

Istilah ini sering muncul di utas terkait metode .

Apakah memadukan metode khusus dalam penambangan data dan pembelajaran statistik? Saya tidak bisa mendapatkan hasil yang relevan dari google.

Tampaknya pencampuran adalah mencampur hasil dari banyak model dan menghasilkan hasil yang lebih baik. Apakah ada sumber daya yang membantu saya mengetahui lebih banyak tentang hal itu?

Jawaban:


10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Beberapa makalah untuk membantu Anda lebih memahami apa itu blending. Saya pikir Anda juga dapat google untuk pemilihan / pembelajaran ensemble, dan menumpuk juga.

Pemahaman umum Anda tentang 'menggabungkan hasil dari banyak model dan menghasilkan hasil yang lebih baik' adalah benar.


Tautan itu juga diambil dari suatu tempat di forum kaggle. Saya hanya menyimpan tautan pdf tetapi tidak untuk diskusi ...
King

12

Meningkatkan (seperti yang disebutkan dalam diskusi terkait) adalah metode yang menggabungkan satu set algoritma untuk mendapatkan hasil yang lebih baik daripada apa yang bisa Anda dapatkan dari algoritma tunggal apa pun. Misalnya hutan acak adalah metode untuk menggabungkan berbagai pohon klasifikasi untuk algoritma klasifikasi. Pendekatan ini secara resmi disebut ansambel rata-rata (walaupun algoithm biasanya menggunakan aturan mayoritas). Memadukan tampaknya menjadi kata yang digunakan beberapa orang untuk menggambarkan pendekatan peningkatan klasifikasi.


Jadi bisakah ini disebut blending, jika saya mengganti pohon klasifikasi dalam model adaboost normal dengan set algoritma lainnya?
TomHall

Hai, Michael. Jawaban Anda sangat membantu tetapi, memalukan bagi saya, saya baru dalam statistik dan belum memiliki reputasi yang cukup untuk memilih jawaban Anda.
TomHall

1
Kalau begitu ingat untuk melakukannya setelah Anda mendapatkan beberapa poin rep.
Michael R. Chernick

0

Dalam pencampuran data industri bukan tentang model tetapi tentang preprocessing : Ini adalah saat data digabungkan yang berasal dari sumber yang berbeda, seperti satu dari database dan data lain dari file CSV.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.