Pertanyaan yang diberi tag «data-mining»

Penambangan data menggunakan metode dari kecerdasan buatan dalam konteks basis data untuk menemukan pola yang sebelumnya tidak diketahui. Karena itu, metode biasanya tidak diawasi. Ini terkait erat tetapi tidak identik dengan pembelajaran mesin. Tugas utama dari penambangan data adalah analisis klaster, deteksi outlier dan penambangan aturan asosiasi.


8
Lakukan pengelompokan K-means (atau kerabat dekatnya) dengan hanya matriks jarak, bukan data poin demi fitur
Saya ingin melakukan pengelompokan K-means pada objek yang saya miliki, tetapi objek tidak digambarkan sebagai titik dalam ruang, yaitu dengan objects x featuresdataset. Namun, saya dapat menghitung jarak antara dua objek (didasarkan pada fungsi kesamaan). Jadi, saya membuang matriks jarak objects x objects. Saya sudah mengimplementasikan K-means sebelumnya, tapi itu …

5
Cara baru penambangan data yang revolusioner?
Kutipan berikut berasal dari Schwager's Hedge Fund Market Wizzards (Mei 2012), sebuah wawancara dengan manajer dana lindung nilai yang sukses secara konsisten Jaffray Woodriff: Untuk pertanyaan: "Apa kesalahan terburuk yang dilakukan orang dalam penambangan data?": Banyak orang berpikir mereka baik-baik saja karena mereka menggunakan data dalam sampel untuk pelatihan dan …

3
Langkah pertama untuk data besar ( , )
Misalkan Anda menganalisis kumpulan data besar dengan jumlah milyaran pengamatan per hari, di mana setiap pengamatan memiliki beberapa ribu variabel yang mungkin jarang dan variabel numerik dan kategororial yang berlebihan. Katakanlah ada satu masalah regresi, satu masalah klasifikasi biner yang tidak seimbang, dan satu tugas "mencari tahu prediktor mana yang …

4
Apakah pohon keputusan hampir selalu pohon biner?
Hampir setiap contoh pohon keputusan yang saya temui kebetulan merupakan pohon biner. Apakah ini cukup universal? Apakah sebagian besar algoritma standar (C4.5, CART, dll.) Hanya mendukung pohon biner? Dari apa yang saya kumpulkan, CHAID tidak terbatas pada pohon biner, tapi itu sepertinya pengecualian. Perpecahan dua arah diikuti oleh perpecahan dua …

2
Validasi Silang (generalisasi kesalahan) setelah pemilihan model
Catatan: Kasing adalah n >> p Saya membaca Elemen Pembelajaran Statistik dan ada berbagai menyebutkan tentang cara "benar" untuk melakukan validasi silang (misalnya halaman 60, halaman 245). Secara khusus, pertanyaan saya adalah bagaimana mengevaluasi model akhir (tanpa set tes terpisah) menggunakan k-fold CV atau bootstrap ketika telah ada pencarian model? …

2
Jika k-means clustering adalah suatu bentuk pemodelan campuran Gaussian, dapatkah itu digunakan ketika data tidak normal?
Saya membaca Bishop pada algoritma EM untuk GMM dan hubungan antara GMM dan k-means. Dalam buku ini dikatakan bahwa k-means adalah versi GMM yang sulit. Saya bertanya-tanya apakah itu menyiratkan bahwa jika data yang saya coba kluster bukan Gaussian, saya tidak dapat menggunakan k-means (atau setidaknya itu tidak cocok untuk …



2
Fungsi "Ketertarikan" untuk pertanyaan StackExchange
Pertanyaan ini dimigrasikan dari Mathematics Stack Exchange karena dapat dijawab di Cross Validated. Bermigrasi 8 tahun yang lalu . Saya mencoba menyusun paket data mining untuk situs StackExchange dan khususnya, saya terjebak dalam mencoba menentukan pertanyaan "paling menarik". Saya ingin menggunakan skor pertanyaan, tetapi menghapus bias karena jumlah pandangan, tapi …

1
Pengawasan jauh: diawasi, semi-diawasi, atau keduanya?
"Pengawasan jauh" adalah skema pembelajaran di mana pengklasifikasi dipelajari dengan perangkat pelatihan yang berlabel lemah (data pelatihan diberi label secara otomatis berdasarkan heuristik / aturan). Saya pikir baik pembelajaran yang diawasi, dan pembelajaran semi-diawasi dapat mencakup "pengawasan yang jauh" jika data yang diberi label secara heuristik / secara otomatis diberi …

2
Boosting: mengapa laju pembelajaran disebut parameter regularisasi?
The tingkat belajar parameter ( ) di Gradient Meningkatkan menyusut kontribusi masing-masing model dasar baru -typically sebuah pohon yang dangkal yang ditambahkan dalam seri. Itu terbukti secara dramatis meningkatkan akurasi set tes, yang dapat dimengerti karena dengan langkah-langkah yang lebih kecil, minimum fungsi kerugian dapat dicapai lebih tepat. ν∈ [ …

3
Apa perbedaan praktis antara aturan asosiasi dan pohon keputusan dalam penambangan data?
Adakah deskripsi yang sangat sederhana tentang perbedaan praktis antara kedua teknik ini? Keduanya tampaknya digunakan untuk pembelajaran yang diawasi (meskipun aturan asosiasi juga dapat menangani tanpa pengawasan). Keduanya dapat digunakan untuk prediksi Deskripsi terdekat yang saya temukan dengan deskripsi 'baik' adalah dari Statsoft Textbook . Mereka mengatakan Aturan Asosiasi digunakan …

6
Programmer ingin masuk ke bidang pembelajaran mesin
Saya seorang pengembang perangkat lunak (kebanyakan. NET dan Python sekitar 5 tahun pengalaman). Apa yang bisa saya lakukan untuk membantu saya mendapatkan pekerjaan di bidang pembelajaran mesin atau benar-benar apa pun yang akan membuat saya memulai di bidang itu? Apakah gelar pascasarjana merupakan persyaratan yang sulit?

6
Apa perbedaan antara penambangan data dan analisis statistik?
Apa perbedaan antara penambangan data dan analisis statistik? Untuk beberapa latar belakang, pendidikan statistik saya, saya pikir, agak tradisional. Sebuah pertanyaan spesifik diajukan, penelitian dirancang, dan data dikumpulkan dan dianalisis untuk menawarkan beberapa wawasan tentang pertanyaan itu. Akibatnya, saya selalu skeptis dengan apa yang saya anggap "pengerukan data", yaitu mencari …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.