Model dan cluster campuran nonparametrik

Saya punya pertanyaan tentang cluster yang saya rencanakan untuk diobati dengan pendekatan campuran nonparametrik (saya pikir). Saya sedang mengerjakan penjelasan tentang pelampiasan manusia.
Setiap baris basis data saya berisi:

ID seseorang
beberapa parameter lingkungan X (contoh: suhu, angin, dll.)
variabel biner Y yang mewakili reaksi orang tersebut terhadap parameter (contoh: sakit atau tidak sakit karena cuaca).

Gagasan saya (berdasarkan intuisi dan bukan pada data) adalah bahwa kita dapat mengumpulkan orang dalam jumlah terbatas kelompok sehingga dalam suatu kelompok, orang-orang memiliki reaksi yang sama terhadap suhu (beberapa mudah sakit, yang lain tidak pernah sakit ...) . Dalam kelompok tertentu, lebih formal, hukum Y yang bergantung pada parameter X adalah sama.

Saya tidak tahu hukum Y bersyarat untuk X . Untuk parameter X , saya bisa melakukan beberapa hipotesis jika perlu.

Saya ingin membuat beberapa kelompok orang "memiliki lebih atau kurang" reaksi yang sama terhadap parameter. Selain itu, saya ingin memprediksi reaksi orang tertentu terhadap nilai parameter yang diberikan (bahkan jika peristiwa ini tidak pernah terjadi dalam database).

Sepertinya saya bahwa kita dapat memperlakukan masalah seperti model campuran nonparametrik. Karena saya tidak memiliki hipotesis tentang hukum kondisional Y , saya pikir saya harus membuatnya dengan metode kernel misalnya. Saya telah menemukan makalah ini . Selain itu, menurut saya, dalam hal ini, setiap baris pengamatan $(X_i, Y_i)$ bukan realisasi sederhana dari beberapa variabel acak, tetapi adalah realisasi dari variabel acak, dan adalah realisasi dari variabel acak bersyarat ke . Saya tidak tahu apakah itu membuat perbedaan. $X_i$ $Y_i$ $X_i$

Saya memiliki sekitar 100000 baris. Vektor memiliki beberapa komponen diskrit, dan lainnya kontinu. Saya bertanya-tanya: $X_i$

Apakah pendekatan saya benar?
Apakah Anda menyarankan sudut pandang lain untuk masalah ini?

Saya akan sangat tertarik pada referensi tentang itu.
Jangan ragu untuk meminta saya merumuskan kembali pernyataan masalah.

— Walden
sumber

Karena Anda telah memberi label pada data, itu hanyalah masalah klasifikasi terawasi dan apa yang Anda butuhkan adalah penggolong biner. Pengklasifikasi mana yang bekerja "terbaik" adalah masalah selera pribadi dan masalah khusus. Tentunya, saya akan mencoba dulu beberapa opsi standar (SVM, decision tree dll.) Sebelum mencoba sesuatu yang lebih eksotis.

— iliasfl

Kecuali Anda tertarik pada struktur set, komentar @ iliasfl benar-benar valid: teknik pembelajaran classifier akan berjalan baik. Jika tidak, Anda harus menggunakan pembelajaran tanpa pengawasan. Sebelum mencoba model nonparametrik, Anda dapat mencoba algoritma EM yang lebih sederhana untuk memisahkan campuran Gaussian, atau hanya pengelompokan k-means, jika Anda dapat memperkirakan jumlah cluster. Kemudian, Anda dapat menggunakan hasilnya untuk klasifikasi, atau kembali mengklasifikasikan data mentah.

— Roman Shapovalov

Menjawab pertanyaan Anda, "Apakah Anda menyarankan sudut pandang lain untuk masalah ini?", Saya sarankan agar Anda benar-benar melihat data Anda. Ini dapat membantu Anda merencanakan langkah selanjutnya yang lebih baik. Lagi pula, sistem mata-otak manusia cukup baik dalam pengenalan pola dan Anda mungkin dapat memutuskan dengan lebih baik jumlah cluster, jika Anda memilih untuk pengelompokan tanpa pengawasan.

Oleh karena itu, dan karena data Anda tampaknya berdimensi "tinggi", Anda dapat mencoba melakukan Analisis Komponen Utama (PCA) karena ini adalah analisis yang sangat cepat, terutama untuk kumpulan data Anda yang berisi 100 ribu poin. PCA, bagaimanapun, bukan satu-satunya dan belum tentu pendekatan yang paling tepat untuk pengurangan dimensi dengan tujuan visualisasi (2D / 3D) karena merupakan metode linear parametrik. Data Anda mungkin berperilaku nonlinier. Saya dapat menyarankan kotak pengurangan dimensi untuk Matlab dari Laurens van der Maaten yang mencakup banyak teknik yang berbeda. Namun, beberapa teknik di dalamnya secara inheren lambat, jadi Anda mungkin ingin mengujinya pada data subsampled. Teknik reduksi dimensi nonparametrik dan nonlinear yang sangat baru dan kuat adalah BH-SNEyang juga bisa digunakan untuk ukuran dataset Anda, meskipun bisa memakan waktu sekitar 30 menit hingga 1 jam tergantung pada perangkat keras Anda yang tersedia. Karena Anda tertarik pada pendeteksian cluster, BH-SNE mungkin merupakan pilihan yang baik karena (dan "pendahulunya" t-SNE) telah menunjukkan kinerja yang mengesankan dalam hal ini pada berbagai set data (sa manuskrip).

Akhirnya, membahas poin Anda pada data kontinu / diskrit, ini adalah sesuatu di mana saya belum memiliki pengalaman bagaimana ini mempengaruhi pengurangan dimensi. Karenanya, Anda mungkin ingin mencoba mendiskritisasi variabel kontinu atau mengabaikan variabel diskrit (sedikit?), Jika memungkinkan. Atau, Anda mungkin ingin mengambil variabel biner (reaksi orang) untuk memberi kode warna pada titik-titik dalam visualisasi dimensi rendah (2D / 3D).

PS Melakukan pengelompokan hierarkis (analisis tautan) dan melihat dendrogram yang dihasilkan adalah cara lain untuk membuat representasi data Anda yang berdimensi rendah yang dapat membantu Anda memperkirakan dengan lebih baik jika ada kluster dan berpotensi juga berapa banyak kluster yang ada.

— Bayangan
sumber