Saya punya pertanyaan tentang cluster yang saya rencanakan untuk diobati dengan pendekatan campuran nonparametrik (saya pikir). Saya sedang mengerjakan penjelasan tentang pelampiasan manusia.
Setiap baris basis data saya berisi:
- ID seseorang
- beberapa parameter lingkungan X (contoh: suhu, angin, dll.)
- variabel biner Y yang mewakili reaksi orang tersebut terhadap parameter (contoh: sakit atau tidak sakit karena cuaca).
Gagasan saya (berdasarkan intuisi dan bukan pada data) adalah bahwa kita dapat mengumpulkan orang dalam jumlah terbatas kelompok sehingga dalam suatu kelompok, orang-orang memiliki reaksi yang sama terhadap suhu (beberapa mudah sakit, yang lain tidak pernah sakit ...) . Dalam kelompok tertentu, lebih formal, hukum Y yang bergantung pada parameter X adalah sama.
Saya tidak tahu hukum Y bersyarat untuk X . Untuk parameter X , saya bisa melakukan beberapa hipotesis jika perlu.
Saya ingin membuat beberapa kelompok orang "memiliki lebih atau kurang" reaksi yang sama terhadap parameter. Selain itu, saya ingin memprediksi reaksi orang tertentu terhadap nilai parameter yang diberikan (bahkan jika peristiwa ini tidak pernah terjadi dalam database).
Sepertinya saya bahwa kita dapat memperlakukan masalah seperti model campuran nonparametrik. Karena saya tidak memiliki hipotesis tentang hukum kondisional Y , saya pikir saya harus membuatnya dengan metode kernel misalnya. Saya telah menemukan makalah ini . Selain itu, menurut saya, dalam hal ini, setiap baris pengamatanbukan realisasi sederhana dari beberapa variabel acak, tetapi adalah realisasi dari variabel acak, dan adalah realisasi dari variabel acak bersyarat ke . Saya tidak tahu apakah itu membuat perbedaan.
Saya memiliki sekitar 100000 baris. Vektor memiliki beberapa komponen diskrit, dan lainnya kontinu. Saya bertanya-tanya:
- Apakah pendekatan saya benar?
- Apakah Anda menyarankan sudut pandang lain untuk masalah ini?
Saya akan sangat tertarik pada referensi tentang itu.
Jangan ragu untuk meminta saya merumuskan kembali pernyataan masalah.