Saya mencari beberapa terminologi yang bagus untuk menggambarkan apa yang saya coba lakukan, untuk membuatnya lebih mudah untuk mencari sumber daya.
Jadi, katakan saya memiliki dua kelompok titik A dan B, masing-masing terkait dengan dua nilai, X dan Y, dan saya ingin mengukur "jarak" antara A dan B - yaitu seberapa besar kemungkinan mereka diambil sampelnya dari distribusi yang sama (Saya dapat berasumsi bahwa distribusinya normal). Misalnya, jika X dan Y berkorelasi dalam A tetapi tidak dalam B, distribusinya berbeda.
Secara intuitif, saya akan mendapatkan matriks kovarians dari A, dan kemudian melihat seberapa besar kemungkinan setiap titik dalam B cocok di sana, dan sebaliknya (mungkin menggunakan jarak seperti Mahalanobis).
Tapi itu agak "ad-hoc", dan mungkin ada cara yang lebih ketat untuk menggambarkan ini (tentu saja, dalam praktiknya saya memiliki lebih dari dua dataset dengan lebih dari dua variabel - Saya mencoba mengidentifikasi yang mana dari dataset saya adalah outlier).
Terima kasih!