Silakan lihat komentar saya di atas dan ini adalah jawaban saya sesuai dengan apa yang saya mengerti dari pertanyaan Anda:
Seperti yang Anda katakan dengan benar, Anda tidak perlu Clustering tetapi Segmentasi . Memang Anda mencari Poin Perubahan dalam seri waktu Anda. Jawabannya sangat tergantung pada kompleksitas data Anda. Jika data sesederhana contoh di atas, Anda dapat menggunakan perbedaan vektor yang melampaui overshoot di titik-titik perubahan dan menetapkan ambang batas mendeteksi titik-titik seperti di bawah ini:
Seperti yang Anda lihat misalnya ambang 20 (yaitudx < - 20 dan dx > 20) akan mendeteksi poin. Tentu saja untuk data nyata Anda perlu menyelidiki lebih banyak untuk menemukan ambangnya.
Pra-pemrosesan
Harap dicatat bahwa ada trade-off antara lokasi akurat dari titik perubahan dan jumlah segmen yang akurat yaitu jika Anda menggunakan data asli Anda akan menemukan titik perubahan yang tepat tetapi seluruh metode adalah untuk sensitif terhadap kebisingan tetapi jika Anda memperlancar sinyal Anda terlebih dahulu Anda mungkin tidak menemukan perubahan yang tepat tetapi efek kebisingan akan jauh lebih sedikit seperti yang ditunjukkan pada gambar di bawah:
Kesimpulan
Saran saya adalah untuk memperlancar sinyal Anda terlebih dahulu dan pergi untuk mthod pengelompokan sederhana (misalnya menggunakan GMM ) untuk menemukan estimasi akurat dari jumlah segmen dalam sinyal. Dengan informasi ini, Anda dapat mulai menemukan titik perubahan yang dibatasi oleh jumlah segmen yang Anda temukan dari bagian sebelumnya.
Saya harap semuanya membantu :)
Semoga berhasil!
MEMPERBARUI
Untungnya data Anda cukup mudah dan bersih. Saya sangat merekomendasikan algoritma pengurangan dimensionalitas (misalnya PCA sederhana ). Saya kira itu mengungkapkan struktur internal cluster Anda. Setelah Anda menerapkan PCA ke data, Anda dapat menggunakan k-means jauh lebih mudah dan lebih akurat.
Solusi Serius (!)
Menurut data Anda, saya melihat distribusi generatif dari berbagai segmen berbeda yang merupakan peluang besar bagi Anda untuk mensegmentasi deret waktu Anda. Lihat ini (asli , arsip , sumber lain ) yang mungkin merupakan solusi terbaik dan paling canggih untuk masalah Anda. Gagasan utama di balik makalah ini adalah bahwa jika segmen yang berbeda dari rangkaian waktu dihasilkan oleh distribusi dasar yang berbeda, Anda dapat menemukan distribusi itu, menetapkan tham sebagai kebenaran dasar untuk pendekatan pengelompokan Anda dan menemukan cluster.
Sebagai contoh, asumsikan sebuah video panjang di mana 10 menit pertama seseorang bersepeda, dalam 10 menit kedua ia berjalan dan pada ketiga ia duduk. Anda dapat mengelompokkan tiga segmen (aktivitas) yang berbeda ini menggunakan pendekatan ini.