Saya sedang mengerjakan beberapa perangkat lunak yang harus menentukan lokasi dunia nyata (kamera kecepatan) dari beberapa laporan berbasis GPS . Seorang pengguna akan mengemudi saat melaporkan lokasi, sehingga laporannya sangat tidak akurat. Untuk mengatasi masalah itu saya harus mengelompokkan laporan tentang lokasi yang sama dan menghitung rata-rata.
Pertanyaan saya adalah bagaimana mengelompokkan laporan-laporan itu . Saya membaca tentang algoritma Expectation-maximationation dan k-means clustering , tetapi seperti yang saya pahami, saya perlu menentukan jumlah lokasi nyata sebelumnya.
Apakah ada algoritma lain, yang tidak memerlukan jumlah persis lokasi nyata, tetapi sebaliknya menggunakan beberapa kondisi tepi (jarak minimal)?
Laporan berisi garis bujur , garis lintang , dan akurasi (dalam meter). Tidak ada nama atau apa pun yang dapat digunakan untuk mengidentifikasi duplikat.
Kendala lain bisa jadi itu akan menjadi umum, bahwa hanya ada satu laporan untuk lokasi dunia nyata. Itu membuatnya sulit untuk membedakan pencilan dari data yang baik.