Perlu perangkat data GPS Trajektori Benchmark?


13

Saya mencari kumpulan data GPS patokan, tersedia untuk tujuan penelitian gratis. Saya telah menemukan dataset GeoLife GPS Trajectories dari Microsoft Research tapi saya merasa sedikit tidak lengkap.

Yang saya butuhkan adalah data aktivitas GPS seseorang, seperti dalam tupel (lintang, bujur, tanggal), dilacak setidaknya selama beberapa bulan, lebih disukai terus menerus. Saya juga ingin rekamannya tidak jarang; paling banyak 1 menit antara setiap catatan.

Saya akan sangat menghargai jika Anda bisa mengarahkan saya ke set data yang dapat diandalkan.


2
Apakah dataset ini harus dari manusia? (Cara Anda mengutarakan semuanya sejauh ini menyiratkan ya, tapi saya tidak berpikir itu telah dinyatakan secara eksplisit.)
Dan S.

Jawaban:


17

Saya pikir peluang terbaik Anda adalah melacak diri sendiri. Jika gagasan itu mengganggu Anda, itulah alasan mengapa Anda tidak akan menemukan data publik di mana pun.



4

Saya tidak akan menahan nafas. Data pada ketelitian seperti itu akan menjadi usaha besar dan memiliki implikasi privasi yang besar (bahkan jika hanya selama 30 hari untuk satu individu yang akan mencakup 43.200 titik data (jika direkam setiap menit), dan tidak diragukan lagi akan mengidentifikasi lokasi rumah yang ada).

Jika Anda tertarik pada pertanyaan substantif bahwa data tersebut akan menampung saran ini tidak akan membantu. Tetapi jika Anda hanya tertarik pada beberapa jenis strategi analitik untuk menangani data sebesar itu, Anda harus dapat mensimulasikan data pada skala itu untuk melayani apa pun tujuan Anda. Untuk mensimulasikan data saya sarankan Anda melihat pada program statistik R, dan spatstat dan paket perjalanan pada khususnya (serta semua modul spasial dalam R).

Saya akan skeptis bahkan data pelacakan hewan akan memenuhi persyaratan Anda untuk poin data dalam interval sesingkat itu. Saya dapat membuat daftar beberapa artikel yang saya baca yang menggunakan data ponsel untuk memperkirakan pola aktivitas manusia, tetapi tidak ada yang saya baca akan mendekati waktu yang lama atau mengukur aktivitas individu yang sering.


4

Salah satu pilihan adalah menyusun kontrak dan mempekerjakan banyak orang. Beri mereka unit GPS yang dikonfigurasikan untuk mengambil bacaan menyediakan data yang Anda butuhkan, cukup baterai untuk kontrak, dan instruksi (tancapkan dengan kabel ini untuk mengunggah malam, kirimi saya file ini melalui email, dll.)

Anda pasti harus menulis dalam kontrak bagaimana Anda akan membatasi distribusi data dan menganonimkannya untuk melindunginya (mungkin memberikan radius setengah mil kasar pengecualian di sekitar titik-titik yang ditunjukkan orang itu bersifat pribadi), dan Anda mungkin bahkan pertimbangkan membeli asuransi terhadap kerugian. Jika jejak-jejak aktivitas orang-orang diketahui publik, mereka akan diisi dengan informasi seperti, "Saya berangkat kerja setiap pagi jam 7:00 dan pulang ke rumah setiap malam pukul 19:00", dan satu plot akan terlihat seperti tanda bintang raksasa yang dipusatkan di rumah mereka mengatakan "merampok tempat ini antara 8: 00-18: 00." Anda dapat melihat mengapa Anda harus khawatir tentang privasi dan keamanan.

Jika Anda memikirkannya, Anda meminta beberapa data yang sangat mahal. Dan tanpa set statistik yang cukup besar, itu akan menjadi nilai yang meragukan. Pikirkan betapa berbedanya jejak antara pekerja konstruksi (perjalanan berulang baru setelah setiap bangunan selesai), pengangkut pos (rute yang sangat berulang dan sangat serpentin), seorang pekerja kantor (rute langsung yang sebagian besar berulang-ulang), dan truk derek driver (rute baru terus menerus.) Status sosial ekonomi mungkin berdampak pada jejak: pendapatan yang lebih rendah mungkin mengikuti jalur angkutan umum lebih banyak dan perjalanan lebih sedikit. Orang tua dari anak usia sekolah mungkin memiliki jarak tempuh pulang pergi kerja rata-rata yang lebih tinggi. Belum lagi pria yang mengendarai mobil Google Street View.

Tidak satu pun dari jejak-jejak itu yang cenderung memotong yang lain dengan cara yang berarti.

Jumlah gaya unik cenderung terbatas, tetapi sangat tinggi sehingga membutuhkan anggaran yang signifikan untuk diperoleh. Dan itu hanya ada di satu kota.

Anda mungkin dapat memperoleh kumpulan data yang lebih kecil (lebih murah) jika Anda menetapkan tujuan dengan lebih baik. Jika Anda mencoba untuk menghitung berbagai jenis pola, mungkin Anda mencicipi beragam orang di berbagai kota. Jika Anda mencoba mencari tahu siapa yang akan mendapat manfaat dari angkutan massal, atau di mana harus meletakkan koridor kereta komuter, Anda mungkin lebih baik menghitung mobil di berbagai jalan raya di sekitar area yang Anda rencanakan untuk melayani dan melakukan survei.


2

Saya juga mencari tipe dataset yang tepat yang Anda cari. Sayangnya, sejauh ini saya belum menemukannya. Terlepas dari data GeoLife, sumber lain yang saya temukan adalah CRAWDAD . Situs ini memiliki log GPS dari taksi San Francisco dan juga pejalan kaki New York. Sayangnya, untuk pejalan kaki NYC mereka hanya menyediakan koordinat relatif daripada lat / lon.


2

Ada banyak topik penelitian di mana data yang diperlukan untuk menjawab pertanyaan tidak tersedia karena alasan moral, dan eksperimen yang melampaui batas ini dapat menyebabkan pembatasan di masa mendatang, seperti halnya dengan percobaan Milgram . Baru-baru ini, AOL harus menarik sejumlah pertanyaan pencarian karena masalah privasi, dan satu-satunya dataset yang dapat diandalkan yang kami miliki tentang kebiasaan email berasal dari percobaan Enron .

Jadi, meskipun secara teknis sepenuhnya mungkin untuk mendapatkan set data lintasan seperti itu, itu mungkin tidak pernah praktis karena implikasi privasi. Seperti jawaban lain yang disebutkan, kumpulan data relatif, agregasi atas individu, atau simulasi mungkin merupakan pendekatan yang lebih baik untuk menjawab pertanyaan Anda, sambil menghindari masalah privasi.



2

Buka penawaran proyek PFLOW :

buka dataset untuk gerakan massa orang biasa di daerah perkotaan

Area metropolitan Tokyo tersedia dan area metropolitan Chukyo tampaknya sedang dalam persiapan.

Detail dapat ditemukan dalam publikasi terbaru:

Takehiro Kashiyama, Yanbo Pang, Yoshihide Sekimoto, Open PFLOW: Pembuatan dan evaluasi dataset terbuka untuk pergerakan massa masyarakat pada umumnya di daerah perkotaan, Penelitian Transportasi Bagian C: Emerging Technologies (2017) Volume 85, Halaman 249–267.


Dataset lintasan T-Drive adalah temuan terbaru. Ini menyediakan:

lintasan satu minggu dari 10.357 taksi. Jumlah total poin dalam dataset ini adalah sekitar 15 juta dan jarak total lintasan mencapai 9 juta kilometer.


Meskipun bukan tentang pergerakan manusia, perusahaan Liquid Robotics menyediakan dataset menarik dari tantangan PacX -nya . Data tentang lokasi dan pembacaan sensor lingkungan dari empat robot peluncur yang berlayar melalui Samudra Pasifik tersedia untuk diunduh . Info lebih lanjut tentang proyek (sangat keren) di blog , via WIRED dan pembicaraan ini .


Opsi lain untuk mengatasi masalah privasi adalah menggunakan data pelacakan hewan. Saya kira perlindungan data tidak akan terlalu menjadi masalah di sini. Sebagai keuntungan, Anda mungkin masih dapat menguji perangkat lunak / metode Anda dengan data pergerakan dunia nyata. Kerugiannya mungkin bahwa jika aplikasi Anda membutuhkan gerakan 'spesifik manusia' - mereka mungkin tidak sesuai dengan tujuan Anda.

Silahkan lihat pada Movebank atau Dryad situs untuk memeriksa apakah beberapa data mereka mungkin masuk ke dalam proyek Anda.


Adapun data yang iphone, disebutkan oleh Matthew , Anda bisa lihat di crowdflow dan openpaths proyek. Mungkin ada cara obtaing somedata melalui mereka? Perbarui: kedua tautan tampaknya sudah mati sekarang.


Namun pilihan lain adalah bagian spasial dari data taksi NYC Chris Whong . Mereka hanya menyediakan lokasi penjemputan dan pengantaran, namun volume (11 GB!) Dan info kontekstual (tarif, penumpang, dll.) Membuatnya sangat menarik ( unduhan alternatif , lebih banyak info tentang masalah privasi yang ditimbulkan oleh data).


Posting Urška Demšar di makalahnya baru-baru ini tentang 'Analisis Mobilitas Manusia dari Data Gerakan Sukarela dan Informasi Kontekstual' menjanjikan:

Juga akan ada satu set data gratis lintasan GPS sukarela yang terhubung dengan makalah ini segera tersedia. Tetap disini.

( info lebih lanjut )

Pembaruan: makalah menyebutkan bahwa data akan tersedia pada CRAWDAD yang disebutkan oleh @ejel tetapi saya belum menemukannya di sana.


Opsi lain mungkin membuat sendiri dataset sintetis . Jika Anda memerlukan inspirasi lihat makalah baru-baru ini oleh van Dijk J (2018) Mengidentifikasi poin perjalanan aktivitas dari GPS-data dengan beberapa jendela yang bergerak Komputer, Lingkungan dan Sistem Urban ( tautan ). Rincian lebih lanjut disediakan dalam lampiran dan kode kertas dan contoh dataset tersedia di github .


1

Ekspedisi Tahina (Google Earth Blog) http://www.tahinaexpedition.com/map telah berlayar hampir sepanjang tahun lalu.

KML dapat diproses http://maps.google.com/maps/ms?source=embed&hl=id&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [adalah trek gps yang sekarang dikonversi ke kml]


@Mapperez - Terima kasih Mapperez, tapi yang saya butuhkan agak berbeda. Saya ingin mencatat titik GPS hari demi hari dari seseorang di darat. Seseorang dengan rutinitas harian (agak rutin) - seperti bangun, pergi bekerja, menghabiskan waktu di sana, berbelanja, pulang ke rumah, ulangi.
Murat

1

Orang-orang memberikan data itu ke Google secara gratis sepanjang waktu. Ini disebut Latitude. Mungkin mereka akan membagikannya dengan murah hati karena pengguna mereka telah membagikannya kepada mereka.


1
Saya tentu berharap mereka tidak akan melakukannya. Saya cukup yakin mereka tidak akan diizinkan untuk merilis data apa pun pada tingkat yang diperlukan oleh aplikasi @ Murat.
underdark
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.