Distribusi panjang dari peristiwa waktu


10

Misalkan Anda memiliki log dari server web. Dalam log ini Anda memiliki tupel seperti ini:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Stempel waktu ini mewakili misalnya klik pengguna. Sekarang, user1akan mengunjungi situs beberapa kali (sesi) selama bulan itu, dan Anda akan memiliki ledakan klik dari setiap pengguna selama setiap sesi (seandainya ketika seorang pengguna mengunjungi situs Anda, ia akan mengklik beberapa halaman).

Misalkan Anda ingin mempartisi ledakan klik ini di sesi yang menghasilkannya, tetapi Anda tidak memiliki sumber informasi tambahan, hanya daftar cap waktu. Jika Anda menghitung distribusi interval antara dua klik konsekuen dari pengguna yang sama, Anda akan mendapatkan distribusi berekor panjang. Secara intuitif, Anda akan mencari "cut parameter", misalnya N detik, di mana jika timestamp_{i+1} - timestamp{i} > N, maka Anda timestamp_{i+1}adalah awal dari sesi baru.

Masalahnya adalah distribusi ini dalam kenyataannya adalah campuran dari dua variabel: X = "interval antara dua klik konsekuen dalam sesi yang sama" dan Y = "interval antara klik terakhir dari sesi sebelumnya dan yang pertama dari yang baru".

Pertanyaannya adalah, bagaimana memperkirakan N ini, yang membagi dua distribusi (dengan sedikit tumpang tindih, mungkin) hanya dengan melihat rentetan klik?


Ketika Anda mengatakan "hanya dengan melihat semburan klik", maksud Anda, Anda tidak dapat menghitung apa pun selain N?
jerad

Maksud saya, Anda tidak memiliki sumber informasi tambahan selain tupel (pengguna, stempel waktu). Metode berbasis ambang (berdasarkan delta> N) hanyalah sebuah contoh metode. Mungkin ada hal lain yang mungkin.
marcorossi

Utas ini mungkin menarik bagi Anda: data yang sesuai-teknik-untuk-temporal .
gung - Reinstate Monica

Jawaban:


2

Anda benar-benar harus memetakan logaritma interval antar-klik alih-alih nilai mentah; ini akan meratakan distribusi Anda dan bahkan mungkin mengungkapkan beberapa mode dalam distribusi Anda.

Pendekatan yang lebih maju telah dikembangkan oleh ahli saraf untuk memecahkan masalah yang sangat mirip dalam mengidentifikasi semburan paku neuron. Makalah klasik ini atau banyak makalah terkait lainnya di google scholar .


Saya memang mencetak loglog dari distribusi. Itu garis datar. Bagaimana itu membantu? Apa yang akan Anda lihat? Referensi untuk makalahnya bagus, terima kasih.
marcorossi

Bagaimana dengan hanya plot probabilitas log? yaitu mengambil log hanya frekuensi, bukan interval. Apakah itu mengungkapkan dua mode?
jerad
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.