Baru-baru ini saya telah melakukan beberapa analisis tentang efek reputasi pada upvote (lihat posting blog ), dan kemudian saya punya beberapa pertanyaan tentang analisis dan grafik yang mungkin lebih mencerahkan (atau lebih tepat).
Jadi beberapa pertanyaan (dan jangan ragu untuk menanggapi siapa pun khususnya dan mengabaikan yang lain):
Dalam inkarnasi saat ini, saya tidak bermaksud memusatkan nomor pos. Saya pikir apa yang dilakukannya adalah memberikan tampilan yang salah dari korelasi negatif di sebar, karena ada lebih banyak posting ke ujung bawah jumlah posting (Anda lihat ini tidak terjadi di panel Jon Skeet, hanya di pengguna fana panel). Apakah pantas untuk tidak memusatkan nomor pos (karena maksud saya memusatkan skor per skor rata-rata pengguna)?
Harus jelas dari grafik bahwa skor miring sangat benar (dan rata-rata pemusatan tidak mengubah itu). Ketika memasang garis regresi, saya cocok dengan model linier dan model yang menggunakan kesalahan pasir Huber-White (melalui
rlm
paket MASS R ) dan tidak ada perbedaan dalam perkiraan kemiringan. Haruskah saya mempertimbangkan transformasi pada data alih-alih regresi yang kuat? Perhatikan bahwa setiap transformasi harus memperhitungkan kemungkinan skor 0 dan negatif. Atau haruskah saya menggunakan jenis model lain untuk menghitung data, bukan OLS?Saya percaya dua grafik terakhir, secara umum, dapat ditingkatkan (dan terkait dengan strategi pemodelan yang ditingkatkan juga). Menurut pendapat saya (letih), saya akan curiga jika efek reputasi itu nyata mereka akan terwujud cukup awal dalam sejarah poster (saya kira jika benar, ini mungkin dipertimbangkan kembali "Anda memberikan beberapa jawaban yang sangat baik sehingga sekarang saya akan mengambil alih semua dari Anda memposting efek "bukannya" reputasi berdasarkan skor total "). Bagaimana saya bisa membuat grafik untuk menunjukkan apakah ini benar, sambil memperhitungkan plot yang berlebihan? Saya pikir mungkin cara yang baik untuk menunjukkan ini adalah agar sesuai dengan model formulir;
di mana adalah (sama dengan di scatterplots saat ini), X 1 adalah , dan Z 1 ⋯ Z k adalah variabel dummy yang mewakili beberapa rentang nomor posting yang sewenang-wenang (misalnya Z 1 sama dengan jika nomor posting adalah , Z 2 sama dengan jika nomor posting adalah dll.) β 0 dan ϵ masing-masing adalah istilah intercept dan error. Maka saya hanya akan memeriksa perkiraan γscore - (mean score per user)
post number
1
1 through 25
1
26 through 50
lereng untuk menentukan apakah efek reputasi muncul sejak awal dalam sejarah poster (atau menampilkannya secara grafis). Apakah ini pendekatan yang masuk akal (dan tepat)?
Tampaknya populer untuk mencocokkan beberapa jenis garis pemulusan non-parametrik ke plot pencar seperti ini (seperti loess atau splines), tetapi eksperimen saya dengan splines tidak mengungkapkan apa pun yang mencerahkan (bukti efek postive awal sejarah poster sedikit dan tempermental) ke jumlah splines saya sertakan). Karena saya memiliki hipotesis bahwa efeknya terjadi sejak awal, apakah pendekatan pemodelan saya di atas lebih masuk akal daripada splines?
Juga perhatikan meskipun saya sudah cukup banyak mengeruk semua data ini, masih ada banyak komunitas lain di luar sana untuk diperiksa (dan beberapa seperti superuser dan serverfault memiliki sampel yang sama besar untuk menarik dari), sehingga banyak masuk akal untuk menyarankan di masa depan analisis yang saya gunakan sampel tahan untuk memeriksa hubungan apa pun.