Mungkin, ini adalah pertanyaan yang sangat mendasar tetapi saya sepertinya tidak dapat menemukan jawaban yang kuat untuk itu. Saya harap di sini, saya bisa.
Saat ini saya membaca makalah sebagai persiapan untuk tesis master saya sendiri. Saat ini, saya sedang membaca sebuah makalah yang meneliti hubungan antara tweet dan fitur pasar saham.
Dalam salah satu hipotesis mereka, mereka mengusulkan bahwa "peningkatan volume tweet dikaitkan dengan peningkatan volume perdagangan".
Saya akan mengharapkan mereka, dalam korelasi berpasangan, untuk berkorelasi tweetVolume
dengan tradingVolume
, tetapi mereka melaporkan menggunakan versi log: LN(tweetVolume)
dan LN(tradingVolume)
.
Untuk tesis saya, saya telah mereplikasi sedikit dari makalah ini. Saya telah mengumpulkan tweet tentang 100 perusahaan selama lebih dari 6 bulan ( tweetVolume
) dan volume perdagangan saham untuk jangka waktu yang sama. Jika saya mengkorelasikan variabel absolut, saya menemukan r=.282, p.000
tetapi ketika saya menggunakan verifikasi log, saya menemukan r=.488, p=.000
.
Saya tidak mengerti mengapa peneliti kadang-kadang menggunakan versi log variabel mereka dan mengapa korelasi tampak jauh lebih tinggi jika Anda melakukannya. Apa alasannya di sini, dan mengapa OK untuk menggunakan variabel yang dicatat?
Bantuan Anda sangat dihargai :-)