Saya memiliki beberapa data yang saya mainkan; untuk kesederhanaan, anggaplah data tersebut berisi informasi tentang jumlah posting yang telah ditulis blogger vs. jumlah orang yang telah berlangganan blog orang tersebut (ini hanya contoh buatan).
Saya ingin mendapatkan model kasar hubungan antara # posting vs # pelanggan, dan ketika melihat plot log-log, saya melihat yang berikut:
Ini terlihat seperti hubungan linier kasar (pada skala log-log), dan dengan cepat memeriksa residu tampaknya setuju (tidak ada pola yang jelas, tidak ada penyimpangan yang terlihat dari distribusi normal):
Jadi pertanyaan saya adalah: apakah boleh menggunakan model linier ini? Saya tahu secara samar bahwa ada masalah menggunakan regresi linier pada plot log-log untuk memperkirakan distribusi hukum daya, tetapi data saya bukan distribusi probabilitas hukum daya (itu hanya sesuatu yang tampaknya secara kasar mengikutimodel; khususnya, tidak ada yang perlu dijumlahkan menjadi 1), jadi saya tidak yakin apakah kritik yang sama berlaku. (Mungkin saya terlalu mengoreksi pada penyebutan "log-log" dan "regresi linier" dalam kalimat yang sama ...) Juga, semua yang saya benar-benar coba lakukan adalah untuk:
- Lihat apakah ada pola pada blog dengan residu positif vs blog dengan residu negatif
- Sarankan beberapa model kasar tentang bagaimana pelanggan terkait dengan jumlah posting.