Kami telah mengukur dua variabel, dan scatterplot tampaknya menyarankan beberapa model "linear". Apakah ada cara untuk mencoba menyaring model-model itu? Mengidentifikasi variabel independen lain ternyata sulit.
Kedua variabel sangat condong ke kiri (menuju angka kecil), ini merupakan distribusi yang diharapkan dalam domain kami. Intensitas titik mewakili jumlah titik data (pada skala ) pada < x , y > ini .
Atau, apakah ada cara untuk mengelompokkan poin?
Di bidang kami, diklaim bahwa kedua variabel ini berkorelasi linier. Kami mencoba memahami / menjelaskan mengapa ini tidak terjadi di data kami.
(catatan, kami memiliki 17 juta titik data)
pembaruan: terima kasih atas semua jawaban, berikut adalah beberapa klarifikasi yang diminta:
- Kedua variabel hanya bilangan bulat, yang menjelaskan beberapa pola dalam log sebar.
- Untungnya, menurut definisi nilai minimal kedua variabel adalah 1.
- 7M poin berada pada ("dijelaskan" oleh kemiringan data yang kiri)
Berikut ini plot yang diminta:
log-log sebar:
(kekosongan disebabkan oleh nilai integer)
log-log polar:
Rasio histogram: