Bagaimana cara mendiskusikan sebar dengan banyak garis yang muncul?

11

Kami telah mengukur dua variabel, dan scatterplot tampaknya menyarankan beberapa model "linear". Apakah ada cara untuk mencoba menyaring model-model itu? Mengidentifikasi variabel independen lain ternyata sulit.

Scatterplot dari dua variabel

Kedua variabel sangat condong ke kiri (menuju angka kecil), ini merupakan distribusi yang diharapkan dalam domain kami. Intensitas titik mewakili jumlah titik data (pada skala ) pada . $\log_{10}$ $<x,y>$

Atau, apakah ada cara untuk mengelompokkan poin?

Di bidang kami, diklaim bahwa kedua variabel ini berkorelasi linier. Kami mencoba memahami / menjelaskan mengapa ini tidak terjadi di data kami.

(catatan, kami memiliki 17 juta titik data)

pembaruan: terima kasih atas semua jawaban, berikut adalah beberapa klarifikasi yang diminta:

Kedua variabel hanya bilangan bulat, yang menjelaskan beberapa pola dalam log sebar.
Untungnya, menurut definisi nilai minimal kedua variabel adalah 1.
7M poin berada pada ("dijelaskan" oleh kemiringan data yang kiri) $<3,1>$

Berikut ini plot yang diminta:

log-log sebar: Scatterplot di log log

(kekosongan disebabkan oleh nilai integer)

log-log polar: koordinat kutub $\theta = y$

Rasio histogram:

$1/3$

linear-model scatterplot

— Davy Landman
sumber

2

(r, θ)

$(r,\theta)$

X

$X$

Y

$Y$

θ

$\theta$

θ

$\theta$

Apakah ada rasio yang terlibat dalam memperoleh Y dan X? Apakah variabel yang hanya mengambil nilai diskrit terlibat? Bagaimana tampilannya sebagai plot log-log?

— Glen_b -Reinstate Monica

1

@whuber & Glen_b Saya telah menambahkan plot dengan transformasi tersebut.

— Davy Landman

r

$r$

θ

$\theta$

θ

$\theta$

θ

$\theta$

@whuber Saya sudah memperbarui plot, meletakkan theta pada y, apakah ini garis yang Anda maksud?

— Davy Landman

7

$Y$ $X$ $Y/X$

$X/k$ $kX$ $k$

$Y = 0$ $\log(Y + \text{constant})$

Titik terminologi: kemiringan statistik dijelaskan dengan mengacu pada ekor yang lebih terentang. Anda bebas menganggap terminologi ini sebagai mundur. Di sini kedua variabel condong ke nilai tinggi atau positif atau kanan miring.

$Y = 1$ $Y = 0$

Seperti sebelumnya, saya tidak akan menyarankan memodelkan garis yang berbeda secara berbeda tanpa alasan ilmiah untuk membedakannya atau memperlakukannya secara terpisah. Anda harus meratakan apa yang Anda miliki. (Mungkin ada metode yang diketahui dengan data semacam ini untuk menekan kelonggaran. Jika orang-orang di bidang Anda secara rutin mengukur jutaan titik untuk setiap plot, sulit untuk percaya bahwa ini belum terlihat sebelumnya.)

Korelasi tentu harus positif. Terlepas dari uji signifikansi formal, yang di sini akan sama sekali tidak berguna karena korelasi menit akan memenuhi syarat sebagai signifikan dengan ukuran sampel ini, apakah itu dinyatakan kuat adalah masalah harapan dan standar di bidang Anda. Membandingkan korelasi Anda secara kuantitatif dengan hasil orang lain adalah cara yang tepat.

Detail: Kemiringan masih digambarkan dengan cara yang salah menurut konvensi statistik. Variabel-variabel ini miring kanan; jargon yang cocok ketika melihat histogram dengan sumbu magnitudo horizontal dan mencatat bahwa kemiringan dinamai ekor yang lebih panjang, bukan konsentrasi dengan nilai lebih.

— Nick Cox
sumber

Saya telah menambahkan plot log-log, dan mencoba untuk lebih tepatnya tentang kemiringan.

— Davy Landman

4

\begin{aligned} Y_{i} & = α_{1} + β_{1} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_1 + \beta_1X_i + \epsilon_i \end{align}$

m^{t h}

$m^{th}$

\begin{aligned} Y_{i} & = α_{m} + β_{m} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_m + \beta_mX_i + \epsilon_i \end{align}$

M

$M$

m^{t h}

$m^{th}$

p_{m}

$p_m$

\sum_{m} p_{m} = 1

$\sum_m p_m =1$

$\epsilon$ $N(0,\sigma^2)$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} p_{m} \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M p_m\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

ϕ

$\phi$

3 M + 1

$3M+1$

\sum_{m} p_{m} = 1, p_{m} \geq 0

$\sum_m p_m=1,\; p_m\ge0$

α

$\alpha$

β

$\beta$

p_{m}

$p_m$

\frac{1}{M}

$\frac{1}{M}$

α

$\alpha$

β

$\beta$

$Z_i$ $p_m$ $p_m$ $Z_i$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} (\frac{e x p (δ_{m} + γ_{m} Z_{i})}{\sum_{m^{'}} e x p (δ_{m^{'}} + γ_{m^{'}} Z_{i})}) \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M \left(\frac{exp(\delta_m+\gamma_mZ_i)}{\sum_{m'} exp(\delta_{m'}+\gamma_{m'}Z_i)}\right)\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

$5M+1$ $5M-1$ $\delta, \gamma$

$M$

— Tagihan
sumber

2

M

$M$

2

Saya telah mengamati perilaku serupa di beberapa set data saya. Dalam kasus saya, beberapa baris yang berbeda disebabkan oleh kesalahan kuantisasi di salah satu algoritma pemrosesan saya.

Yaitu, kami melihat plot pencar data yang diproses, dan algoritma pemrosesan memiliki beberapa efek kuantisasi, yang menyebabkan ketergantungan pada data yang tampak persis seperti yang Anda miliki di atas.

Memperbaiki efek kuantisasi, menyebabkan output kami terlihat jauh lebih halus dan kurang berumpun.

Adapun komentar "korelasi linear" Anda. Apa yang Anda sajikan tidak cukup untuk menentukan apakah data ini berkorelasi linier atau tidak. Artinya, di beberapa bidang, koefisien korelasi> 0,7 dianggap korelasi linier yang kuat. Mengingat bahwa sebagian besar data Anda berada di dekat sumbernya, sangat mungkin bahwa data Anda berkorelasi linear relatif terhadap apa yang akan dikatakan "kearifan konvensional". Korelasi memberi tahu Anda sangat sedikit tentang kumpulan data.

— John
sumber