Mengapa transformasi akar kuadrat direkomendasikan untuk menghitung data?

Sering disarankan untuk mengambil akar kuadrat ketika Anda memiliki data hitungan. (Untuk beberapa contoh pada CV, lihat jawaban @ HarveyMotulsky di sini , atau jawaban @ whuber di sini .) Di sisi lain, ketika memasang model linear umum dengan variabel respons yang didistribusikan sebagai Poisson, log adalah tautan kanonik . Ini seperti mengambil transformasi log dari data respons Anda (meskipun lebih akurat mengambil transformasi log dari , parameter yang mengatur distribusi respons). Jadi, ada beberapa ketegangan di antara keduanya. $\lambda$

Bagaimana Anda mendamaikan perbedaan ini (jelas)?
Mengapa akar kuadrat lebih baik daripada logaritma?

— gung - Reinstate Monica
sumber

Akar kuadrat kira-kira menstabilkan varian untuk Poisson . Ada sejumlah variasi pada akar kuadrat yang meningkatkan properti, seperti menambahkan $\frac{3}{8}$ sebelum mengambil akar kuadrat, atau Freeman-Tukey ( - meskipun sering disesuaikan dengan rata-rata juga). $\sqrt{X}+\sqrt{X+1}$

masukkan deskripsi gambar di sini

Transformasi root kuadrat agak meningkatkan simetri - meskipun tidak sebaik kekuatan tidak [1]: $\frac{2}{3}$

masukkan deskripsi gambar di sini

Jika Anda ingin mendekati normalitas (selama parameter Poisson tidak terlalu kecil) dan tidak peduli / dapat menyesuaikan heteroskedastisitas, coba power. $\frac{2}{3}$

Tautan kanonik umumnya bukan transformasi yang sangat baik untuk data Poisson ; log nol menjadi masalah tertentu (yang lain adalah heteroskedastisitas; Anda juga bisa mendapatkan kecenderungan-kiri meskipun Anda tidak memiliki 0). Jika nilai terkecil tidak terlalu dekat dengan 0, akan berguna untuk meratakan nilai rata-rata. Ini adalah 'transformasi' yang baik untuk rata - rata populasi bersyarat dari Poisson dalam sejumlah konteks, tetapi tidak selalu dari data Poisson. Namun jika Anda ingin mengubah, salah satu strategi umum adalah menambahkan konstanta yang menghindari masalah . Dalam hal ini kita harus mempertimbangkan apa yang konstan untuk ditambahkan. Tanpa terlalu jauh dari pertanyaan yang ada, nilai antara $y^*=\log(y+c)$ $0$ $c$ $0.4$ dan bekerja dengan sangat baik (misalnya dalam kaitannya dengan bias dalam estimasi kemiringan) melintasi rentang nilai . Saya biasanya hanya menggunakan karena sederhana, dengan nilai sekitar sering melakukan sedikit lebih baik. $0.5$ $\mu$ $\frac12$ $0.43$

Adapun mengapa orang memilih satu transformasi dari yang lain (atau tidak ada) - itu benar-benar masalah apa yang mereka lakukan untuk mencapainya.

[1]: Plot berpola setelah plot Henrik Bengtsson dalam handout-nya "Generalized Linear Models and Transformed Residuals" lihat di sini (lihat slide pertama pada hal. 4). Saya menambahkan sedikit y-jitter dan menghilangkan garis.

— Glen_b
sumber

OK, saya sudah berpikir tentang apa yang Anda letakkan di sini, & inilah sintesis saya: Transformasi optimal berbeda dalam 2 situasi ini b / c apa yang Anda coba capai berbeda. Sqrt lebih baik untuk menstabilkan varians & menormalkan distribusi. Log memetakan interval ke yang memungkinkan transformasi mean, , menjadi linier dalam parameter model. Sqrt tidak memiliki properti ini. W / a GLiM, tidak masalah bahwa variansnya tidak konstan, b / c distribusi respon ditetapkan sebagai Poisson. Apakah itu benar?

(0, + \infty)

$(0, +\infty)$

(- \infty, + \infty)

$(-\infty, +\infty)$

λ

$\lambda$

— gung - Reinstate Monica

Apa yang akan linier dalam parameter tergantung pada model . Sangat mungkin untuk linearitas itu berada pada skala asli atau skala akar kuadrat atau skala lain. Bahkan properti - berguna / penting - 'peta ke garis nyata' tidak unik untuk fungsi log. Alasan tautan log 'alami' adalah karena cara menyederhanakan GLM dengan memiliki statistik .

X^{'} y

$X'y$

— Glen_b

+1 Akar kuadrat hanyalah titik awal untuk berurusan dengan data jumlah. Logaritma juga merupakan pilihan yang baik. Data akan sering memberi tahu Anda yang mana yang lebih berhasil dalam memperoleh deskripsi yang berguna dan ringkas. Gung, dalam jawaban yang Anda maksudkan , demonstrasi bahwa akar kuadrat adalah pilihan yang baik terletak pada distribusi simetris residu yang tidak terasing yang terlihat pada gambar kanan. Ketika Anda memvariasikan parameter simulasi, Anda akan menemukan bahwa simetri dipertahankan.

— Whuber

@ Glen Saya tidak mengatakan log selalu merupakan pilihan yang baik. Namun terkadang mereka lebih unggul dari akarnya. Ketika nol hitungan muncul, maka ya, Anda memerlukan logaritma "mulai" . Utas lain di sini telah membahas cara untuk mendapatkan nilai awal . Ketika tidak ada jumlah nol dalam data, maka tidak akan ada masalah dengan log sama sekali.

— whuber

@ Thomas Adapun mengapa Freeman-Tukey atau daripada atau untuk beberapa lainnya , ada alasan bagus untuk Freeman-Tukey dan (misalnya, yang harus dilakukan dengan membuat skewness mendekati 0), tetapi jika Anda ingin membahasnya secara terperinci, itu akan menjadi pertanyaan yang sama sekali baru.

\sqrt{x + 3 / 8}

$\sqrt{x+3/8}$

\sqrt{x}

$\sqrt{x}$

\sqrt{x + c}

$\sqrt{x+c}$

c

$c$

\sqrt{x + 3 / 8}

$\sqrt{x+3/8}$

— Glen_b