Model linier dengan respons log-transformasi vs. model linier umum dengan tautan log


46

Dalam tulisan ini berjudul "MEMILIH ANTARA MODEL LINEAR UMUM YANG DITERAPKAN UNTUK DATA MEDIS" para penulis menulis:

Dalam model linier umum, rata-rata ditransformasikan, oleh fungsi tautan, alih-alih mengubah respons itu sendiri. Dua metode transformasi dapat menghasilkan hasil yang sangat berbeda; misalnya, rata-rata respons yang ditransformasi-log tidak sama dengan logaritma dari respons rata-rata . Secara umum, yang pertama tidak dapat dengan mudah ditransformasikan menjadi respons yang berarti. Dengan demikian, mentransformasikan rata-rata sering memungkinkan hasil menjadi lebih mudah diinterpretasikan, terutama dalam parameter rata-rata tetap pada skala yang sama dengan respons yang diukur.

Tampaknya mereka menyarankan pemasangan model linier umum (GLM) dengan tautan log daripada model linier (LM) dengan respons log-transformed. Saya tidak memahami kelebihan dari pendekatan ini, dan tampaknya sangat tidak biasa bagi saya.

Variabel respons saya terlihat berdistribusi normal. Saya mendapatkan hasil yang serupa dalam hal koefisien dan kesalahan standar mereka dengan kedua pendekatan.

Masih saya bertanya-tanya: Jika suatu variabel memiliki distribusi log-normal, bukankah rata-rata variabel log-transformed lebih disukai daripada log dari variabel rata-rata yang tidak diubah , karena mean adalah ringkasan alami dari distribusi normal, dan log Variabel -transformed biasanya terdistribusi, sedangkan variabel itu sendiri tidak?


3
Saya setuju dengan petunjuk Anda jika kami memiliki variabel terdistribusi log-normal. Namun, rata-rata perlu "ditransformasikan kembali" untuk mendapatkan statistik yang mudah dipahami berdasarkan skala data asli. Ini mungkin menjelaskan kesimpulan artikel itu. Juga, setelah transformasi log, kita mungkin tidak mendapatkan variabel terdistribusi normal dan dalam hal ini, saya tidak tahu pendekatan mana yang lebih baik.
soufanom

Jawaban:


46

Meskipun mungkin tampak bahwa rata-rata dari variabel yang ditransformasi-log lebih disukai (karena ini adalah bagaimana log-normal biasanya diparameterisasi), dari sudut pandang praktis, log rata-rata biasanya jauh lebih berguna.

Ini terutama benar ketika model Anda tidak sepenuhnya benar, dan mengutip George Box: "Semua model salah, ada yang berguna"

Misalkan beberapa kuantitas terdistribusi secara normal, tekanan darah mengatakan (Saya bukan petugas medis!), Dan kami memiliki dua populasi, pria dan wanita. Seseorang mungkin berhipotesis bahwa tekanan darah rata-rata lebih tinggi pada wanita daripada pada pria. Ini persis sesuai dengan menanyakan apakah log tekanan darah rata-rata lebih tinggi pada wanita daripada pada pria. Ini tidak sama dengan menanyakan apakah rata-rata tekanan darah log pada wanita lebih tinggi daripada pria .

Jangan bingung dengan parameterisasi buku teks dari distribusi - itu tidak memiliki arti "nyata". Distribusi log-normal diparameterisasi dengan rata-rata log ( ) karena kenyamanan matematis, tetapi sama-sama kita dapat memilih untuk membuat parameter dengan rata-rata dan varians aktualnyaμln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

Jelas, melakukan hal itu membuat aljabarnya sangat rumit, tetapi tetap berfungsi dan memiliki arti yang sama.

Melihat formula di atas, kita dapat melihat perbedaan penting antara mentransformasikan variabel dan mentransformasikan mean. Log rata-rata, , meningkat dengan meningkat, sedangkan rata-rata log, tidak.σ 2 ln μ lnln(μ)σln2μln

Ini berarti bahwa wanita dapat, secara rata-rata, memiliki tekanan darah lebih tinggi daripada pria, walaupun paramater rata-rata dari distribusi normal log ( ) adalah sama, hanya karena parameter varians lebih besar. Fakta ini akan terjawab oleh tes yang menggunakan log (Tekanan Darah).μln

Sejauh ini, kami mengasumsikan bahwa tekanan darah benar-benar normal. Jika distribusi sebenarnya tidak cukup log normal, maka mengubah data akan (biasanya) membuat segalanya lebih buruk daripada di atas - karena kita tidak akan tahu apa arti sebenarnya dari parameter "berarti" kami. Yaitu kita tidak akan tahu kedua persamaan untuk mean dan varian yang saya berikan di atas adalah benar. Menggunakan mereka untuk mengubah bolak-balik kemudian akan memperkenalkan kesalahan tambahan.


Saya menemukan ini sangat membantu: christoph-scherber.de/content/PDF%20Files/…
Aditya

2
Corone, saya menyoroti dua kalimat penting dalam jawaban Anda. Saya harap kamu tidak keberatan. Harap putar kembali jika Anda tidak setuju.
Stefan

17

Berikut adalah dua sen dari kursus analisis data lanjutan yang saya ambil saat mempelajari biostatistik (meskipun saya tidak memiliki referensi selain catatan profesor saya):

Itu bermuara pada apakah Anda perlu mengatasi linearitas dan heteroskedastisitas (varians tidak sama) dalam data Anda, atau hanya linearitas.

Dia mencatat bahwa mentransformasikan data mempengaruhi asumsi linearitas dan varians dari suatu model. Misalnya, jika residu Anda menunjukkan masalah dengan keduanya, Anda dapat mempertimbangkan untuk mengubah data, yang berpotensi dapat memperbaiki keduanya. Transformasi mengubah kesalahan dan variansnya.

Sebaliknya, menggunakan fungsi tautan hanya memengaruhi asumsi linearitas, bukan varians. Log diambil dari nilai rata-rata (nilai yang diharapkan), dan dengan demikian varian residu tidak terpengaruh.

Singkatnya, jika Anda tidak memiliki masalah dengan varians tidak konstan, ia menyarankan menggunakan fungsi tautan alih transformasi, karena Anda tidak ingin mengubah varians Anda dalam kasus itu (Anda sudah memenuhi asumsi).


6
Sementara fungsi tautan hanya memengaruhi rata-rata, fungsi tautan hanya satu bagian dari GLM. Komentar Anda berfungsi untuk Gaussian glm dengan tautan log. Sebuah gamma GLM dengan tautan log akan memiliki asumsi fungsi-varians yang sama (varians sebanding dengan rata-rata kuadrat) seperti mengambil log dan menyesuaikan varians konstan pada skala log tersebut. Keluarga lain dalam kerangka kerja GLM akan memiliki fungsi varians lainnya. Sayangnya tabel pada halaman wikipedia untuk GLM menghilangkan fungsi varians untuk keluarga distribusi yang diberikannya.
Glen_b

2
Mereka menyebutkan beberapa contoh di sini . Inilah gamma
Glen_b

-1

Jika respons yang benar tidak simetris (tidak terdistribusi seperti biasa) tetapi respons yang ditransformasikan log adalah normal maka regresi linier pada respons yang diubah digunakan dan koefisien eksponen memberi kita rasio rata-rata geometrik.

Jika respons yang benar adalah simetris (didistribusikan sebagai normal) tetapi hubungan antara penjelas (X) dan respons tidak linier tetapi nilai log diharapkan adalah fungsi linier X maka GLM dengan log link digunakan dan koefisien eksponen memberi kita rasio rata-rata aritmatika


Jawaban ini tidak jelas. Apakah maksud Anda "variabel" daripada "benar"?
Michael Chernick

Ini adalah bagian dari jawaban. Anda harus memperjelas bagaimana hal ini terkait dengan pertanyaan dan apa jawaban atas pertanyaan sebenarnya berdasarkan pada wawasan ini.
ReneBt
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.