Aditif Kesalahan atau Kesalahan Multiplikasi?

Saya relatif baru dalam hal statistik dan akan sangat menghargai bantuan untuk memahami ini dengan lebih baik.

Di bidang saya ada model bentuk yang umum digunakan:

P_{t} = P_{Hai} (V_{t})^{α}

$P_t = P_o(V_t)^\alpha$

Ketika orang-orang mencocokkan model dengan data, mereka biasanya linearkan dan cocok dengan yang berikut

catatan (P_{t}) = catatan (P_{Hai}) + α catatan (V_{t}) + ϵ

$\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon$

Apakah ini ok? Saya membaca di suatu tempat bahwa karena kebisingan dalam sinyal model yang sebenarnya seharusnya

P_{t} = P_{Hai} (V_{t})^{α} + ϵ

$P_t = P_o(V_t)^\alpha + \epsilon$

dan ini tidak dapat linear seperti di atas. Apakah ini benar? Jika demikian, apakah ada yang tahu referensi yang bisa saya baca dan pelajari lebih lanjut tentang itu dan mungkin mengutip dalam laporan?

— ciaran_r
sumber

Saya memformat persamaan Anda. Silakan periksa apakah kontennya masih seperti yang Anda maksudkan (terutama mengenai subskrip).

— Andy

Anda telah menandai pertanyaan Anda dengan "kesalahan pengukuran" dan + e dalam persamaan ke-3 tampaknya disebabkan oleh kesalahan pengukuran tambahan selain variasi stokastik / acak dalam respons, seperti P * (V ^ alpha) * exp (e). Apakah ini benar? Model kesalahan pengukuran (alias model "kesalahan dalam variabel") seringkali memerlukan semacam proses dua langkah, yang dalam kasus Anda mungkin memerlukan data validasi terpisah untuk mengkarakterisasi kesalahan aditif karena "noise", dalam hal ini mungkin tidak ada perlu linierisasi persamaan.

— N Brouwer

Model mana yang tepat tergantung pada bagaimana variasi di sekitar rata-rata masuk ke dalam pengamatan. Ini mungkin datang secara multiplikasi atau tambahan ... atau dengan cara lain.

Bahkan mungkin ada beberapa sumber variasi ini, beberapa yang dapat masuk secara multiplikasi dan beberapa yang masuk secara aditif dan beberapa dengan cara yang tidak benar-benar dapat dikategorikan sebagai keduanya.

Terkadang ada teori yang jelas untuk menetapkan mana yang cocok. Kadang-kadang merenungkan sumber variasi utama tentang mean akan mengungkapkan pilihan yang tepat. Seringkali orang tidak memiliki gagasan yang jelas untuk digunakan, atau apakah beberapa sumber variasi dari jenis yang berbeda mungkin diperlukan untuk menggambarkan proses secara memadai.

Dengan model log-linear, di mana regresi linier digunakan:

$\log(P_t)=log(P_o)+α\log(V_t)+ϵ$

model regresi OLS mengasumsikan varians skala log yang konstan, dan jika itu masalahnya, maka data asli akan menunjukkan peningkatan penyebaran tentang rata-rata dengan meningkatnya rata-rata.

Di sisi lain, model seperti ini:

$P_t=P_o(V_t)^α+ϵ$

umumnya dipasang oleh kuadrat terkecil nonlinear, dan sekali lagi, jika varians konstan (default untuk NLS) dipasang, maka penyebaran tentang mean harus konstan.

masukkan deskripsi gambar di sini

[Anda mungkin memiliki kesan visual bahwa penyebaran menurun dengan meningkatnya rata-rata pada gambar terakhir; itu sebenarnya ilusi yang disebabkan oleh peningkatan kemiringan - kita cenderung menilai penyebaran ortogonal ke kurva daripada secara vertikal sehingga kita mendapatkan kesan yang terdistorsi.]

Jika Anda memiliki spread yang hampir konstan baik pada skala asli atau log, yang mungkin menyarankan yang mana dari dua model yang cocok, bukan karena itu membuktikan itu aditif atau multiplikatif, tetapi karena itu mengarah ke deskripsi yang tepat dari spread serta berarti.

Tentu saja orang mungkin juga memiliki kemungkinan kesalahan aditif yang memiliki varian tidak konstan.

Namun, ada model-model lain masih di mana hubungan fungsional tersebut dapat dipasang yang memiliki hubungan yang berbeda antara mean dan varians (seperti Poisson atau quasi-Poisson GLM, yang telah menyebar proporsional dengan akar kuadrat rata-rata).

— Glen_b -Reinstate Monica
sumber