Mengungkapkan jawaban dalam hal unit asli, dalam data transformasi Box-Cox


13

Untuk beberapa pengukuran, hasil analisis disajikan dengan tepat pada skala transformasi. Namun, dalam sebagian besar kasus, diinginkan untuk menyajikan hasil pada skala pengukuran asli (jika tidak, pekerjaan Anda kurang lebih tidak berharga).

Sebagai contoh, dalam kasus data yang ditransformasi log, masalah dengan interpretasi pada skala asli muncul karena rata-rata nilai yang dicatat bukan log dari rata-rata. Mengambil antilogaritma estimasi rata-rata pada skala log tidak memberikan estimasi rata-rata pada skala asli.

Namun, jika data yang diubah log memiliki distribusi simetris, hubungan berikut ini berlaku (karena log mempertahankan pemesanan):

Berarti[catatan(Y)]=Median[catatan(Y)]=catatan[Median(Y)]

(Antilogaritma nilai rata-rata log adalah median pada skala pengukuran asli).

Jadi saya hanya bisa membuat kesimpulan tentang perbedaan (atau rasio) median pada skala pengukuran asli.

Uji-t dua sampel dan interval kepercayaan paling dapat diandalkan jika populasi kira-kira normal dengan kira-kira standar deviasi, jadi kita mungkin tergoda untuk menggunakan Box-Coxtransformasi untuk asumsi normalitas untuk bertahan (saya juga berpikir bahwa itu juga merupakan varian yang menstabilkan transformasi juga ).

Namun, jika kita menerapkan t-tools untuk Box-Coxmentransformasikan data, kita akan mendapatkan kesimpulan tentang perbedaan cara dari data yang ditransformasikan. Bagaimana kita bisa menafsirkannya pada skala pengukuran asli? (Rata-rata dari nilai-nilai yang ditransformasikan bukan rata-rata yang ditransformasikan). Dengan kata lain, mengambil transformasi kebalikan dari estimasi rata-rata, pada skala yang ditransformasikan, tidak memberikan estimasi rata-rata pada skala asli.

Bisakah saya membuat kesimpulan hanya tentang median dalam kasus ini? Apakah ada transformasi yang akan memungkinkan saya untuk kembali ke cara (pada skala asli)?

Pertanyaan ini awalnya diposting sebagai komentar di sini

Jawaban:


11

Jika Anda ingin kesimpulan secara khusus tentang rata-rata variabel asli, maka jangan gunakan transformasi Box-Cox. Transformasi IMO Box-Cox paling berguna ketika variabel yang ditransformasikan memiliki interpretasinya sendiri, dan transformasi Box-Cox hanya membantu Anda untuk menemukan skala yang tepat untuk analisis - ini ternyata sering terjadi. Dua eksponen tak terduga yang saya temukan dengan cara ini adalah 1/3 (ketika variabel respon adalah volume kandung kemih) dan -1 (ketika variabel respon adalah napas per menit).

Log-transformasi mungkin satu-satunya pengecualian untuk ini. Rerata pada skala log sesuai dengan rerata geometris dalam skala asli, yang setidaknya merupakan kuantitas yang terdefinisi dengan baik.


Anda juga memiliki pengecualian lain. -1 sesuai dengan rata-rata harmonik, ...
kjetil b halvorsen

9

Jika transformasi Box-Cox menghasilkan distribusi simetris, maka rata-rata data yang diubah kembali ditransformasikan ke median pada skala asli. Ini berlaku untuk setiap transformasi monotonik, termasuk transformasi Box-Cox, transformasi IHS, dll. Jadi kesimpulan tentang cara-cara pada data yang diubah sesuai dengan kesimpulan tentang median pada skala asli.

Karena data asli miring (atau Anda tidak akan menggunakan transformasi Box-Cox di tempat pertama), mengapa Anda ingin kesimpulan tentang sarana? Saya akan berpikir bekerja dengan median akan lebih masuk akal dalam situasi ini. Saya tidak mengerti mengapa ini dilihat sebagai "masalah dengan interpretasi pada skala asli".


λ

Terima kasih. Mungkin karena sampel (dari populasi yang saya pikir harus mengikuti distribusi yang kurang simetris) mungkin saja kebetulan miring secara kebetulan.
George Dontas

4
Sebuah contoh yang bagus tentang perlunya membuat kesimpulan tentang cara, tidak peduli apa pun, diberikan oleh beberapa penilaian risiko lingkungan. Untuk sangat menyederhanakan, bayangkan Anda berencana mengembangkan lahan menjadi taman. Anda menguji tanah untuk beberapa senyawa yang menjadi perhatian dan, seperti yang sering terjadi, menemukan konsentrasinya kira-kira terdistribusi secara normal. Namun demikian, orang-orang yang menggunakan taman - yang mungkin langsung terkena tanah ini - akan secara efektif "mencicipi" tanah secara seragam secara acak saat mereka bergerak. Paparan mereka dari waktu ke waktu akan menjadi konsentrasi rata-rata aritmatika, bukan rata-rata geometrisnya.
Whuber

1
Terkadang kita tertarik pada masalah yang datang dari formulasi jumlah total sesuatu. Jika Anda tahu rerata, Anda bisa beralih dari rerata ke total (mengalikan dengan jumlah pengamatan). Tidak ada cara untuk beralih dari median ke total!
George Dontas

6

Jika Anda ingin melakukan inferensi tentang cara pada skala asli, Anda dapat mempertimbangkan menggunakan inferensi yang tidak menggunakan asumsi normalitas.

Namun berhati-hatilah. Cukup menyambungkan melalui perbandingan langsung cara melalui katakan kembali (baik tes permutasi atau bootstrap) ketika dua sampel memiliki varians yang berbeda mungkin menjadi masalah jika analisis Anda mengasumsikan variansnya sama (dan varians yang sama pada skala yang diubah akan menjadi varians perbedaan) pada skala asli jika artinya berbeda). Teknik seperti itu tidak menghindari keharusan untuk memikirkan apa yang Anda lakukan.

Pendekatan lain untuk dipertimbangkan jika Anda lebih tertarik pada estimasi atau prediksi daripada pengujian adalah dengan menggunakan ekspansi Taylor dari variabel yang diubah untuk menghitung perkiraan rata-rata dan varians setelah mengubah kembali - di mana dalam ekspansi Taylor biasa Anda akan menulis f(x+h), kamu sekarang menulis t[μ+(Y-μ)] dimana Y adalah variabel acak dengan mean μ dan varians σ2, yang akan Anda ubah menggunakan kembali t().

Jika Anda mengambil harapan, istilah kedua keluar, dan orang biasanya hanya mengambil istilah pertama dan ketiga (di mana yang ketiga mewakili perkiraan untuk bias dalam hanya mengubah rata-rata); lebih lanjut jika Anda mengambil varian ekspansi ke term kedua, term pertama dan term kovarian pertama putus - karenat(μ) adalah konstanta - membuat Anda memiliki perkiraan satu periode untuk varians.

-

Kasus termudah adalah ketika Anda memiliki normal pada skala log, dan karenanya lognormal pada skala asli. Jika varians Anda diketahui (yang paling jarang terjadi), Anda dapat membuat CI dan PI normal lognormal pada skala asli, dan Anda bisa memberikan prediksi dari rata-rata distribusi kuantitas yang relevan.

Jika Anda memperkirakan mean dan varians pada skala log, Anda dapat membuat logtinterval (interval prediksi untuk pengamatan, katakanlah), tetapi log skala asli Andattidak punya momen . Jadi rata-rata prediksi tidak ada.

Anda perlu berpikir dengan sangat hati-hati tentang pertanyaan apa yang ingin Anda jawab.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.