Apa transformasi normalisasi yang biasa digunakan di luar yang umum seperti akar kuadrat, log, dll?


10

Dalam analisis skor tes (misalnya, dalam Pendidikan atau Psikologi), teknik analisis umum sering mengasumsikan bahwa data terdistribusi secara normal. Namun, mungkin lebih sering daripada tidak, skor cenderung menyimpang kadang-kadang liar dari normal.

Saya akrab dengan beberapa transformasi normalisasi dasar, seperti: akar kuadrat, logaritma, transformasi timbal balik untuk mengurangi kemiringan positif, mencerminkan versi di atas untuk mengurangi kemiringan negatif, mengkuadratkan distribusi leptokurtik. Saya telah mendengar tentang transformasi arcsine dan transformasi kekuatan, meskipun saya tidak benar-benar tahu tentang mereka.

Jadi, saya ingin tahu seperti apa transformasi lain yang biasa digunakan oleh analis?

Jawaban:


5

The Box-Cox transformasi mencakup banyak dari yang Anda dikutip. Lihat jawaban ini untuk beberapa perincian:

UPDATE: Slide ini memberikan gambaran yang cukup bagus tentang transformasi Box-Cox.


Jika kita menerapkan t-tools pada data transformasi Box-Cox, kita akan mendapatkan kesimpulan tentang perbedaan cara data yang ditransformasikan. Bagaimana kita bisa menafsirkannya pada skala pengukuran asli? (Rata-rata dari nilai-nilai yang ditransformasikan bukan rata-rata yang ditransformasikan). Dengan kata lain (jika saya benar), mengambil transformasi kebalikan dari estimasi rata-rata, pada skala yang diubah, tidak memberikan perkiraan rata-rata pada skala asli.
George Dontas

@ gd047, beberapa tes mengasumsikan normalitas dari distribusi rata-rata, bukan data. t-test cenderung sangat kuat untuk data yang mendasarinya. Anda benar - dengan tes pasca-transformasi, hasilnya dilaporkan setelah invers-transformasi, dan interpretasi bisa sangat bermasalah. Itu datang ke bagaimana "tidak normal" data Anda, dapatkah Anda pergi tanpa mengubah atau menerapkan, katakanlah, transformasi log yang lebih mudah untuk ditafsirkan. Kalau tidak, itu kontekstual pada transformasi dan domain yang sebenarnya dan saya tidak punya jawaban yang bagus. Mungkin layak meminta untuk melihat apa yang dikatakan orang lain?
ars

10

Langkah pertama adalah menanyakan mengapa variabel Anda terdistribusi secara tidak normal. Ini bisa mencerahkan. Temuan umum dari pengalaman saya:

  • Tes kemampuan (misalnya, ujian, tes kecerdasan, tes masuk) cenderung condong negatif ketika ada efek langit-langit dan positif miring ketika ada efek lantai. Kedua temuan menunjukkan bahwa tingkat kesulitan tes tidak dioptimalkan untuk sampel, baik terlalu mudah atau terlalu sulit untuk dibedakan secara optimal. Ini juga menyiratkan bahwa variabel laten yang menarik masih dapat didistribusikan secara normal, tetapi bahwa struktur tes mendorong kemiringan dalam variabel yang diukur.
  • Tes kemampuan sering memiliki pencilan dalam hal pencetak skor rendah. Singkatnya ada banyak cara untuk mengerjakan tes dengan buruk. Secara khusus ini kadang-kadang dapat dilihat pada ujian di mana ada sebagian kecil siswa di mana beberapa kombinasi dari kurangnya bakat dan kurangnya upaya telah digabungkan untuk menciptakan nilai ujian yang sangat rendah. Ini menyiratkan bahwa variabel laten yang menarik mungkin memiliki beberapa pencilan.
  • Sehubungan dengan tes laporan diri (misalnya, tes kepribadian, tes sikap, dll) sering terjadi ketika sampel secara inheren tinggi pada skala (misalnya, distribusi kepuasan hidup condong negatif karena sebagian besar orang puas) atau ketika skala telah dioptimalkan untuk sampel yang berbeda dengan yang digunakan dalam tes (misalnya, menerapkan ukuran klinis depresi pada sampel non-klinis).

Langkah pertama ini mungkin menyarankan modifikasi desain untuk pengujian. Jika Anda mengetahui masalah ini sebelumnya, Anda bahkan dapat merancang tes untuk menghindarinya, jika Anda melihatnya bermasalah.

Langkah kedua adalah memutuskan apa yang harus dilakukan dalam situasi di mana Anda memiliki data yang tidak normal. Catatan transformasi hanyalah salah satu strategi yang mungkin. Saya akan mengulangi saran umum dari jawaban sebelumnya tentang non-normalitas :

  • Banyak prosedur yang mengasumsikan normalitas residual kuat untuk pelanggaran normal residual
  • Bootstrap umumnya merupakan strategi yang baik
  • Transformasi adalah strategi lain yang baik. Perhatikan bahwa dari pengalaman saya, jenis kemiringan ringan yang biasanya terjadi dengan kemampuan dan tes psikologi laporan diri biasanya dapat dengan mudah diubah menjadi distribusi mendekati normalitas menggunakan log, sqrt, atau transformasi terbalik (atau yang terbalik terbalik).

9

John Tukey secara sistematis membahas transformasi dalam bukunya tentang EDA. Selain keluarga Box-Cox (transformasi daya yang diskalakan dengan baik) ia mendefinisikan keluarga transformasi "terlipat" untuk proporsi (pada dasarnya kekuatan x / (1-x)) dan jumlah "mulai" (menambahkan offset positif untuk data yang dihitung) sebelum mengubahnya). Transformasi terlipat, yang pada dasarnya menggeneralisasi logit, sangat berguna untuk skor tes.

Dalam nada yang sama sekali berbeda, Johnson & Kotz dalam buku mereka tentang distribusi menawarkan banyak transformasi yang dimaksudkan untuk mengubah statistik uji untuk mendekati normalitas (atau ke beberapa distribusi target lainnya), seperti transformasi akar-pangkat untuk chi-square. Materi ini adalah sumber ide bagus untuk transformasi yang berguna ketika Anda mengantisipasi data Anda akan mengikuti beberapa distribusi tertentu.


2

Pilihan sederhana adalah menggunakan jumlah skor alih-alih skor itu sendiri. Jumlah distribusi cenderung normal. Misalnya, dalam Pendidikan Anda dapat menambahkan skor siswa di atas serangkaian tes.

Pilihan lain, tentu saja, adalah menggunakan teknik yang tidak menganggap normal, yang dianggap remeh dan kurang dimanfaatkan.


1
Saya percaya bahwa jumlah harus dinormalisasi (misalnya, gunakan skor rata-rata) agar distribusi cenderung normal.

1
Ya itu benar. Dalam contoh saya, saya berasumsi bahwa kelas akan memiliki jumlah siswa yang sama, yang tidak realistis. Terima kasih.
Carlos Accioly

1

XFY L.SebuahmbertW×F

XN(μ,σ2)θ=(μx,σx,δ,α)α1

Sekarang sebagai transformasi data, ini menjadi menarik karena transformasi bersifat bijective (hampir bijective untuk kasus miring) dan dapat diperoleh secara eksplisit menggunakan fungsi Lambert's W (maka nama Lambert W x F). Ini berarti kita dapat menghapus kemiringan dari data dan juga menghilangkan ekor yang berat (secara objektif!).

Anda dapat mencobanya menggunakan paket LambertW R, dengan manual yang menunjukkan banyak contoh cara menggunakannya.

Untuk aplikasi lihat posting ini

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.