Normalisasi vs penskalaan


45

Apa perbedaan antara data 'Normalisasi' dan data 'Skala'? Sampai sekarang saya pikir kedua istilah mengacu pada proses yang sama tetapi sekarang saya menyadari ada sesuatu yang lebih yang saya tidak tahu / mengerti. Juga jika ada perbedaan antara Normalisasi dan Penskalaan, kapan kita harus menggunakan Normalisasi tetapi tidak untuk Penskalaan dan sebaliknya?

Tolong jelaskan dengan beberapa contoh.


6
Normalisasi biasanya berarti mengubah pengamatan Anda menjadi (di mana adalah fungsi yang dapat diukur, biasanya kontinu) sedemikian rupa sehingga mereka tampak terdistribusi secara normal . Beberapa contoh transformasi untuk menormalkan data adalah transformasi daya . Penskalaan berarti , , ini adalah, mengalikan pengamatan Anda dengan konstan yang mengubah skala (misalnya dari nanometer ke kilometer) . f ( x ) f f ( x ) = c x c R cxf(x)ff(x)=cxcRc


normalisasi juga merupakan metode penskalaan, sama dengan standardisasi

Saya tidak memiliki reputasi yang cukup pada statistik untuk menjawab. Saya pikir judul pertanyaan Anda harus Normalisasi vs Standardisasi, karena kedua pendekatan ini berbeda. Normalisasi mengubah nilai menjadi rentang 0 dan 1 sementara standarisasi menggeser distribusi untuk memiliki 0 sebagai rata-rata dan 1 sebagai standar deviasi.
Hamid Heydarian

Jawaban:


23

Saya tidak mengetahui definisi "resmi" dan bahkan jika ada, Anda tidak boleh mempercayainya karena Anda akan melihatnya digunakan secara tidak konsisten dalam praktik.

Ini dikatakan, penskalaan dalam statistik biasanya berarti transformasi linear dari bentuk .f(x)=ax+b

Normalisasi dapat berarti menerapkan transformasi sehingga Anda mentransformasikan data secara normal terdistribusi, tetapi juga bisa berarti menempatkan variabel yang berbeda pada skala umum. Standarisasi, yang berarti mengurangi rata-rata dan membaginya dengan standar deviasi, adalah contoh penggunaan selanjutnya. Seperti yang Anda lihat, ini juga merupakan contoh penskalaan. Contoh untuk yang pertama akan mengambil log untuk data terdistribusi lognormal.

Tetapi apa yang harus Anda ambil adalah bahwa ketika Anda membacanya Anda harus mencari deskripsi yang lebih tepat tentang apa yang penulis lakukan. Terkadang Anda bisa mendapatkannya dari konteksnya.


14

Penskalaan adalah pilihan pribadi untuk membuat angka terasa benar, misalnya antara nol dan satu, atau satu dan seratus. Misalnya mengonversi data yang diberikan dalam milimeter ke meter karena lebih mudah, atau penting untuk metrik.

Sedangkan normalisasi adalah tentang penskalaan ke 'standar' eksternal - norma lokal - seperti menghapus nilai rata-rata dan membaginya dengan standar deviasi sampel, misalnya agar data yang diurutkan dapat dibandingkan dengan normal kumulatif, atau kumulatif Poisson, atau Masa bodo.

Jadi jika dosen atau manajer menginginkan data 'dinormalisasi' itu berarti "skala ulang dengan cara saya " ;-)


9

Saya tidak tahu apakah maksud Anda persis seperti ini, tetapi saya melihat banyak orang mengacu pada Normalisasi yang berarti Standardisasi data. Standardisasi mentransformasikan data Anda sehingga memiliki mean 0 dan standar deviasi 1:

x <- (x - mean(x)) / sd(x)

Saya juga melihat orang menggunakan istilah Normalisasi untuk Penskalaan Data, seperti dalam mentransformasikan data Anda ke rentang 0-1:

x <- (x - min(x)) / (max(x) - min(x))

Ini bisa membingungkan!

Kedua teknik memiliki pro dan kontra mereka. Saat menskalakan dataset dengan outlier yang terlalu banyak, data non-outlier Anda mungkin berakhir dalam interval yang sangat kecil. Jadi jika dataset Anda memiliki terlalu banyak outlier, Anda mungkin ingin mempertimbangkan untuk membakukannya. Meskipun demikian, ketika Anda melakukannya, Anda akan berakhir dengan data negatif (kadang-kadang Anda tidak menginginkannya) dan data tidak terikat (Anda mungkin juga tidak mau itu).


3

Pemusatan berarti mensubstitusi rata-rata variabel acak dari variabel. Yaitu x -xi

Scalelling berarti membagi variabel dengan deviasi standarnya. Yaitu xi / s

Kombinasi keduanya disebut normalisasi atau standisasi. Yaitu x-xi / s


Pertanyaannya adalah duplikat.
Michael Chernick
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.