Zero Mean dan Varians Unit

10

Saya sedang mempelajari Data Scaling, dan khususnya metode Standardisasi. Saya sudah mengerti matematika di baliknya, tetapi tidak jelas bagi saya mengapa penting untuk memberikan fitur mean nol dan varian unit.

Bisakah Anda jelaskan?

machine-learning feature-scaling normalization

— Qwerto
sumber

Lihatlah di sini .

— Media

Ini akan menjadi luar biasa: medium.com/greyatom/…

— Lerner Zhang

8

Pertanyaan apakah dan mengapa itu penting, tergantung pada konteksnya.

Untuk pohon keputusan yang didorong oleh gradien, misalnya, itu tidak penting - algoritma ML ini "tidak peduli" tentang transformasi monoton ke data; mereka hanya mencari poin untuk membaginya.
Untuk prediktor linier, misalnya, penskalaan dapat meningkatkan interpretabilitas hasil. Jika Anda ingin menganggap besarnya koefisien sebagai indikasi seberapa besar fitur mempengaruhi hasil, maka fitur tersebut harus diskalakan entah bagaimana ke area yang sama.
Untuk beberapa prediktor, khususnya NN, penskalaan, dan penskalaan khusus untuk rentang tertentu, dapat menjadi penting karena alasan teknis. Beberapa lapisan menggunakan fungsi yang secara efektif berubah hanya dalam beberapa area (mirip dengan fungsi keluarga hiperbolik ), dan jika fitur terlalu banyak di luar jangkauan, saturasi dapat terjadi. Jika ini terjadi, turunan numerik akan bekerja buruk, dan algoritme mungkin tidak dapat menyatu ke titik yang baik.

— Ami Tavory
sumber

2

Dalam kasus nol berarti, itu karena beberapa model pembelajaran mesin tidak memasukkan istilah bias dalam representasi mereka sehingga kami harus memindahkan data sekitar asal sebelum memasukkannya ke algoritma untuk terkompensasi karena kurangnya istilah bias. Dalam kasus varian unit, itu karena banyak algoritma pembelajaran mesin menggunakan beberapa jenis jarak (misalnya Euclidean) untuk memutuskan atau memprediksi. Jika fitur tertentu memiliki nilai luas (mis. Varians besar), jarak akan sangat dipengaruhi oleh fitur itu dan efek dari fitur lain akan diabaikan. Omong-omong, beberapa algoritma optimisasi (termasuk gradient descent) memiliki kinerja yang lebih baik ketika data distandarisasi.

— pythinker
sumber

2

Setiap kali kita mulai dengan dataset dalam pembelajaran mesin, kita sering menganggap bahwa semua fitur data sama pentingnya dengan output dan satu fitur tidak boleh mendominasi fitur lainnya. Itulah umumnya alasan kami memilih untuk membawa semua fitur ke skala yang sama.
Namun, orang dapat menimbulkan keraguan di sini bahwa bahkan jika fitur tidak dinormalisasi maka bobot yang diberikan padanya saat belajar dapat membantu kumpulan data konvergen ke output yang diharapkan saat pelatihan. Masalahnya adalah ini akan sangat lama untuk melatih dan membuahkan hasil.
Untuk memilih angka 0 tertentu sebagai mean dan varian 1 hanya kemudahan untuk memvisualisasikan dan menjaga angka kecil seperti itu akan membantu dalam pelatihan lebih cepat.

Oleh karena itu, disarankan untuk membawa semua fitur ke skala yang sama cukup kecil untuk dilatih dengan mudah. Tautan di bawah ini juga membahas konsep serupa. /stats/41704/how-and-why-do-normalalization-and-feature-scaling-work

— Divyanshu Shekhar
sumber