Saya percaya jawabannya tergantung pada skenario.
Anggap NN (neural network) sebagai operator F, sehingga F (input) = output . Dalam kasus di mana hubungan ini linier sehingga F (A * input) = A * output , maka Anda dapat memilih untuk membiarkan input / output tidak normal dalam bentuk mentah, atau menormalkan keduanya untuk menghilangkan A. Jelas asumsi linearitas ini adalah dilanggar dalam tugas klasifikasi, atau hampir semua tugas yang menghasilkan probabilitas, di mana F (input A *) = output 1 *
Dalam praktiknya, normalisasi memungkinkan jaringan yang tidak cocok untuk menjadi layak, yang sangat penting bagi para eksperimen / programmer. Namun demikian, dampak tepat normalisasi akan tergantung tidak hanya pada arsitektur jaringan / algoritma, tetapi juga pada statistik sebelum input dan output.
Terlebih lagi, NN sering diterapkan untuk memecahkan masalah yang sangat sulit dengan cara kotak hitam, yang berarti masalah yang mendasari mungkin memiliki formulasi statistik yang sangat buruk, sehingga sulit untuk mengevaluasi dampak normalisasi, menyebabkan keuntungan teknis (menjadi fittable) untuk mendominasi dampaknya pada statistik.
Dalam pengertian statistik, normalisasi menghilangkan variasi yang diyakini non-kausal dalam memprediksi output, sehingga untuk mencegah NN mempelajari variasi ini sebagai prediktor ( NN tidak melihat variasi ini, maka tidak dapat menggunakannya ).