Banyak model pembelajaran mendalam mempelajari fitur mereka sendiri dari data input mentah selama pelatihan (misalnya, Jaringan Neural Konvolusi 2D untuk gambar). Jadi dalam banyak kasus, Anda bahkan tidak perlu khawatir untuk meneruskan variabel secara eksplisit ke model Anda. Dalam beberapa kasus lain, Anda masih memerlukan fitur, tetapi hanya fitur inti (mis., Kata-kata dalam NLP). Fitur-fitur ini direpresentasikan sebagai vektor dalam ruang embedding yang menangkap kesamaan (misalnya, bahwa 'presiden' dekat dengan 'Obama'). Ruang penyematan dapat berasal dari pra-pelatihan tanpa pengawasan (word2vec, glove) atau diinisialisasi secara acak, dan vektor disetel selama pelatihan melalui backpropagation. Arsitektur jaringan bertanggung jawab untuk mempelajari kombinasi fitur, seperti perbedaan antara 'tidak buruk, cukup baik' dan 'tidak baik,
Paragraf 'Fitur kombinasi' Bagian 3 dari Goldberg, Y. (2015). Primer pada model jaringan saraf untuk pemrosesan bahasa alami. Jurnal Penelitian Kecerdasan Buatan, 57, 345-420. menjelaskannya dengan sangat baik (saya sangat merekomendasikan membaca seluruh Bagian 3, ini sangat bagus):
Fitur kombinasi sangat penting dalam model linier karena mereka memperkenalkan lebih banyak dimensi ke input, mengubahnya menjadi ruang di mana data-poin lebih dekat untuk dipisahkan secara linear. Di sisi lain, ruang kombinasi yang mungkin sangat besar, dan perancang fitur harus menghabiskan banyak waktu membuat satu set kombinasi fitur yang efektif. Salah satu janji model jaringan saraf non-linear adalah bahwa kita hanya perlu mendefinisikan fitur inti. Non-linearitas dari classifier, sebagaimana didefinisikan oleh struktur jaringan, diharapkan untuk mengurus menemukan kombinasi fitur indikatif, mengurangi kebutuhan untuk rekayasa kombinasi fitur.