Judul mengatakan semuanya - berapa banyak parameter yang bisa dilatih yang ada di lapisan GRU? Pertanyaan semacam ini banyak muncul ketika mencoba membandingkan model dari tipe lapisan RNN yang berbeda, seperti unit memori jangka pendek (LSTM) vs GRU, dalam hal kinerja per-parameter. Karena sejumlah besar parameter yang dapat dilatih secara umum akan meningkatkan kapasitas jaringan untuk belajar, membandingkan model alternatif berdasarkan per-parameter adalah perbandingan apel dengan apel dari efektivitas relatif GRU dan LSTM.