Instruksi pertama tidak harus "dieksekusi berurutan" bahkan pada ISA non-VLIW, eksekusi hanya perlu muncul berurutan. Implementasi superscalar yang berurutan dapat mengeksekusi lebih dari satu instruksi secara paralel dengan yang lainnya. Untuk melakukan ini secara efektif perangkat keras untuk instruksi penguraian sandi harus ditingkatkan (diperlebar), perangkat keras harus ditambahkan untuk memastikan independensi data dari instruksi yang akan dieksekusi secara paralel, sumber daya eksekusi harus ditingkatkan, dan jumlah port file register pada umumnya ditingkatkan. Semua ini menambah transistor.
Implementasi out-of-order, yang memungkinkan instruksi selanjutnya untuk dieksekusi sebelum yang sebelumnya selama tidak ada ketergantungan data, menggunakan perangkat keras tambahan untuk menangani penjadwalan instruksi segera setelah data tersedia dan menambahkan nama register dan perangkat keras untuk pemetaan, mengalokasikan, dan membebaskan mereka (lebih banyak transistor) untuk menghindari bahaya tulis-setelah-baca dan tulis-setelah-tulis. Eksekusi out-of-order memungkinkan prosesor untuk menghindari kemacetan.
Penyusunan ulang beban dan penyimpanan dalam prosesor yang tidak sesuai pesanan mengharuskan memastikan bahwa penyimpanan yang lebih awal dalam urutan program akan meneruskan hasil ke banyak alamat yang sama di kemudian hari. Ini menyiratkan logika perbandingan alamat serta penyimpanan untuk alamat (dan ukuran) toko (dan penyimpanan untuk data) sampai toko telah berkomitmen untuk memori (cache). (Untuk ISA dengan model konsistensi memori yang kurang lemah, perlu juga untuk memeriksa bahwa beban dipesan dengan benar sehubungan dengan penyimpanan dari prosesor lain - lebih banyak transistor.)
Pipelining menambahkan beberapa kontrol tambahan dan buffering overhead dan mencegah penggunaan kembali logika untuk berbagai bagian penanganan instruksi, tetapi memungkinkan berbagai bagian penanganan instruksi untuk tumpang tindih pada waktunya untuk instruksi yang berbeda.
Pemasangan pipa dan eksekusi superscalar meningkatkan dampak dari bahaya kontrol (yaitu cabang dan lompatan bersyarat). Pipelining (dan juga eksekusi out-of-order) dapat menunda ketersediaan target lompatan bahkan tanpa syarat, sehingga menambahkan perangkat keras untuk memprediksi target (dan arah untuk cabang bersyarat) memungkinkan pengambilan instruksi untuk melanjutkan tanpa menunggu bagian eksekusi dari prosesor untuk membuat data yang diperlukan tersedia. Prediktor yang lebih akurat cenderung membutuhkan lebih banyak transistor.
Untuk prosesor out-of-order, dapat diinginkan untuk memungkinkan beban dari memori untuk dieksekusi sebelum alamat semua toko sebelumnya telah dihitung, sehingga beberapa perangkat keras untuk menangani spekulasi tersebut diperlukan, mungkin termasuk prediktor.
Tembolok dapat mengurangi latensi dan meningkatkan bandwidth akses memori, tetapi tambahkan transistor untuk menyimpan data dan untuk menyimpan tag (dan membandingkan tag dengan alamat yang diminta). Perangkat keras tambahan juga diperlukan untuk menerapkan kebijakan penggantian. Pengambilan awal perangkat keras akan menambah lebih banyak transistor.
Menerapkan fungsionalitas dalam perangkat keras daripada perangkat lunak dapat meningkatkan kinerja (sambil membutuhkan lebih banyak transistor). Misalnya, manajemen TLB, operasi kompleks seperti operasi multiplikasi atau floating point, operasi khusus seperti penghitungan angka nol di depan. (Menambahkan instruksi juga meningkatkan kompleksitas dekode instruksi dan biasanya kompleksitas eksekusi juga - misalnya, untuk mengontrol bagian mana dari perangkat keras eksekusi yang akan digunakan.)
Operasi SIMD / vektor meningkatkan jumlah pekerjaan yang dilakukan per instruksi tetapi membutuhkan lebih banyak penyimpanan data (register yang lebih luas) dan biasanya menggunakan lebih banyak sumber daya eksekusi.
(Multithreading spekulatif juga dapat memungkinkan beberapa prosesor untuk menjalankan program berulir tunggal lebih cepat. Jelas menambahkan prosesor ke sebuah chip akan meningkatkan jumlah transistor.)
Memiliki lebih banyak transistor tersedia juga dapat memungkinkan arsitek komputer untuk menyediakan ISA dengan lebih banyak register yang terlihat oleh perangkat lunak, berpotensi mengurangi frekuensi akses memori yang cenderung lebih lambat daripada akses register dan melibatkan beberapa tingkat tipuan (misalnya, menambahkan offset ke tumpukan pointer) yang meningkatkan latensi.
Integrasi - yang meningkatkan jumlah transistor pada sebuah chip tetapi tidak dalam sistem - mengurangi latensi komunikasi dan meningkatkan bandwidth, jelas memungkinkan peningkatan kinerja. (Ada juga pengurangan konsumsi daya yang dapat diterjemahkan ke dalam peningkatan kinerja.)
Bahkan di tingkat pelaksanaan instruksi, menambahkan transistor dapat meningkatkan kinerja. Misalnya, carry pick adder menambahkan bit atas dua kali secara paralel dengan asumsi yang berbeda dari carry-in dari bit yang lebih rendah, memilih jumlah bit atas yang benar ketika carry dari bit yang lebih rendah tersedia, jelas membutuhkan lebih banyak transistor daripada yang sederhana ripple carry adder tetapi mengurangi penundaan dalam menghasilkan jumlah penuh. Demikian pula pengganda dengan deretan tunggal carry-save adders menggunakan lebih sedikit transistor (tetapi lebih lambat) daripada pengganda pohon Dadda (atau Wallace) dan tidak dapat di pipelined (jadi harus direplikasi untuk memungkinkan penggandaan lain memulai eksekusi sementara yang sebelumnya) kelipatan sedang berlangsung).
Di atas mungkin melelahkan tetapi tidak lengkap!