Asumsikan menjalankan vertex shader adalah 100 jepit, maka itu berarti Anda dapat memproses 1000e9 / 100 = 10e9 simpul per detik.
Tidak, itu pasti tidak.
Pada dasarnya, Anda harus mempertimbangkan perhitungan kecepatan eksekusi kode apa pun hanya berdasarkan hitungan "FLOPS" sebagai tersangka. Memang, umumnya lebih baik jika Anda mengabaikan FLOPS sepenuhnya.
Anda tidak mendefinisikan istilah "unit paralel"; tanpa definisi itu, kami hanya bisa menebak apa yang Anda inginkan.
Ambil Radeon 5870. Ini memiliki 1600 unit floating-point. Itu berarti, untuk setiap siklus, dapat menjalankan 1.600 operasi titik mengambang skalar sekaligus. Namun, setiap opcode VLIW bekerja pada register matematika vektor 5 arah. Jadi rincian terkecil dari kode aktual adalah 1600/5, atau 320 (catatan: ini adalah penyederhanaan besar ). Itu 320 utas.
Namun , itu bukan cara kerjanya. Anda tidak memiliki 320 jalur eksekusi yang terpisah. Anda tidak dapat memiliki 320 bagian kode yang berbeda yang dijalankan pada 320 unit yang berbeda. Lihat, VLIW 5 arah itu sendiri dikelompokkan menjadi inti SIMD 4 arah. Setiap SIMD dapat memiliki jalur eksekusi sendiri dan kode sumbernya sendiri. Setiap VLIW dalam inti SIMD dapat memiliki data terpisah, sehingga mereka menghitung nilai yang terpisah. Tetapi setiap VLIW dalam inti SIMD mengeksekusi instruksi yang sama dalam langkah-kunci dengan VLIW lain dalam inti itu.
Jadi sungguh, Anda hanya memiliki 320/4, atau 80 utas total. Tetapi sekali lagi, itu tergantung pada "unit paralel" seperti apa yang Anda bicarakan. Secara teknis, 1600, 320, dan 80 semuanya adalah jawaban yang sah.
Dan itu hanya untuk satu arsitektur tertentu . Garis Fermi NVIDIA (GeForce 4xx dan yang lebih tinggi) menggunakan arsitektur yang sangat berbeda. Garis Cayman ATI (Radeon 69xx) mengubah VLIW 5 arah menjadi VLIW 4 arah. Arsitektur mereka selanjutnya mungkin memiliki beberapa perbedaan yang signifikan juga.
Tanpa mengetahui apa yang Anda cari, tidak ada cara untuk menjawab pertanyaan itu.