Jawaban sebelumnya untuk pertanyaan ini telah mencakup sebagian besar poin penting, tetapi saya ingin menambahkan satu komentar sehubungan dengan ini:
Apakah MKL lebih unggul untuk beberapa tugas?
Tim MKL berada dalam posisi unik untuk mengetahui tentang set instruksi Intel masa depan dan implementasinya dalam prosesor tertentu. Selain itu, mereka memiliki akses ke simulator prosesor eksklusif dan perangkat keras pra-produksi yang tidak dapat digunakan oleh siapa pun di luar Intel. Dengan demikian, MKL berada di atas angin sehubungan dengan tingkat pengetahuan tentang produk masa depan dan ketika mereka memperoleh pengetahuan ini. Dengan demikian, seharusnya tidak terlalu mengejutkan jika mereka menghasilkan implementasi BLAS yang lebih baik daripada orang lain, setidaknya di awal masa pakai produk dengan fitur baru.
Di sisi lain, Intel telah cukup terbuka tentang set instruksi AVX-512 dan telah menyediakan Intel® Software Development Emulator (SDE) yang memungkinkan pengembang untuk meniru instruksi AVX-512 pada prosesor yang tidak mendukung ini secara asli. Karena itu, tidak akan terlalu mengejutkan jika implementasi open-source berkualitas tinggi dari BLAS tersedia untuk prosesor Intel yang mendukung AVX-512 di awal masa pakai produk-produk ini.
Tentu saja, berapa banyak perbedaan yang dibuat untuk memiliki informasi terperinci tentang prosesor tertentu versus dasar-dasar algoritma aljabar linier padat tidak sepenuhnya diselesaikan. Kutipan berikut membahas masalah ini lebih baik daripada yang saya bisa:
Secara teori, tidak ada perbedaan antara teori dan praktik. Tapi, dalam praktiknya, ada.
Pengungkapan Penuh: Saya bekerja untuk Intel.