Untuk sebuah proyek, kami memiliki 50 server yang semuanya dilengkapi dengan (umumnya) perangkat keras yang sama. Masalah yang kami miliki di sini sangat serius dan terjadi pada semua mesin. Meskipun banyak upaya dan menghubungi produsen dan pengembang perangkat lunak setiap orang saling menunjuk satu sama lain dan bahkan menolak memberi saya petunjuk tentang apa yang sedang terjadi.
Pertama-tama izinkan saya menjelaskan pengaturannya. Ini adalah perangkat keras 'servergrade'. Untuk pengalaman pertama saya, servergrade adalah kekecewaan terbesar dalam hidup saya.
- SuperMicro X10SDV-8C + -LN2F
- Intel Xeon D-1540 (tertanam pada motherboard)
- Kasing 1U atau Kaset SuperMicro yang dirancang khusus
- 480 watt server PSU atau SuperUicro PSU 200 watt asli
- Samsung Evo 850 500 GB SSD
- 32 GB DDR4-2133 ECC atau NON-ECC (tetapi tidak tercampur di server yang sama)
- Asus GT730 GPU 4GB DDR3
- GPU dipasang dengan kartu riser PCIe (bukan pita), tanpa nama dari Cina atau SuperMicro asli
Berjalan pada sistem - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - VM menjalankan tugas-tugas intensif GPU - Sistem ini stok, tidak ada overclocking di semua
Gejala - Acak BSOD 0x09c (alias Machine_Check_Exception): kadang-kadang sistem berjalan selama seminggu tanpa masalah, kadang-kadang macet setelah hanya 10 menit, tetapi sebagian besar waktu berjalan selama beberapa jam.
Sudah dicoba / dicentang:
- BIOS diperbarui ke versi terbaru (saya akan berpikir sekarang bahwa ini meningkatkan waktu untuk sistem menjadi stabil, tetapi itu bisa saja acak).
- Windows diperbarui ke versi terbaru.
- VMWare diperbarui ke versi terbaru.
- Mengganti semua komponen dan mencoba setiap opsi yang berbeda, bahkan mencoba desktop ATX PSU dan M.2 SSD.
- Menginstal semua sistem dari awal dengan Ubuntu. Saya tidak terbiasa dengan Linux dan belum pernah melihat BSOD Linux dan saya masih belum karena sistem server tanpa kepala dan saya mencoba ini di DC. HASIL: sistem akan hang dan setelah reboot Linux melaporkan crash XORG (terkait GPU).
- Mengubah pengaturan GPU di BIOS menjadi 'Above 4G', sisa BIOS adalah bawaan pabrik.
Juga informatif:
- Sistem terletak di pusat data. Suhu, udara, daya, dan jaringan optimal.
- Suhu jauh di bawah maksimum pabrik
- Kami memiliki pengaturan perangkat lunak yang sama persis yang berjalan di komputer desktop (dengan perangkat keras desktop). Sistem ini dapat berjalan dengan baik dengan 1 dari 100 kerusakan komputer setiap bulan.
- Saya telah menghubungi VMWare, katakanlah ini adalah masalah perangkat keras
- Saya telah menghubungi SuperMicro, mereka mengatakan apa-apa kecuali beberapa hal dan sudah mencoba dan juga bahwa ini masih bisa menjadi masalah perangkat lunak.
Kami putus asa di sini. Aplikasi yang kami jalankan untungnya agak berlebihan. Jika server dan VM-nya turun, bukan masalah seperti itu, server lain akan mengambil alih beban dalam 5 menit, tetapi pada tingkat ini saya harus online sepanjang hari untuk me-restart server.
Saya memiliki pengetahuan hardware yang besar tetapi ini sudah lewat, saya sudah mencari ini sepanjang hari selama lebih dari sebulan mencoba segala macam hal yang berbeda. Fakta bahwa motherboard ini digunakan dengan penyedia hosting dalam skala besar membuat saya curiga bahwa board itu sendiri ok. Ini jelas bukan masalah perangkat keras khusus untuk RMA karena semua 50 papan memiliki gejala yang sama. Satu-satunya hal yang berbeda dengan kami adalah GPU. Ini bersamaan dengan eksperimen Linux membuat saya curiga bahwa ini pasti sesuatu di jalur PCIe. GPU itu sendiri stabil di desktop mobo. Meskipun memiliki kapasitas memori yang besar, ini adalah GPU kecil yang tidak membutuhkan banyak daya. Saya akan curiga kartu riser Cina, tetapi sekali lagi kami juga menggunakan riser SuperMicro bersertifikat dan mereka tidak menunjukkan perbaikan sama sekali.
Saya sangat ingin menemukan solusi di sini. Ini akan mulai dengan menentukan penyebab pastinya. Kami bersedia membayar hadiah bagus kepada seorang ahli yang dapat menganalisis beberapa dump dan memberi kami lebih banyak detail (atau lebih baik lagi, sebuah solusi).
Salam,
Simon