Satu gangguan acara bukan lagi masalah ruang atau pesawat terbang; kami telah melihat mereka terjadi di permukaan selama lebih dari satu dekade, mungkin dua sekarang.
Seperti yang disebutkan, setidaknya dalam aplikasi luar angkasa kita berurusan dengan gangguan menggunakan triple voting (masing-masing bit benar-benar tiga, dan dua pertiga suara menang, jadi jika ada satu yang berubah, dua lainnya akan menutupinya.). Dan kemudian ECC atau EDAC , dengan scrubber yang melalui RAM pada tingkat yang lebih tinggi dari tingkat pembaruan acara tunggal yang diprediksi untuk membersihkan gangguan peristiwa tunggal (yang benar-benar mendorong dua pertiga suara salah).
Lalu ada dosis total; lama-kelamaan material tersebut menjadi terlalu radioaktif untuk bekerja, jadi Anda menggunakan material yang cukup untuk melampaui umur kendaraan. Bukan sesuatu yang kita khawatirkan di permukaan secara normal. (Dan latchup) Menggunakan tiga / beberapa set logika secara paralel adalah / adalah cara untuk mencoba tidak harus menggunakan teknologi rad-hard tradisional, dan yah, Anda dapat menemukan seberapa baik yang bekerja.
Orang-orang yang dulu tahu cara membuat barang untuk ruang sebagian besar sudah pensiun atau pindah, jadi kami memiliki sejumlah program yang membuat sampah ruang sekarang. Atau memperlakukan ruang seperti produk yang dibumikan, alih-alih mencoba membuat semua orang bekerja dan memiliki pemasukan dan pembakaran kembali yang terkontrol, kami sekarang mengharapkan sejumlah ruang sampah keluar dari setiap rasi bintang.
Kami memang melihat kesal di permukaan. Memory stick ( DRAM ) yang Anda beli memiliki FIT, Failures In Time, dan setiap chip dengan RAM di dalamnya (semua prosesor, banyak lainnya), akan memiliki spesifikasi FIT juga (untuk blok RAM (SRAM)). RAM lebih padat dan menggunakan transistor yang lebih kecil, sehingga lebih rentan terhadap gangguan, dibuat secara internal atau eksternal. Sebagian besar waktu kita tidak melihat atau peduli karena memori yang kita gunakan untuk data, menonton video, dll ditulis, dibaca kembali dan tidak digunakan lagi sebelum itu duduk cukup lama untuk memiliki gangguan. Sebagian memori, seperti yang memegang program atau kernel, lebih berisiko. Tapi kami sudah lama terbiasa dengan ide hanya me-reboot komputer kami atau me-reset / me-reboot ponsel kami (beberapa ponsel / merek Anda harus secara teratur melepas baterai secara berkala). Apakah ini gangguan atau perangkat lunak yang buruk atau kombinasi?
Angka-angka FIT untuk produk individual Anda mungkin melebihi umur produk itu, tetapi gunakan server server yang besar, Anda memperhitungkan semua RAM atau chip atau apa pun dan MTBF berubah dari tahun atau pesanan yang melewati itu, menjadi berhari-hari atau berjam-jam, di suatu tempat di ladang. Dan Anda memiliki ECC untuk mencakup apa yang Anda bisa dari itu. Dan kemudian Anda mendistribusikan beban pemrosesan dengan failover untuk menutupi mesin atau perangkat lunak yang gagal menyelesaikan tugas.
Keinginan untuk penyimpanan solid state, dan perpindahan dari media pemintalan telah menciptakan masalah terkait hal ini. Penyimpanan yang digunakan untuk SSD (dan penyimpanan non-volatil lainnya) untuk menjadi lebih cepat dan lebih murah, jauh lebih tidak stabil daripada yang kita inginkan dan bergantung pada EDAC, karena kita akan kehilangan data tanpa itu. Mereka membuang banyak bit tambahan dan menyelaraskan semuanya, melakukan perhitungan untuk menyeimbangkan kecepatan, biaya, dan umur penyimpanan yang panjang. Saya tidak melihat kita berbalik; Orang-orang menginginkan lebih banyak penyimpanan yang tidak mudah menguap di mana-mana yang cocok dengan paket kecil dan tidak mendominasi harga produk.
Sejauh sirkuit normal pergi, dari hari-hari awal menggunakan transistor untuk sirkuit digital hingga saat ini, kami melewati bagian linear dari transistor dan menggunakannya sebagai saklar, kami menggedornya antara rel dengan beberapa kelebihan untuk memastikannya tetap. . Seperti saklar lampu di dinding Anda, Anda membalikkannya lebih dari setengah pegas membantu sisanya dan menahannya di sana. Inilah sebabnya kami menggunakan digital dan tidak mencoba hidup di wilayah linier; mereka mencoba sejak awal, tetapi gagal. Mereka tidak bisa tetap dikalibrasi.
Jadi kita hanya membanting transistor ke relnya dan kedua sisi sinyal akan menyelesaikan siklus clock berikutnya. Kesulitan besar diambil, dan alat saat ini secara signifikan lebih baik daripada sebelumnya, dalam melakukan analisis desain chip, untuk melihat bahwa dengan desain ada margin pada timing. Kemudian menguji setiap die pada setiap wafer (itu dan / atau setelah kemasan), untuk melihat bahwa setiap chip baik.
Teknologi chip sangat bergantung pada statistik berdasarkan eksperimen. Ketika Anda meng-overclock CPU Anda, nah Anda mendorong margin itu, tetap berada dalam laju clock yang diiklankan, suhu, dll. Dan kemungkinan Anda jauh lebih rendah dari masalah. Prosesor 3 GHz xyz hanyalah sebuah chip 4 GHz yang gagal pada 4 GHz tetapi melewati pada 3 GHz. Bagian-bagian pada dasarnya dinilai cepat dari jalur produksi.
Lalu ada koneksi antara chip atau papan, dan mereka juga mengalami masalah, dan banyak waktu dan usaha untuk membuat standar dan desain papan, dll, untuk mengurangi kesalahan pada antarmuka tersebut. USB , keyboard, mouse, HDMI , SATA , dan sebagainya. Serta semua jejak di papan tulis. Di dalam dan di luar papan Anda memiliki masalah crosstalk; lagi, banyak alat yang tersedia jika Anda menggunakannya serta pengalaman dalam menghindari masalah di tempat pertama, tetapi cara lain di mana kita mungkin tidak melihat satu dan nol terlibat penuh.
Tak satu pun dari teknologi, bahkan ruang, yang sempurna. Itu hanya harus cukup baik, cukup persentase dari produk harus cukup untuk memenuhi rentang hidup yang diharapkan dari produk. Beberapa persen dari ponsel pintar harus membuatnya setidaknya dua tahun, dan hanya itu. Pengecoran atau teknologi yang lebih tua memiliki lebih banyak data eksperimental dan dapat menghasilkan produk yang lebih andal, tetapi lebih lambat, dan mungkin bukan desain baru, jadi begitulah. Ujung tombak hanya itu, pertaruhan untuk semua orang.
Untuk pertanyaan spesifik Anda, transistor pada setiap ujung sinyal didorong dengan cepat melalui wilayah liniernya dan condong ke salah satu rel. Analisis dilakukan pada setiap jalur kombinasional untuk menentukan bahwa ia akan mengendap sebelum jam di ujung jalan mengaitkannya, sehingga benar-benar dibuat nol atau satu. Analisis ini didasarkan pada eksperimen. Chip pertama dari lini produk didorong melampaui batas desain, plot schmoo dibuat untuk menentukan ada margin dalam desain. Variasi pada proses dibuat dan / atau kandidat individu ditemukan yang mewakili chip lambat dan cepat. Ini adalah proses yang rumit dan beberapa memiliki lebih banyak bahan, beberapa memiliki lebih sedikit, berjalan lebih cepat tetapi menggunakan lebih banyak energi atau berjalan lebih lambat, dll.
Anda mendorong mereka ke margin juga. Dan pada dasarnya mendapatkan perasaan kabur hangat bahwa desainnya boleh masuk ke produksi. JTAG / pemindaian batas digunakan untuk menjalankan pola acak melalui chip antara masing-masing keadaan terkunci untuk melihat jalur kombinasional semuanya solid untuk desain. Dan di mana ada kekhawatiran, beberapa tes fungsional terarah dapat terjadi juga. Pengujian lebih lanjut dari silikon pertama dan mungkin pengujian acak untuk memastikan produk tersebut baik. Jika / ketika kegagalan terjadi, itu mungkin mendorong Anda kembali ke tes yang lebih fungsional di jalur produksi. Ini sangat tergantung pada statistik / persentase. 1/1000000 yang buruk keluar mungkin baik-baik saja atau 1/1000 atau apa pun; itu tergantung pada berapa banyak Anda pikir Anda akan menghasilkan chip itu.
Kerentanan seperti disebutkan di sini dan dengan orang lain. Pertama, chip itu sendiri, seberapa baik desain dan prosesnya, seberapa dekat dengan margin adalah jalur terlemah dari chip tertentu dalam produk yang Anda beli. Jika terlalu dekat dengan tepi maka perubahan suhu atau lainnya dapat menyebabkan masalah waktu dan bit akan mengunci data yang belum menetap menjadi satu atau nol. Lalu ada satu gangguan acara. Lalu ada kebisingan. lagi hal-hal yang telah disebutkan ...