Bagaimana saya harus membakar di hard drive?


41

Google melakukan penelitian yang sangat menyeluruh tentang kegagalan hard drive yang menemukan bahwa sebagian besar hard drive gagal dalam 3 bulan pertama penggunaan yang berat.

Rekan kerja saya dan saya berpikir kami dapat menerapkan proses burn-in untuk semua hard drive baru kami yang berpotensi menyelamatkan kita dari sakit hati dari kehilangan waktu pada drive baru yang belum teruji. Namun sebelum kami menerapkan proses pembakaran, kami ingin mendapatkan wawasan dari orang lain yang lebih berpengalaman:

  • Seberapa pentingkah membakar di hard drive sebelum Anda mulai menggunakannya?
  • Bagaimana Anda menerapkan proses pembakaran?
    • Berapa lama Anda membakar dalam hard drive?
    • Perangkat lunak apa yang Anda gunakan untuk membakar di drive?
  • Berapa banyak stres yang terlalu banyak untuk proses pembakaran?

EDIT: Karena sifat bisnis, RAID tidak mungkin digunakan sebagian besar waktu. Kami harus mengandalkan drive tunggal yang dikirimkan melalui surat ke seluruh negara cukup sering. Kami mencadangkan drive sesegera mungkin, tetapi kami masih mengalami kegagalan di sana-sini sebelum kami mendapat kesempatan untuk mencadangkan data.

MEMPERBARUI

Perusahaan saya telah menerapkan proses burn-in untuk sementara waktu sekarang, dan terbukti sangat berguna. Kami segera membakar semua drive baru yang kami miliki, memungkinkan kami menemukan banyak kesalahan sebelum garansi berakhir dan sebelum memasangnya ke sistem komputer baru. Juga terbukti bermanfaat untuk memverifikasi bahwa drive telah rusak. Ketika salah satu komputer kami mulai menemukan kesalahan dan hard drive adalah tersangka utama, kami akan menjalankan kembali proses burn-in pada drive itu dan melihat kesalahan untuk memastikan drive benar-benar masalah sebelum memulai proses RMA atau melempar itu di tempat sampah.

Proses burn-in kami sederhana. Kami memiliki sistem Ubuntu yang ditunjuk dengan banyak port SATA, dan kami menjalankan badblock dalam mode baca / tulis dengan 4 operan di setiap drive. Untuk menyederhanakan, kami menulis sebuah skrip yang mencetak peringatan "DATA AKAN DIHAPUS DARI SEMUA DRIVE ANDA" dan kemudian menjalankan badblock di setiap drive kecuali drive sistem.


15
Anehnya, mengapa Anda mengirimkan drive ke seluruh negeri? Sepertinya Anda lebih mungkin mengalami kegagalan drive sebagai akibat dari kegagalan kejutan dan kesalahan penanganan umum oleh layanan pos daripada karena alasan burn-in akan mendeteksi.
Paperjam

6
@Lie Ryan: Perangkat keras penyimpanan surat masih merupakan cara tercepat untuk mentransfer data. Internet sangat lambat, dan jika Anda harus melewati jaringan institusional dan firewall, itu semakin buruk.
Jonas

4
@Lie Ryan: Jika Anda berurusan dengan data rahasia rahasia pemerintah, SSH tidak akan melakukannya . Secara umum, komputer yang berisi data itu mungkin tidak terhubung ke Internet publik. Jika Anda memiliki gigabyte data rahasia untuk ditransfer, mengirimkan drive terenkripsi adalah pilihan yang paling efisien.
benzado

3
@Lie Ryan: Tepat. Bahkan dengan koneksi internet yang sangat cepat, Anda membutuhkan waktu satu bulan untuk mengirimkan 7TB (dan itu jika Anda memiliki kemewahan memiliki kendali atas throughput Anda dan penerima). Dengan UPS, 7TB ada di sana pada hari berikutnya.
Jonas

5
Itu bagus dan segalanya, kecuali ketika Anda memiliki tim seluler di jalan mengumpulkan data dalam jumlah besar. Berarti Anda harus bergantung pada koneksi internet seluler atau hotel, dan Anda tidak pernah berada di satu tempat selama lebih dari 8 jam.
Phil

Jawaban:


36

Seberapa pentingkah membakar di hard drive sebelum Anda mulai menggunakannya?

Jika Anda memiliki cadangan yang baik, dan sistem ketersediaan tinggi yang baik, maka tidak terlalu banyak. Karena memulihkan dari kegagalan seharusnya cukup mudah.

Bagaimana Anda menerapkan proses pembakaran? Perangkat lunak apa yang Anda gunakan untuk membakar di drive? Berapa banyak stres yang terlalu banyak untuk proses pembakaran?

Saya biasanya akan menjalankan badblock terhadap drive atau sistem baru ketika saya mendapatkannya. Saya akan menjalankannya setiap kali saya menghidupkan kembali komputer dari tumpukan suku cadang. Perintah seperti ini ( badblocks -c 2048 -sw /dev/sde) sebenarnya akan menulis ke setiap blok 4 kali setiap kali dengan pola yang berbeda (0xaa, 0x55, 0xff, 0x00). Tes ini tidak melakukan apa pun untuk menguji banyak baca / tulis acak, tetapi harus membuktikan bahwa setiap blok juga dapat ditulis dan dibaca.

Anda juga bisa menjalankan bonnie ++ , atau iometer yang merupakan alat pembandingan. Ini harus mencoba sedikit menekankan drive Anda. Drive seharusnya tidak gagal walaupun Anda mencoba memaksimalkannya. Jadi sebaiknya Anda mencoba melihat apa yang bisa mereka lakukan. Saya tidak melakukan ini sekalipun. Mendapatkan patokan I / O dari sistem penyimpanan Anda tepat pada waktu pemasangan / pengaturan mungkin sangat berguna di masa mendatang ketika Anda melihat masalah kinerja.

Berapa lama Anda membakar dalam hard drive?

Satu menjalankan badblocks sudah cukup menurut saya, tetapi saya percaya saya memiliki sistem cadangan yang sangat kuat, dan kebutuhan HA saya tidak setinggi itu. Saya dapat melakukan downtime untuk memulihkan layanan pada sebagian besar sistem yang saya dukung Jika Anda sangat khawatir, bahwa Anda pikir pengaturan multi-pass mungkin diperlukan, maka Anda mungkin harus memiliki RAID, cadangan yang baik, dan pengaturan HA yang baik pula.

Jika saya terburu-buru, saya mungkin melewatkan burn-in. Cadangan saya, dan RAID harus baik-baik saja.


49

IMNSHO, Anda seharusnya tidak mengandalkan proses burn-in untuk menghilangkan drive buruk dan "melindungi" data Anda. Mengembangkan prosedur ini dan mengimplementasikannya akan memakan waktu yang bisa lebih baik digunakan di tempat lain dan bahkan jika drive melewati burn-in, mungkin masih gagal berbulan-bulan kemudian.

Anda harus menggunakan RAID dan cadangan untuk melindungi data Anda. Setelah itu di tempat, biarkan khawatir tentang drive. Pengontrol RAID dan subsistem penyimpanan yang baik akan memiliki proses 'scrubbing' yang sering memeriksa data dan memastikan semuanya baik-baik saja.

Setelah semuanya diatasi, Anda tidak perlu melakukan penggosokan disk, meskipun seperti yang disebutkan orang lain, tidak ada salahnya melakukan tes beban sistem untuk memastikan semuanya berjalan seperti yang Anda harapkan. Saya tidak akan khawatir tentang disk individu sama sekali.


Seperti yang telah disebutkan dalam komentar, tidak masuk akal menggunakan hard drive untuk use case khusus Anda. Mengirimnya sekitar jauh lebih mungkin menyebabkan kesalahan data yang tidak akan ada ketika Anda melakukan burn-in.

Media tape dirancang untuk dikirimkan. Anda bisa mendapatkan 250MBps (atau hingga 650MBps terkompresi) dengan drive IBM TS1140 tunggal yang harus lebih cepat daripada hard drive Anda. Dan lebih besar juga - satu kartrid dapat memberi Anda hingga 4TB (tidak terkompresi).

Jika Anda tidak ingin menggunakan kaset, gunakan SSD. Mereka dapat diperlakukan jauh lebih kasar dari HDD dan memenuhi semua persyaratan yang Anda berikan sejauh ini.


Setelah semua itu, inilah jawaban saya untuk pertanyaan Anda:

  • Seberapa pentingkah membakar dalam hard drive sebelum Anda mulai menggunakannya?
    Tidak semuanya.
  • Bagaimana Anda menerapkan proses pembakaran?
    • Berapa lama Anda membakar dalam hard drive?
      Satu atau dua lari.
    • Perangkat lunak apa yang Anda gunakan untuk membakar di drive?
      Menjalankan sederhana, katakanlah, shreddan badblocksakan dilakukan. Periksa data SMART setelahnya.
  • Berapa banyak stres yang terlalu banyak untuk proses pembakaran?
    Tidak terlalu stres. Anda harus bisa melempar apa pun ke disk tanpa itu meledak.

1
Satu-satunya penyesalan saya tentang posting ini adalah bahwa saya hanya dapat mengunggahnya sekali. @Phil, Anda menciptakan kembali roda di sana. Cara untuk memastikan Anda tidak kehilangan data karena kegagalan drive acak (atau perangkat keras lain yang terkait) adalah cadangan dan array RAID.
Rob Moir

8
Saya setuju Anda tidak harus bergantung pada itu, tetapi menjalankan menjalankan scan terhadap sistem sebelum dimasukkan ke dalam produksi telah mengidentifikasi masalah potensial bagi saya beberapa kali. Jika Anda tidak terburu-buru, membiarkan komputer memindai sendiri selama satu atau dua hari biasanya tidak menyakiti apa pun.
Zoredache

7
Jawaban ini memiliki suara terbanyak, namun gagal menjawab pertanyaan paling banyak. OP telah menyatakan bahwa RAID tidak mungkin. Jika "satu drive dikirimkan melalui email ke seluruh negara" maka serangan tidak dapat dilakukan. Proses pencadangan sudah ada, tetapi tampaknya OP ingin menemukan apa saja dan segalanya untuk membantu menghemat waktu seandainya terjadi kerusakan. (Catatan: Saya bekerja di perusahaan yang sama dengan OP, jadi saya tahu situasinya, data akan disalin ke RAID setelah dikirimkan) Jika Anda HARUS membakar drive, secara hipotesis, bagaimana Anda?
jsmith

3
Dalam hal itu, pertanyaannya harus menyediakan konteks ini. Dari apa yang Anda katakan, pertanyaannya seharusnya adalah "Kita perlu mengirim hard drive melalui surat siput / pengiriman. Bagaimana kita melakukan tes burn-in sebelum mengirimnya untuk meminimalkan kegagalan?" Lucunya, jawabannya tidak berubah. Kirim sepasang drive! Atau lebih baik, gunakan kaset. Kaset dirancang untuk digunakan dengan cara ini, HDD tidak. Lebih banyak informasi mengarah pada jawaban yang berbeda.
MikeyB

2
Kaset tidak dapat menulis data secepat hard drive? 250MBps (tidak terkompresi) tidak cukup baik untuk Anda? Saya akan mengatakan bahwa proses burn-in sebenarnya tidak akan membantu melindungi terhadap kegagalan dengan use case Anda.
MikeyB

8

Mengingat klarifikasi Anda, sepertinya proses burn-in tidak akan berguna bagi Anda. Drive gagal terutama karena faktor mekanik, biasanya panas dan getaran; bukan karena bom waktu yang tersembunyi. Proses "burn-in" menguji lingkungan instalasi sama seperti proses lainnya. Setelah Anda memindahkan barang itu, Anda kembali ke tempat Anda mulai.

Tapi di sini ada beberapa petunjuk yang dapat membantu Anda:

Drive laptop biasanya dirancang untuk menahan dorongan dan getaran yang lebih besar daripada drive desktop. Teman saya yang bekerja di toko pemulihan data selalu mengirimkan data ke klien di drive laptop karena alasan itu. Saya tidak pernah menguji fakta ini, tetapi tampaknya "pengetahuan umum" di industri tertentu.

Flash drive (mis. USB thumb drive) adalah yang paling tahan goncangan dari media apa pun yang akan Anda temukan. Seharusnya lebih kecil kemungkinannya Anda kehilangan data saat transit jika Anda menggunakan media flash.

Jika Anda mengirimkan drive Winchester, lakukan pemindaian permukaan sebelum menggunakannya. Atau lebih baik lagi, jangan digunakan. Sebagai gantinya, Anda mungkin ingin menetapkan drive tertentu sebagai drive "pengiriman", yang melihat semua penyalahgunaan, tetapi Anda tidak bergantung pada integritas data. (Yaitu: menyalin data ke drive untuk pengiriman, menyalin setelah pengiriman, sangat checksum di kedua sisi, hal semacam itu).


"Begitu kamu memindahkan benda itu, kamu kembali ke tempat kamu mulai." - tidak benar. ini adalah bagaimana grafik MTTF untuk disk terlihat seperti: cs.cmu.edu/ ~ bianca/ fast/ img13.png cs.ucla.edu/classes/spring09/cs111/scribe/16/… pengujian pada periode awal dapat menyaring dari banyak drive bermasalah, produsen benar-benar melakukan tes stres ini untuk membuat produk yang lebih dapat diandalkan tetapi tentu saja tidak ekonomis untuk melakukan tes sampai grafik mendatar.
Karoly Horvath

3
@yi_H: Saya pikir tylerl menyiratkan bahwa mungkin penyebab kegagalan awal adalah karena proses pengiriman itu sendiri (yang tidak masuk akal, saya ingin melihat grafik yang merencanakan kegagalan drive vs frekuensi pengiriman), oleh karena itu jika Anda mengirim harddisk di seluruh negeri, maka MTTF akan diatur ulang; jadi jika Anda mengirimkan drive setiap tiga bulan, Anda selalu berada di zona kegagalan awal.
Lie Ryan

5

Proses Anda salah. Anda harus menggunakan array serangan. Di tempat saya bekerja, kami telah membuat susunan serangan kasar yang dirancang untuk dibawa berkeliling. Itu bukan ilmu roket. Pemasangan kejutan pada drive dalam penutup yang terlalu besar dengan isolator getar karet besar akan meningkatkan keandalan yang sangat besar. (Seagate constellation-es drive, sebagai contoh diberi nilai untuk guncangan 300G tetapi hanya getaran 2G, yang tidak beroperasi: sehingga wadah pengiriman perlu untuk mengisolasi drive tersebut. Http://www.novibes.com/Products&productID=62 atau http : //www.novibes.com/Products&productId=49 [bagian # 50178])

Namun, Anda benar-benar ingin membakar dalam hard drive uji jadi begini.

Saya telah bekerja pada sistem seperti hard drive dan membakar menemukan beberapa masalah tetapi ...

Untuk pengujian siklus hidup yang dipercepat dari PCB untuk mengeluarkan kesalahan, tidak ada yang mengalahkan siklus panas / dingin. (Mengoperasikan siklus panas-dingin bekerja lebih baik ... tetapi lebih sulit untuk Anda lakukan, terutama dengan bank HDD)

Dapatkan diri Anda sebuah kamar besar lingkungan enoug untuk jumlah drive yang Anda peroleh pada suatu waktu. (Ini cukup mahal, akan lebih murah untuk mengirim array serangan di sekitar) Anda tidak dapat berhemat pada ruang uji Anda akan memerlukan kontrol kelembaban dan landai diprogram.

Program dalam dua ramp suhu berulang, turun ke suhu penyimpanan minimum, hingga suhu penyimpanan maksimum, membuat landai cukup curam untuk mengecewakan insinyur aplikasi dari produsen hard drive Anda. 3 siklus dingin-panas dalam 12 jam akan melihat drive gagal cukup cepat. Jalankan drive setidaknya 12 jam seperti ini. Jika ada pekerjaan setelah itu saya akan terkejut.

Saya tidak memikirkan hal ini: Di ​​satu tempat saya bekerja kami memiliki seorang insinyur produksi melakukan ini, untuk mendapatkan lebih banyak produk yang dikirim dengan peralatan tes yang sama, ada lonjakan besar dalam kesalahan dalam pengujian, tetapi kematian pada tingkat kedatangan turun ke praktis nol.


5

Saya tidak setuju dengan semua jawaban yang pada dasarnya mengatakan "Jangan repot-repot dengan burn-in, punya cadangan yang baik".

Meskipun Anda harus selalu memiliki cadangan, saya menghabiskan 9 jam kemarin (di atas shift 10 jam saya yang biasa) memulihkan dari cadangan karena sistem berjalan dengan drive yang tidak dibakar.

Ada 6 drive dalam konfigurasi RAIDZ2 (setara dengan ZFS ke RAID-6) dan kami memiliki 3 drive mati selama 18 jam pada kotak yang telah berjalan selama sekitar 45 hari.

Solusi terbaik yang saya temukan adalah membeli drive dari satu produsen tertentu (jangan campur-aduk), kemudian jalankan alat yang disediakan untuk menjalankan drive.

Dalam kasus kami, kami membeli Western Digital dan menggunakan diagnostik drive berbasis DOS dari ISO yang dapat di-boot. Kita jalankan, jalankan opsi untuk menulis sampah acak ke seluruh disk, kemudian jalankan tes SMART singkat diikuti oleh tes SMART panjang. Itu biasanya cukup untuk menghilangkan semua bad sector, baca / tulis realokasi, dll ...

Saya masih mencoba menemukan cara yang layak untuk 'batch' itu sehingga saya dapat menjalankannya terhadap 8 drive sekaligus. Mungkin hanya menggunakan 'dd if = / dev / urandom dari = / dev / apapun' di Linux atau 'badblocks'.

EDIT: Saya menemukan cara yang lebih baik untuk 'batch' itu. Saya akhirnya berhasil menyiapkan server boot PXE di jaringan kami untuk memenuhi kebutuhan tertentu, dan memperhatikan bahwa Ultimate Boot CD dapat di-boot PXE. Kami sekarang memiliki segelintir mesin sampah yang bisa di-boot PXE untuk menjalankan diagnostik drive.


3
Apa yang Anda tahu? Jawaban yang menjawab pertanyaan dan tidak berkhotbah di OP. +1
elBradford

3
Jika Anda ingin data acak ditulis ke drive, jangan baca dari / dev / urandom; tidak separah sepupunya yang memblokir / dev / acak tapi masih lambat, dan itu tidak benar-benar memberi Anda apa pun. Alih-alih, atur pemetaan dm-crypt biasa dengan kunci acak (yang bisa Anda dapatkan dari / dev / urandom atau / dev / random) dan kemudian cukup dd / dev / nol ke perangkat yang dipetakan. Mungkin akan berada di antara dua kali lebih cepat dan urutan besarnya lebih cepat. gitlab.com/cryptsetup/cryptsetup/wikis/FrequentlyAskedQuestions "Bagaimana saya bisa menghapus perangkat dengan keacakan crypto-grade?" memiliki contoh cara melakukannya.
CVn

Saran luar biasa @ MichaelKjörling
Aaron C. de Bruyn

3

Seberapa pentingkah membakar di hard drive sebelum Anda mulai menggunakannya?

Tergantung.
Jika Anda menggunakannya dalam RAID yang menyediakan redundansi (1, 5, 6, 10)? Tidak terlalu.
Jika Anda menggunakannya standaolone? Sedikit, tetapi Anda lebih baik hanya menjalankan smartd atau sesuatu untuk memonitornya, setidaknya menurut saya.

Ini secara alami mengarah pada jawaban saya untuk " Bagaimana Anda menerapkan proses burn-in? " - Saya tidak.
Alih-alih mencoba "membakar" disk, saya menjalankannya dalam pasangan yang berlebihan dan menggunakan pemantauan prediktif (seperti SMART) untuk memberi tahu saya ketika sebuah drive semakin miring. Saya telah menemukan bahwa waktu ekstra yang diperlukan untuk melakukan burn-in penuh (benar-benar melatih seluruh disk) secara substansial lebih mahal daripada berurusan dengan kegagalan disk dan swap-out.
Menggabungkan RAID dan cadangan yang baik data Anda harus sangat aman, bahkan ketika berhadapan dengan kematian bayi (atau ujung lain dari perawatan bak mandi ketika Anda mulai memiliki drive yang mati karena usia tua)


1
Bagaimana jika drive tidak dapat dimonitor karena tidak di satu tempat yang konstan? :)
jsmith

2
@jsmith - maka Anda sudah mengirimkan pemberitahuan daripada polling dari host pemantauan - hampir tidak ada situasi di mana Anda benar - benar tidak dapat memonitor sesuatu, ada hanya yang memerlukan sedikit pemikiran kreatif :)
voretaq7

2

Spinrite (grc.com) akan membaca dan menulis kembali semua data pada drive. Ini adalah hal yang baik untuk dilakukan untuk drive baru bahkan jika Anda tidak mencoba membuatnya gagal. Butuh waktu lama untuk berjalan di level 4, biasanya beberapa hari untuk drive ukuran saat ini. Saya juga harus menambahkan bahwa itu tidak merusak. Bahkan jika memiliki data di tempat-tempat yang buruk itu akan bergerak dan memulihkannya. Tentu saja Anda tidak akan pernah menjalankannya di SSD.


1

Saya yakin pembandingan sekali seminggu dan pengecekan kesalahan akan cukup dalam "membakar" hard drive. Padahal sejak posting kamu aku belum pernah mendengar hal seperti itu.

Dikutip dari "6_6_6" di Stroagereview.com

1. Connect the drive to a running system. Read SMART values.

2. Do a SMART short self test. Do a SMART long self-test.

3. Zero fill / Wipe the drive with the manufacturer's utility. Entire drive.

4. Run HDTach full read/write. Everest / Sandra, etc all have stress tests. Run hard drive part continously for hours.

5. Run Victoria for Windows Read/Write test and make sure no slow sectors.

6. Drop to DOS. Run MHDD, run a LBA test and see check for slow sectors. Run Read/Write/Verify test. Run drive internal ATA secure erase command.

7. Do a full format.

8. Compare SMART values. If no anomalies, all good to go. Install your OS and continue.

Secara keseluruhan, saya pribadi berpikir itu adalah ide yang buruk.

EDIT: Sumber: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/


0

Pertama, saya setuju dengan poster lain bahwa case use Anda menunjukkan bahwa tape drive akan menjadi pilihan yang lebih baik.

Jika itu tidak mungkin, Jika Anda harus menerbangkan drive di seluruh negara, RAID yang sebenarnya tampaknya tidak menjadi pilihan, karena Anda harus memiliki lebih banyak drive yang diangkut, yang meningkatkan risiko kegagalan. Namun, bagaimana dengan skema mirroring sederhana, mengirim satu drive dan menyimpan yang lain di situs sumber?

Kemudian, jika drive gagal pada saat kedatangan, salinan baru dapat dibuat dan dikirim. Jika drive baik pada saat kedatangan, cadangan kemudian dapat digunakan kembali - baik untuk mengirim atau untuk membuat cadangan data asli.


0

Anda belum benar-benar mengatakan mengapa drive dikirimkan - apakah ini hanya cara pengiriman data, apakah mereka memiliki aplikasi lengkap / gambar OS yang siap untuk di-boot di PC, atau yang lainnya?

Saya setuju dengan jawaban lain bahwa RAID atau cadangan lebih baik daripada pemindaian, karena risiko pengiriman drive yang menyebabkan masalah mekanis.

Cara yang lebih umum untuk menempatkan ini adalah "bergantung pada data yang berlebihan untuk menangkap dan memperbaiki kesalahan" - baik mengirimkan 2 drive untuk setiap set data, atau mengirimkan data yang berlebihan pada satu drive. Sesuatu seperti Parchive memungkinkan Anda menambahkan tingkat redundansi ke data, memungkinkan pemulihan bahkan jika sebagian besar data rusak. Karena disk cukup murah akhir-akhir ini, hanya membeli disk yang lebih besar dari yang dibutuhkan biasanya akan lebih murah daripada memindai drive, mengirim drive pengganti, atau mengirimkan 2 drive.

Ini akan melindungi terhadap kegagalan non-bencana drive - namun masih lebih baik untuk tidak menggunakan kembali drive yang dikirim kecuali untuk pengiriman, seperti yang disarankan sebelumnya, yaitu melihatnya seperti pita yang harus diekstraksi ke drive 'nyata' yang secara permanen diinstal dan tidak dikirim ke mana pun.

Ini akan memungkinkan Anda mengirimkan sejumlah besar data (atau bahkan gambar aplikasi / OS) dan mengurangi dampak kesalahan disk ke tingkat apa pun yang ekonomis.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.