Pengguna tidak dapat mengakses surel mereka, CEO tidak dapat membuka beranda perusahaan, dan halaman Anda hanya berbunyi dengan kode "911". Apa yang Anda lakukan ketika semuanya meledak?
Pengguna tidak dapat mengakses surel mereka, CEO tidak dapat membuka beranda perusahaan, dan halaman Anda hanya berbunyi dengan kode "911". Apa yang Anda lakukan ketika semuanya meledak?
Jawaban:
Jawaban pertama adalah tetap tenang! Saya belajar bahwa sulitnya panik sering kali memperburuk keadaan. Setelah itu tercapai, hal berikutnya adalah benar-benar memastikan apa masalahnya. Keluhan dari pengguna dan manajer akan datang pada Anda dari semua sudut, memberi tahu Anda apa yang TIDAK bisa mereka lakukan, tetapi bukan apa masalahnya.
Setelah mengetahui masalahnya, Anda dapat memulai rencana untuk memperbaikinya dan mulai memberikan skala waktu kepada pengguna yang marah!
Tetap tenang
Jangan panik. Bernafas! (Dari diafragma, itu membantu.) Jika Anda sudah mempelajari meditasi, itu juga bisa membantu.
Ketika dihadapkan dengan stres yang ekstrem, tubuh Anda akan beralih ke mode penerbangan atau pertarungan, karena tubuh Anda berpikir itu dalam situasi hidup atau mati. Pada saat ini tubuh Anda sebenarnya akan memompa lebih sedikit darah ke beberapa bagian otak Anda, mengurangi fungsi seperti penalaran. Ini secara efektif menurunkan IQ Anda sebagai naluri, alih-alih rasionalitas, mulai mendominasi fungsi otak Anda. Jika Anda pernah atau menyaksikan pertengkaran, Anda mungkin mengenali gejala-gejala ini ketika emosi orang-orang menyala dan rasionalitas mengambil hari libur. Kemudian, ketika orang memiliki kesempatan untuk menenangkan diri, mereka akan lebih cenderung menerima telah melakukan kesalahan atau telah salah, dan lebih mampu melihat sisi lain, tetapi dalam panasnya momen itu, kurang begitu.
Mempertahankan ketenangan Anda dan menjaga kecerdasan Anda tentang Anda akan membuat otak Anda berfungsi pada kapasitas penuh dan memastikan Anda membuat keputusan rasional berdasarkan bukti dan alasan daripada emosi dan ketakutan.
Triase
Penerapan sumber daya terbatas yang efisien untuk mencapai manfaat terbesar dengan biaya terendah sangat penting di sini. Buat keputusan sedini mungkin yang mana yang harus diperbaiki SEKARANG, yang bisa menunggu sebentar (jam, hari), dan mana yang bisa menunggu tanpa batas. Juga belajar untuk menyadari ketika sesuatu tidak dapat diselamatkan dan tidak layak disimpan (mis. Setengah router meleleh, bahkan jika itu satu-satunya milik Anda, Anda tidak dapat menyimpannya, membeli yang baru dan mendapatkannya di situs pasca-tergesa-gesa atau menemukan sesuatu yang dapat mengisi celah sementara).
Pertahankan Kesadaran Situasional
Jangan biarkan perhatian Anda terperangkap oleh beberapa masalah menarik atau oleh sesuatu yang belum Anda pahami. Tetap fokus pada gambaran besar dan pada mendapatkan hal-hal terpenting bekerja.
Gunakan Metode Ilmiah
Bentuk hipotesis. Tentukan bagaimana Anda akan menguji hipotesis ini. Kumpulkan data untuk menguji hipotesis. Cari juga data yang tidak dikonfirmasi. Perbaiki hipotesis Anda dan ulangi siklus sebanyak yang diperlukan sampai Anda cukup percaya diri dalam hipotesis Anda untuk mengambil tindakan.
Bersikap pragmatis
Sekarang bukan saatnya untuk dogma. Tidak apa-apa untuk mengambil beberapa jalan pintas di sana-sini saat pulih dari bencana. Ini pada dasarnya menimbulkan hutang teknis. Di banyak perusahaan, kegagalan bencana berarti hilangnya pendapatan yang sangat besar. Lebih baik menjalankan segala sesuatu, bahkan jika berada di bawah pijakan yang goyah, daripada untuk berlengah-lengah dan mempertaruhkan mata pencaharian perusahaan Anda. Seperti biasa, penilaian sangat penting di sini. Terkadang masuk akal untuk menopang kipas kotak yang diarahkan ke rak server, terkadang tidak.
Jaga Diri Sendiri
Sudah berapa lama Anda menangani keadaan darurat ini? Kapan terakhir kali Anda minum air? Kapan terakhir kali Anda makan? Sudah berapa lama Anda terjaga? Jangan membuat diri Anda lelah hanya karena ada keadaan darurat, luangkan waktu untuk tetap terhidrasi, makan, dan beristirahat (kalau-kalau ini adalah slog yang panjang, multi-hari).
Rekrut Bantuan
Hampir pasti ada banyak orang berbakat di perusahaan Anda yang termotivasi dan mampu memberikan bantuan. Berhati-hatilah karena terlalu banyak orang berlarian dan menyebabkan masalah satu sama lain. Juga waspada terhadap orang-orang yang mengganggu dengan menempatkan mereka melalui "firerill". Temukan orang yang sudah ingin membantu, buat mereka mengerjakan tugas yang ditargetkan, dan pastikan orang berkomunikasi satu sama lain.
Menyampaikan
Komunikasi sangat penting. Tidak ada yang seram yang tidak diketahui. Ketika orang tidak tahu apa-apa selain bahwa ada sesuatu yang rusak, pernyataan kosong bahwa itu akan kembali dalam jam X hanya meyakinkan (bahkan kurang meyakinkan setelah jam X telah berlalu dan hal-hal masih rusak). Tekanan yang dimainkan dapat mengarahkan Anda untuk memberikan perkiraan waktu WAG yang terlalu optimis, tetapi ini adalah jalan yang salah. Jangan hanya mengatakan Anda sedang mengerjakannya, jangan hanya mengatakan hal-hal akan diperbaiki pada waktu X. Bersikap terbuka, tunjukkan proses Anda, detail kemajuan Anda dan kemunduran Anda. Berikan wawasan tentang masalah, proses Anda dalam melacaknya, dan rencana Anda untuk memperbaiki hal-hal (meskipun tidak menenggelamkan orang dalam masalah kecil). Tunjukkan bahwa masalahnya tidak dapat dipecahkan, tunjukkan bahwa segala sesuatu akan diperbaiki pada akhirnya, tunjukkan bahwa ada orang yang kompeten dalam masalah tersebut,
Jangan Panik.
Langkah 0. Periksa apakah itu bukan sistem pemantauan Anda yang salah
Segera pesan penerbangan ke negara non-ekstradisi
Periksa dasar-dasarnya dulu, sepertinya konyol, tetapi hal-hal seperti
Saya tahu bahwa banyak waktu dapat terbuang untuk mencari solusi ketika masalahnya hulu
Saya ping hal-hal. Apa yang terjadi setelah itu sangat bervariasi tergantung pada hasil ping.
Maaf, tetapi pertanyaan ini sudah dijawab dengan sempurna dalam kartun sysadmin Favorit :
RTFLF - Baca File Log Frakkin
(Saya tidak bisa mengambil kredit untuk ini, semuanya jatuh ke Scott Hanselman )
Jangan mencoba memperbaiki apa pun.
Pastikan Anda tahu persis apa masalahnya, yang mendasarinya. Sekarang mulai memperbaiki hal-hal. Jika ada beberapa hal untuk diperbaiki, pertimbangkan dengan hati-hati hal-hal mana yang dapat ditunda (semoga sampai hari kerja berikutnya, setidaknya!) Dan yang benar-benar harus diperbaiki sekarang.
Tetapi yang paling penting: Setelah semuanya bekerja, tanyakan mengapa "semuanya meledak"? Apa yang akan Anda lakukan untuk mencegah hal ini terjadi lagi? Apakah ada langkah-langkah yang akan membuat solusi lebih mudah jika tidak terjadi lagi?
Beri tahu orang-orang, bahwa Anda mendukungnya dan jika mungkin beri mereka perkiraan kapan semuanya akan kembali normal.
Adapun pemecahan masalah aktual yang jelas tergantung pada apa yang salah. Saya biasanya menyimpan kumpulan skrip "periksa status" untuk berbagai layanan.
Periksa pemasangan kabel! Saya kehilangan jam memeriksa hal-hal lain ketika pertukaran kabel Eth0 yang sederhana akan menyelesaikan masalah ...
Anda harus memiliki rencana darurat.
Sistem esensial harus dirancang dengan failover otomatis atau rencana pemulihan yang terdokumentasi dan teruji.
Semakin penting sistem, semakin banyak ketahanan yang Anda perlukan untuk membangun dan semakin otomatis seharusnya.
Jika Anda tidak memilikinya, maka itu tidak penting, kan!
Pastikan cadangan resume Anda aman :) Lalu,
Temukan kesamaan. Apa yang umum untuk semua sistem yang terpengaruh.
Temukan apa yang berubah. Anda harus memiliki manajemen perubahan formal yang terjadi di organisasi Anda.
Di mana pria baru ... di mana bosnya ...? Apakah salah satu dari mereka mengambil jalan pintas? (Ini hanya reboot server cepat, apa yang mungkin menyakitkan)
Saya suka daftar pemecahan masalah ini Aplikasi Pemecahan Masalah Sederhana Sekarang Memperbaiki Segalanya =)
Sulit dari pernyataan itu untuk memberikan serangkaian tindakan tertentu. Langkah pertama Anda akan didasarkan pada:
Jelas, Anda harus tetap tenang dan waspada tentang masalah yang dihadapi. Pengalaman Anda dengan pemecahan masalah jaringan akan mengajarkan Anda bahwa ini bisa sangat sepele, seperti:
Karena itu, itu juga bisa menjadi sesuatu yang serius dalam kategori:
Komponen kuncinya adalah seberapa banyak ANDA TAHU tentang masalah ini. Apa poin referensi Anda? (Dari perspektif apa 'sistem turun'?).