Saya mencari beberapa saran pasca-acara sehingga acara ini tidak terulang lagi.
Kami memiliki inti jaringan dua switch Cisco 4500x, yang dikonfigurasi untuk redundansi VSS. Dari itu, kami memiliki perangkat iSCSI, bladecenter HP kami untuk vSphere kami, ditambah tautan gabungan ke sakelar akses pengguna kami, dan sepasang sakelar 4948e untuk perangkat tembaga di ruang server kami. Dari 4948es kami memiliki sepasang 2960 sakelar untuk dua tautan ISP, dan sepasang ASA sebagai firewall. Redundansi yang lumayan, kecuali banyak perangkat yang tersambung ke 4948e hanya memiliki NIC tunggal - hanya itu yang bisa kita lakukan.
Kami sedang bersiap untuk mengganti sakelar akses pengguna kami saat ini (Ekstrem lama) dengan Meraki. Kami juga menerapkan Meraki AP untuk mengganti Arubas kami saat ini. Bagian dari proyek nirkabel melibatkan pembuatan beberapa VLAN dan subnet baru, untuk manajemen AP dan nirkabel tamu.
Kami memiliki dua VLAN yang ditentukan (20 dan 40) pada 4500x yang tidak digunakan di mana pun - mengkonfirmasikan bahwa subnet kosong, tidak ada port yang menggunakannya, dll. Saya masuk ke 4500x dan mengeluarkan " no interface vlan 20
", lalu membangunnya kembali dengan subnet Aku ingin. Saya kemudian menambahkannya ke dua port 10Gb yang terhubung ke Meraki
switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>
Saya perhatikan bahwa 20 dan 40 VLAN dimatikan, jadi saya mengeluarkannya no shutdown
. Saya kehilangan akses ke Merakis pada saat itu, jadi saya menyadari bahwa saya belum menambahkan VLAN ke antarmuka saluran port untuk tautan itu.
Setengah dari lingkungan kita menjadi tidak terjangkau pada saat ini
Tautan Internet kami menjadi sangat flakey. Telepon VoIP Avaya kami tidak dapat melakukan panggilan masuk atau keluar. Kami memiliki beberapa perangkat iSCSI yang terhubung dengan tembaga yang menjadi tidak tersedia - tidak ada pemadaman untuk apa pun yang dihadapi pengguna, tetapi cadangan dan arsip e-mail kami terpengaruh. Saya masuk ke ruang server, dan memutus Merakis dari 4500x (mencabut kedua port fiber 10Gb) jika saya entah bagaimana membuat loop - tidak ada perubahan. Saya akui hanya menatap ini sebentar pada saat itu.
Saya menarik Orion dan mencatat bahwa salah satu sakelar eksternal kami (Cat2960) dan salah satu pasangan ASA kami juga turun. Tampaknya kami memiliki beberapa kehilangan konektivitas LAN parsial, tetapi pasangan ASA juga terhubung dengan crossover satu sama lain, dan uplink mereka tidak turun, sehingga mereka tidak gagal terhadap apa yang bisa dicapai oleh perangkat internal kami. Saya mematikan "down" ASA dan internet menjadi terjangkau kembali.
Saya menelepon TAC, dan setelah beberapa jam berkutat dengan teknologi yang menjaga nitpicking setiap konfigurasi port untuk setiap host yang jatuh, saya menunjukkan kepadanya pada 4500x, saya login ke salah satu switch 4948e kami dan menunjukkan bagaimana ia tidak bisa melakukan ping sesuatu yang terhubung langsung ke atas - salah satu perangkat iSCSI tembaga berbasis Windows kami, antarmuka iLO pada bladecenter kami, dll.
Dia telah melihat log dan tidak menemukan apa pun, tetapi pada titik ini dia berkata "Sepertinya bug spanning-tree bahkan jika saya tidak melihat itu dalam log", jadi kami reboot 4948e dan semuanya langsung Host yang terhubung tidak dapat dihubungi - termasuk kabinet Avaya, jadi ponsel kami mulai berfungsi kembali. Kami masih memiliki masalah dalam perangkat yang terhubung dengan serat 4500x - jalur mati, karena semuanya berlebihan. Dia ingin menghidupkan siklus itu dengan tidak berterima kasih, tetapi ini memiliki 10 Gbit iSCSI kami, dan itu akan membuat lingkungan vSphere kami (pada dasarnya semua server kami) mengalami minggu yang buruk. Saya membujuknya untuk melakukan pergantian redundansi yang anggun, yang menangani masalah yang tersisa.
TL; DR: Saya membuat perubahan yang cukup berbahaya pada inti kami, dan menyebabkan masalah yang mengerikan. Apakah saya membuat kesalahan konfigurasi yang seharusnya diprediksi menyebabkan hal ini - misalnya, jika saya tidak mematikan VLAN terlebih dahulu dan menambahkannya ke portchannel dan kemudian port, apakah ini akan dihindari? Teknologi Cisco tidak mengatakan itu; katanya, dengan waktu lebih dari satu tahun dan versi iOS lama, situasi seperti ini tidak mengejutkan.
4500x: Perangkat Lunak Cisco IOS, Perangkat Lunak IOS-XE, Catalyst 4500 L3 Switch Software (cat4500e-UNIVERSALK9-M), Versi 03.04.05.SG SIARAN PERANGKAT LUNAK (fc1) ROM: 15.0 (1r) SG10
4948e: Perangkat Lunak Cisco IOS, Perangkat Lunak Catalyst 4500 L3 Switch (cat4500e-IPBASEK9-M), Versi 15.0 (2) SG10, RELEASE SOFTWARE (fc1) ROM: 12.2 (44r) SG11