Bạn có biết? Mạng có thể “tự tan chảy” chỉ vì một lỗi nhỏ tưởng chừng vô hại! -

Chào các bạn kỹ thuật viên, IT Admin, anh em DevNet và SysOps!
Hôm nay chúng ta cùng nhau khám phá hai khái niệm cực kỳ thú vị nhưng rất “đời” trong mạng máy tính: Fail Open và Fail Closed — và vì sao nó có thể khiến cả mạng bạn tắt thở chỉ sau vài giây nếu không hiểu rõ.

Nguyên lý cơ bản: Fail Open vs. Fail Closed
Trong thế giới mạng, khi một thiết bị hoặc cơ chế điều khiển bị lỗi, nó sẽ phản ứng theo hai kiểu:

Fail Open nghĩa là:
"Tôi không điều khiển được nữa... nhưng cứ mở ra cho dữ liệu đi tiếp đi!"
→ Tưởng là tốt bụng nhưng hậu quả thì... dữ liệu sẽ bị phát tán vô tội vạ, giống như ai đó mở cửa kho xăng khi đang cháy vậy. Càng để lâu, mạng càng loạn.
Fail Closed nghĩa là:
"Tôi không chắc đường đi nữa... vậy thì ngừng lại để an toàn."
→ Mặc dù tạm thời gây gián đoạn lưu lượng, nhưng ngăn chặn được hậu quả lan rộng, tránh hiệu ứng domino trong toàn mạng.

Case Study: Khi Layer 2 “tốt bụng” quá mức
Giờ hãy tưởng tượng bạn có một mạng đơn giản với ba switch kết nối theo hình tam giác. Mọi thứ hoạt động trơn tru cho đến khi...

Một switch bị lỗi cơ chế điều khiển (L2 Control Plane Failure) — cụ thể là lỗi Spanning Tree Protocol (STP).
Và điều gì xảy ra?

Switch đó không biết nên chặn cổng nào, nên... không chặn gì cả!
Tất cả broadcast và các frame không rõ địa chỉ (unknown unicast) bắt đầu được phát tán khắp nơi.
Lưu lượng xoay vòng như lốc xoáy giữa các switch. CPU tăng vọt. Switch bắt đầu rơi vào tình trạng nghẽn, nóng ran và...

Toàn mạng "tan chảy". Người dùng không truy cập được Internet. Các ứng dụng dừng phản hồi. IT chạy đôn đáo nhưng không rõ lỗi từ đâu.
→ Đó chính là hậu quả điển hình của một cơ chế Fail Open — để mạng tiếp tục chạy mà không còn ai điều tiết.

Case Study ngược lại: Khi Layer 3 “lạnh lùng nhưng thông minh”
Giờ giả sử bạn có một mạng backbone chạy định tuyến OSPF hoặc BGP giữa ba router.

Một router bất ngờ gặp sự cố ở control plane (L3 Control Plane Failure).
Nhưng lần này, cơ chế định tuyến phát hiện ngay sự mất kết nối với láng giềng.
Nó chủ động xóa đường đi khỏi bảng định tuyến, và lưu lượng đến router đó sẽ tạm thời bị chặn.

Có thể một ít gói tin bị “rơi vào sọt rác”, nhưng:

Không có broadcast storm.
Không có vòng lặp.
Mạng còn lại vẫn chạy bình thường.
Các giao thức định tuyến hội tụ lại sau vài giây → lưu lượng được khôi phục.

→ Đây là một ví dụ rõ ràng về Fail Closed — tuy ngừng, nhưng ngăn chặn thảm họa lớn hơn.

Bài học rút ra?
Nếu bạn đang thiết kế hệ thống mạng:

Đừng bao giờ để lỗi của một thiết bị “lan ra như virus”!
Hãy ưu tiên cơ chế “Fail Closed” nếu có thể — nó giúp cô lập lỗi, giữ cho phần còn lại của mạng an toàn.
Dùng L3 switching, microsegmentation, các giao thức định tuyến như OSPF/BGP có thể giúp mạng tự bảo vệ mình thông minh hơn.

Lời nhắn gửi đến anh em kỹ thuật
Chúng ta không chỉ cấu hình cho mạng chạy, mà còn phải chuẩn bị cho lúc mạng không chạy.
Vì vậy, hãy học cách thiết kế cho thất bại (Design for Failure) — nhưng thất bại một cách có kiểm soát!
Tiếp tục học, tiếp tục chia sẻ và lan tỏa kiến thức mạng – bảo vệ hệ thống, bảo vệ người dùng, và bảo vệ chính bạn khỏi những buổi trực đêm không cần thiết.

Thông tin khác

» Kiến trúc Microservices LE Core – Node.js là trung tâm, tất cả dịch vụ xoay quanh! (23.05.2025)
» Giới thiệu tổng quan về Ba Giải pháp mạng Campus hiện đại (23.05.2025)
» HTTP Methods - Khi nào dùng POST, GET, PUT, DELETE? (21.05.2025)
» Campus + EtherChannel (21.05.2025)
» Tầng Access trong mạng Campus – Đừng xem thường vì “thấp nhất” nhé! (21.05.2025)
» Lab – Tổng hợp định tuyến (20.05.2025)
» Lab tổng hợp: VLAN – Trunking – Static Routing (20.05.2025)
» Tối ưu hóa API – Góc nhìn của DevOps: Làm ít hơn để làm được nhiều hơn (17.04.2025)