MẠNG NON-BLOCKING LÀ GÌ? -

Mạng Non-Blocking: Nền tảng tối quan trọng cho huấn luyện AI

Định nghĩa:
Mạng non-blocking có nghĩa là không bị tắc nghẽn: mọi luồng giao tiếp đều có đủ băng thông, không bị giới hạn bởi tổng băng thông hệ thống.

Trong huấn luyện AI, điều này rất quan trọng, vì các GPU cần trao đổi khối lượng dữ liệu rất lớn với tốc độ cực cao – nếu mạng bị nghẽn, hiệu suất sẽ tụt giảm nghiêm trọng.

TỔNG QUAN KIẾN TRÚC MẠNG

Mạng thường được chia thành 2 phần chính:

1. Front End (Mạng phía trước)

Kết nối host (máy chủ) ra thế giới bên ngoài.
Dùng để quản lý máy chủ (management network).
Có thể được sử dụng để truy cập lưu trữ (NAS/SAN – tùy chọn).
Biểu diễn bằng đường màu xanh dương trong sơ đồ kiến trúc.

Ví dụ:
Các kết nối Ethernet phục vụ cho:

Quản trị từ xa
Truyền dữ liệu từ hệ thống lưu trữ đến các node tính toán

2. Back End (Mạng phía sau)

Là mạng chỉ dành cho GPU ↔ GPU.
Không có host hoặc CPU tham gia.
Dùng giao thức RoCEv2 để đảm bảo truyền dữ liệu lossless (không mất gói).
Thiết kế theo mô hình non-blocking, đảm bảo mọi GPU đều có đủ băng thông giao tiếp đồng thời.
Biểu diễn bằng đường màu xanh lá cây trong sơ đồ.

RoCEv2 (RDMA over Converged Ethernet v2):
Cho phép GPU truy cập trực tiếp bộ nhớ của GPU khác với độ trễ cực thấp, băng thông cao – rất phù hợp cho các workload AI lớn như huấn luyện GPT-4 hoặc mô hình Transformer.

VÍ DỤ THỰC TẾ

Giả sử bạn có một cụm 256 GPU để huấn luyện mô hình LLM:

Mạng Front End: dùng để truyền dữ liệu huấn luyện từ hệ thống lưu trữ đến các node GPU.
Mạng Back End: đảm bảo các GPU có thể trao đổi gradients, weight updates với nhau nhanh chóng, đồng thời, không bị tắc nghẽn.

TẠI SAO PHẢI DÙNG MẠNG NON-BLOCKING CHO GPU?

Vì GPU rất nhanh. Nếu mạng chậm hơn GPU, thì GPU sẽ bị đứng chờ dữ liệu – gây lãng phí tài nguyên đắt tiền.
Mạng non-blocking đảm bảo:
- Không có “điểm nghẽn” trong trao đổi dữ liệu giữa các GPU
- Tối ưu hóa hiệu suất sử dụng của toàn bộ hệ thống

Thông tin khác

» 6 CÂU HỎI PHỎNG VẤN HÀNH CHÍNH – TRẢ LỜI SAO CHO MƯỢT NHƯ FILE EXCEL (24.04.2025)
» VnPro Cung Cấp Chat Prompt Thực Hành Lab Cisco, Microsoft, AI & CyberSecurity: Giải Pháp Học Tập Đột Phá Thời AI (24.04.2025)
» Làm Chủ Công Cụ Quyền Năng Của Thời Đại Số (24.04.2025)
» TIP – Trước khi đi phỏng vấn, đừng chỉ chuẩn bị quần áo đẹp (24.04.2025)
» Chiến lược công nghệ tương lai của Cisco: AI đại lý, bảo mật lượng tử và cơ sở hạ tầng bền vững (23.04.2025)
» Cisco Tăng Cường Đầu Tư Vào Công Nghệ AI và Bảo Mật Mạng: Bước Đi Chiến Lược Trong Kỷ Nguyên Số (23.04.2025)
» 6 Câu Hỏi Phỏng Vấn Thực Tập Sinh IT/Network – Không Biết Là Toang! (22.04.2025)
» PHỎNG VẤN VỊ TRÍ TƯ VẤN TUYỂN SINH – ỨNG VIÊN CẦN “ÔN TẬP” GÌ? (22.04.2025)

MẠNG NON-BLOCKING LÀ GÌ? -