Định nghĩa:
Mạng non-blocking có nghĩa là không bị tắc nghẽn: mọi luồng giao tiếp đều có đủ băng thông, không bị giới hạn bởi tổng băng thông hệ thống.
Trong huấn luyện AI, điều này rất quan trọng, vì các GPU cần trao đổi khối lượng dữ liệu rất lớn với tốc độ cực cao – nếu mạng bị nghẽn, hiệu suất sẽ tụt giảm nghiêm trọng.
Mạng thường được chia thành 2 phần chính:
Kết nối host (máy chủ) ra thế giới bên ngoài.
Dùng để quản lý máy chủ (management network).
Có thể được sử dụng để truy cập lưu trữ (NAS/SAN – tùy chọn).
Biểu diễn bằng đường màu xanh dương trong sơ đồ kiến trúc.
Ví dụ:
Các kết nối Ethernet phục vụ cho:
Quản trị từ xa
Truyền dữ liệu từ hệ thống lưu trữ đến các node tính toán
Là mạng chỉ dành cho GPU ↔ GPU.
Không có host hoặc CPU tham gia.
Dùng giao thức RoCEv2 để đảm bảo truyền dữ liệu lossless (không mất gói).
Thiết kế theo mô hình non-blocking, đảm bảo mọi GPU đều có đủ băng thông giao tiếp đồng thời.
Biểu diễn bằng đường màu xanh lá cây trong sơ đồ.
RoCEv2 (RDMA over Converged Ethernet v2):
Cho phép GPU truy cập trực tiếp bộ nhớ của GPU khác với độ trễ cực thấp, băng thông cao – rất phù hợp cho các workload AI lớn như huấn luyện GPT-4 hoặc mô hình Transformer.
Giả sử bạn có một cụm 256 GPU để huấn luyện mô hình LLM:
Mạng Front End: dùng để truyền dữ liệu huấn luyện từ hệ thống lưu trữ đến các node GPU.
Mạng Back End: đảm bảo các GPU có thể trao đổi gradients, weight updates với nhau nhanh chóng, đồng thời, không bị tắc nghẽn.
Vì GPU rất nhanh. Nếu mạng chậm hơn GPU, thì GPU sẽ bị đứng chờ dữ liệu – gây lãng phí tài nguyên đắt tiền.
Mạng non-blocking đảm bảo:
Không có “điểm nghẽn” trong trao đổi dữ liệu giữa các GPU
Tối ưu hóa hiệu suất sử dụng của toàn bộ hệ thống