Back End Network
Đây là mạng nội bộ phục vụ truyền dữ liệu giữa các GPU, thường nằm trong cùng một cụm tính toán (AI compute cluster).
Ví dụ: Khi một mô hình AI lớn đang được huấn luyện, các GPU phải chia sẻ tham số, gradient và dữ liệu với nhau hàng triệu lần mỗi giây. Back End Network đảm bảo quá trình này diễn ra nhanh chóng, mượt mà và với độ trễ cực thấp.
Front End Network
Đây là mạng giao tiếp giữa cụm tính toán AI với phần còn lại của trung tâm dữ liệu (Data Center), bao gồm hệ thống lưu trữ, máy chủ quản lý, người dùng hoặc dịch vụ bên ngoài.
Hiểu đơn giản: Front End là “giao diện nói chuyện” với thế giới bên ngoài, trong khi Back End là nơi các GPU “làm việc nội bộ” với nhau.
Scale-Out Architecture
Đây là kiến trúc mở rộng theo chiều ngang, sử dụng công nghệ mạng tiêu chuẩn như Ethernet hoặc InfiniBand để kết nối nhiều cụm GPU với nhau.
Điều này cho phép bạn mở rộng quy mô huấn luyện bằng cách kết nối nhiều rack chứa GPU riêng biệt.
Ví dụ: Kết nối 10 rack GPU để huấn luyện một mô hình có quy mô 175 tỷ tham số như GPT-3.
Scale-Up Architecture
Ngược lại với Scale-Out, Scale-Up là kiến trúc tập trung tối ưu việc truyền dữ liệu bên trong một cụm GPU duy nhất.
Mục tiêu là đạt được băng thông siêu cao và độ trễ cực thấp giữa các GPU trong cùng một hệ thống, thường nhờ vào các công nghệ như NVLink hoặc NVSwitch.
Ví dụ: Trong một server AI có 8 GPU NVIDIA H100, truyền dữ liệu giữa các GPU được tối ưu hóa bằng NVLink – đây chính là ví dụ điển hình của Scale-Up.
Tóm tắt nhanh:
Scale-Up = Tối ưu bên trong một cụm → truyền dữ liệu cực nhanh giữa các GPU cùng rack.
Scale-Out = Kết nối nhiều cụm lại với nhau → hỗ trợ huấn luyện mô hình lớn hơn.
Cả hai đều chạy trên Back End Network
Kết nối ra ngoài thì dùng Front End Network
Tài liệu tham khảo:
Sujal Das – Evolution of Data Center Networking Designs for AI
Ayar Labs – Scale-Out & Scale-Up Architectures
Bài viết này dành cho những ai đang bước đầu tìm hiểu cách xây dựng hạ tầng AI chuyên nghiệp – nơi tốc độ, độ trễ và khả năng mở rộng là yếu tố sống còn.
Bạn đang làm việc với GPU, hay có dự định xây dựng cluster cho AI? Hãy chia sẻ góc nhìn hoặc kinh nghiệm của bạn nhé.