Trong thế giới AI, có hai giai đoạn cực kỳ quan trọng:
Training (Huấn luyện): Dạy cho mô hình học từ dữ liệu.
Inference (Suy luận): Dùng mô hình đã học để dự đoán hoặc trả lời.
Hình minh họa so sánh nhu cầu tài nguyên của hai loại tác vụ: huấn luyện và suy luận, áp dụng cho hai kiểu mô hình phổ biến:
LLM (Large Language Model) – ví dụ như ChatGPT
Ranking Model – thường dùng trong hệ thống tìm kiếm hoặc gợi ý (như Google, Facebook News Feed)
Phân tích biểu đồ radar (hình ngũ giác):
Các trục đại diện cho 5 yếu tố kỹ thuật cần thiết:
Network Bandwidth (Băng thông mạng)
Network Latency Sensitivity (Độ nhạy với độ trễ mạng)
Compute (Nhu cầu xử lý tính toán)
Memory Capacity (Dung lượng bộ nhớ)
Memory Bandwidth (Băng thông bộ nhớ)
So sánh nổi bật:
Training Phase (bên trái):
LLM Training đòi hỏi cực cao về Compute và Network Bandwidth.
Ranking Training yêu cầu ít hơn một chút, nhưng vẫn cần khá nhiều tài nguyên.
Inference Phase (bên phải):
LLM Inference yêu cầu cao về Compute, Memory Capacity và rất nhạy với Network Latency – vì cần phản hồi nhanh như khi bạn hỏi ChatGPT.
Ranking Inference ít yêu cầu hơn, nhưng vẫn cần băng thông bộ nhớ tốt.
Ví dụ dễ hiểu:
Training giống như bạn học cho kỳ thi cuối kỳ – cần thời gian dài, máy tính mạnh, nhiều RAM, và tải dữ liệu lớn.
Inference giống như khi đi thi – bạn cần nhớ đúng, tính nhanh và phản hồi tức thì (latency thấp).
Kết luận cho người mới học AI:
Nếu bạn định làm hạ tầng cho AI, hãy xác định rõ bạn đang phục vụ cho "Training" hay "Inference".
Training cần nhiều GPU mạnh và mạng tốc độ cao.
Inference cần phản hồi nhanh, tối ưu bộ nhớ và giảm độ trễ.