Thách thức chính của cụm máy huấn luyện (Training Cluster)
Mô hình tăng gấp đôi mỗi 2 tháng
→ Ví dụ: GPT-3 cần 175 tỷ tham số, sau 2 tháng có thể cần gấp đôi nếu theo xu hướng tăng trưởng hiện tại.
Mô hình càng lớn thì độ chính xác càng cao
→ Nhưng kéo theo đó là nhu cầu phần cứng, năng lượng, chi phí tăng mạnh.
Một lần huấn luyện có thể dùng tới 512 GPU
→ Bạn tưởng tượng không? Một cụm máy như vậy có thể tiêu tốn cả triệu đô mỗi lần huấn luyện!