High Performance Computing (HPC) – Đám mây hiệu năng cao là giải pháp giúp doanh nghiệp và các tổ chức nghiên cứu triển khai hạ tầng tính toán mạnh mẽ trên nền tảng cloud, phục vụ các bài toán cần khả năng xử lý song song, khối lượng tính toán lớn hoặc yêu cầu GPU/CPU chuyên dụng.
VNPT Cloud HPC hỗ trợ triển khai các cụm máy tính hiệu năng cao với khả năng mở rộng linh hoạt, trang bị GPU chuyên dụng (A100, V100, T4), CPU nhiều nhân, bộ nhớ lớn, và mạng tốc độ cao (InfiniBand, SR-IOV). Hệ thống hỗ trợ các phần mềm quản lý workload như Slurm, PBS, hoặc Kubernetes + MPI cho các môi trường containerized HPC.
HPC phù hợp cho nhiều lĩnh vực như mô phỏng kỹ thuật, phân tích gen, AI/ML model training, phân tích tài chính, dự báo thời tiết, mô hình hóa khoa học, kết xuất hình ảnh 3D (render farm), hoặc xử lý video. Doanh nghiệp có thể lựa chọn các kịch bản HPC on-demand, hybrid hoặc multi-cloud tùy theo yêu cầu tính toán và ngân sách.
Giải pháp đảm bảo an toàn dữ liệu, có thể tích hợp backup, snapshot, phân vùng bảo mật, và kiểm soát quyền truy cập chi tiết theo từng dự án.
Rút ngắn thời gian tính toán, tối ưu chi phí và mở rộng hạ tầng linh hoạt theo nhu cầu thực tế của từng bài toán tính toán chuyên sâu.
Khởi tạo cụm tính toán hiệu năng cao chỉ trong vài giờ, dễ mở rộng hoặc thu hẹp quy mô mà không bị giới hạn bởi hạ tầng vật lý tại chỗ.
Hỗ trợ các bài toán phân tán, song song (MPI, OpenMP), tối ưu hóa cho nhiều node, nhiều GPU hoặc CPU nhiều nhân, phù hợp AI training hoặc mô phỏng CFD.
Cung cấp các lựa chọn GPU từ NVIDIA T4, A100 cho đến V100, hỗ trợ deep learning, AI inference, mô phỏng vật lý và phân tích hình ảnh y tế.
Trang bị kết nối nội bộ InfiniBand hoặc SR-IOV giúp giảm thiểu bottleneck trong quá trình truyền dữ liệu giữa các node trong cluster.
Hỗ trợ các scheduler quen thuộc trong HPC để phân phối job theo hàng đợi, ưu tiên tài nguyên, kiểm soát trạng thái task và tối ưu quá trình vận hành.
Mỗi nhóm nghiên cứu hoặc đội ngũ kỹ thuật được phân quyền riêng, cô lập tài nguyên theo dự án, hỗ trợ xác thực đa yếu tố và quản lý user lifecycle.
Nhờ khả năng scale-out nhanh chóng trên cloud, các bài toán lớn không còn bị giới hạn tài nguyên, giúp rút ngắn thời gian xử lý đáng kể so với on-prem.
Trả theo mức sử dụng thực tế (pay-as-you-go), hỗ trợ scheduling auto-start/stop node và theo dõi chi phí chi tiết cho từng job hoặc từng cụm HPC.
Bối cảnh kỹ thuật
Một công ty phát triển trí tuệ nhân tạo trong lĩnh vực y tế cần huấn luyện các mô hình deep learning (ResNet, UNet, LLaMA) trên tập dữ liệu hình ảnh y tế (CT, MRI). Hệ thống cũ không đủ tài nguyên xử lý, thời gian huấn luyện kéo dài đến vài tuần, không đáp ứng tiến độ R&D.
Giải pháp kỹ thuật đề xuất
Sử dụng dịch vụ GPU Instance của VNPT Cloud HPC với lựa chọn NVIDIA A100, 80GB VRAM, kết hợp multi-node training qua NCCL và framework PyTorch. Môi trường huấn luyện được container hóa bằng Docker, triển khai trên Slurm hoặc Kubernetes + Kubeflow để tự động scale tài nguyên theo batch size.
Dữ liệu huấn luyện được lưu trữ trong Object Storage (S3-compatible) và kết nối trực tiếp qua mạng nội bộ tốc độ cao (SR-IOV). Hệ thống hỗ trợ lưu checkpoint, log TensorBoard, và lưu lại mô hình trên registry nội bộ để tiếp tục fine-tuning hoặc inference sau đó.
Kết quả đạt được
Rút ngắn thời gian huấn luyện từ 14 ngày xuống còn 2,5 ngày. Tăng hiệu suất GPU lên 92% nhờ parallelism tốt. Đội AI có thể thử nghiệm nhiều mô hình cùng lúc mà không lo nghẽn tài nguyên nội bộ.