ℹ️ Góp ý cải thiện tài liệu 
Để đóng góp chỉnh sửa, nhấp vào liên kết Gửi ticket ở khung bên phải.

Tổng quan: 

Trên VNPT Kubernetes Service (VNPT K8s), tính năng Auto Healing được áp dụng cho từng Node Group và luôn được kích hoạt mặc định, nhằm đảm bảo độ ổn định và khả năng phục hồi cao cho toàn bộ hệ thống.

Tính năng Auto Healing trên VNPT K8s mang lại nhiều lợi ích vượt trội:

Giám sát và phát hiện lỗi tự động: Hệ thống liên tục theo dõi tình trạng của các node. Khi phát hiện node có dấu hiệu bất thường như chuyển sang trạng thái "NotReady", mất kết nối mạng, hoặc lỗi phần cứng, VKS sẽ nhanh chóng nhận diện và xử lý.

Tự động khởi động lại node gặp sự cố: Khi một node bị lỗi, hệ thống sẽ tự động thực hiện các biện pháp khôi phục như khởi động lại node, giúp xử lý các lỗi tạm thời và duy trì trạng thái ổn định cho cụm Kubernetes.

Giảm tải cho quản trị viên: Với Auto Healing luôn bật, đội ngũ vận hành không cần can thiệp thủ công thường xuyên để xử lý sự cố hạ tầng, tiết kiệm thời gian và nguồn lực quản trị.

Tăng cường hiệu suất và độ tin cậy: Tính năng này giúp hệ thống luôn duy trì hoạt động ổn định, hạn chế downtime, từ đó nâng cao hiệu suất vận hành và đảm bảo trải nghiệm liền mạch cho người dùng

Cơ chế hoạt động:

Cơ chế Auto Healing: hệ thống VNPT K8s thực hiện kích hoạt auto healing khi

Node báo cáo trạng thái NotReady trong các lần kiểm tra liên tiếp trong khoảng thời gian 10 phút. Nếu thỏa mãn điều kiện trên, hệ thống sẽ ngay lập tức thực hiện auto healing. Quá trình này được thực hiện theo các bước: 

Bước 1: Hệ thống VNPT K8s thực hiện drain node, tức là di chuyển tất cả các pod đang chạy trên node NotReady này sang các node khác trong node group trước khi gỡ bỏ node đó khỏi node group.

Bước 2: Hệ thống sẽ tạo lại node mới với cấu hình đã được thiết lập trên node group và thực hiện join node này vào cụm. Nếu sau khi khởi động lại, node vẫn báo cáo trạng thái "NotReady", hệ thống sẽ tiếp tục khởi động lại node cho đến khi node trở lại trạng thái hoạt động bình thường.

Bật Auto Healing

Hiện tại, tính năng Auto Healing được apply cho mỗi Node Group và luôn luôn ở trạng thái bật. Bạn không cần thao tác bật thủ công khi khởi tạo Cluster cũng như Node Group.