

SLI là gì là câu hỏi thường gặp khi tìm hiểu về SRE, DevOps, Cloud Monitoring hoặc SLA/SLO trong vận hành hệ thống. Trong công nghệ thông tin, SLI là chỉ số dùng để đo chất lượng thực tế của một dịch vụ, chẳng hạn như uptime, độ trễ, tỷ lệ lỗi hoặc tỷ lệ request thành công. Hiểu đúng SLI giúp đội kỹ thuật đánh giá hệ thống bằng dữ liệu thay vì cảm tính.
SLI là viết tắt của Service Level Indicator, có nghĩa là chỉ số mức dịch vụ. Đây là chỉ số định lượng dùng để đo một khía cạnh cụ thể của chất lượng dịch vụ trong hệ thống công nghệ thông tin.
Nói cách khác, SLI cần đo được bằng số liệu cụ thể, không phải nhận định chung chung như “hệ thống nhanh” hay “dịch vụ ổn định”.
Ví dụ: Nếu một hệ thống đặt mục tiêu uptime là 99,9%, thì SLI chính là con số uptime thực tế đo được, ví dụ 99,95% trong tháng. Nhờ SLI, đội kỹ thuật biết hệ thống đang đạt, vượt hay chưa đạt mục tiêu vận hành.

SLI hoạt động bằng cách thu thập dữ liệu thực tế từ hệ thống, sau đó tính toán thành các chỉ số có thể đo lường được. Dữ liệu này thường đến từ log, metrics, hệ thống monitoring, công cụ observability, APM hoặc phản hồi từ người dùng.
Quy trình cơ bản thường gồm:
Ví dụ, nếu SLO của hệ thống là 95% request phản hồi dưới 300ms, thì SLI sẽ là số liệu thực tế đo được từ hệ thống, chẳng hạn 96,2% request phản hồi dưới 300ms trong 30 ngày. Trường hợp này cho thấy hệ thống đang đạt mục tiêu vận hành.

SLI thường được nhắc cùng với SLO và SLA. Đây là ba khái niệm có liên quan chặt chẽ trong quản trị dịch vụ, nhưng không giống nhau. Có thể hiểu đơn giản:
| Tiêu chí | SLI | SLO | SLA |
| Viết tắt của | Service Level Indicator | Service Level Objective | Service Level Agreement |
| Bản chất | Chỉ số đo lường thực tế | Mục tiêu chất lượng dịch vụ | Cam kết/thỏa thuận dịch vụ |
| Đối tượng sử dụng | Đội kỹ thuật, SRE, DevOps | Nội bộ doanh nghiệp, đội vận hành | Nhà cung cấp và khách hàng |
| Vai trò | Đo hệ thống thực tế đạt bao nhiêu | Đặt mục tiêu cần đạt | Quy định mức dịch vụ đã cam kết |
| Ví dụ | Uptime thực tế 99,96% | Mục tiêu uptime 99,95% | Cam kết uptime 99,9% |
| Hậu quả khi không đạt | Cần kiểm tra và cải thiện | Cảnh báo nội bộ, tiêu hao error budget | Có thể ảnh hưởng hợp đồng hoặc bồi hoàn |
Ví dụ: Một nhà cung cấp dịch vụ cloud cam kết SLA uptime 99,9% mỗi tháng. Để đảm bảo cam kết này, đội vận hành có thể đặt SLO nội bộ là 99,95%. Trong tháng đó, hệ thống đo được SLI uptime thực tế là 99,96%. Như vậy, dịch vụ đã đạt SLO nội bộ và vẫn đảm bảo SLA với khách hàng.
SLI có thể khác nhau tùy loại hệ thống, nhưng thường xoay quanh độ sẵn sàng, tốc độ phản hồi, tỷ lệ lỗi và khả năng xử lý.
| Loại SLI | Ý nghĩa | Ví dụ |
| Availability | Đo mức độ sẵn sàng của dịch vụ | Uptime đạt 99,95% trong 30 ngày |
| Latency | Đo thời gian phản hồi | 95% request phản hồi dưới 300ms |
| Error rate | Đo tỷ lệ lỗi | HTTP 5xx dưới 0,1% tổng request |
| Throughput | Đo lưu lượng xử lý | Hệ thống xử lý 5.000 request/giây |
| Success rate | Đo tỷ lệ xử lý thành công | 99,9% giao dịch thanh toán thành công |
| Durability | Đo độ bền dữ liệu | Dữ liệu lưu trữ không bị mất hoặc hỏng |
| Freshness | Đo độ mới của dữ liệu | Dashboard cập nhật dữ liệu trong vòng 1 phút |
| Response Time | Đo thời gian dịch vụ phản hồi một yêu cầu của người dùng | Trang web phản hồi trong dưới 2 giây |
| Scalability | Đo khả năng dịch vụ xử lý khi workload hoặc lượng người dùng tăng | Hệ thống vẫn giữ latency ổn định khi traffic tăng gấp đôi |
| Compliance | Đo mức độ đáp ứng tiêu chuẩn bảo mật, pháp lý hoặc quy định ngành | Dịch vụ đáp ứng yêu cầu bảo mật dữ liệu theo chính sách nội bộ |
| Correctness | Đo độ chính xác của kết quả | Kết quả truy vấn trả về đúng theo dữ liệu gốc |
Để chọn SLI hiệu quả, doanh nghiệp không nên bắt đầu từ thông số kỹ thuật nội bộ, mà nên bắt đầu từ trải nghiệm người dùng.
Trước tiên, cần xác định người dùng kỳ vọng điều gì ở dịch vụ. Với website bán hàng, hành vi quan trọng có thể là xem sản phẩm, thêm vào giỏ hàng và thanh toán. Với dịch vụ cloud storage, hành vi quan trọng có thể là upload, download và truy xuất dữ liệu.
SLI nên gắn với trải nghiệm thực tế. Ví dụ, thời gian phản hồi API, tỷ lệ request thành công hoặc tỷ lệ giao dịch lỗi thường có giá trị hơn việc chỉ theo dõi CPU, RAM đơn lẻ.
CPU usage có thể hữu ích cho vận hành nội bộ, nhưng không phải lúc nào cũng là SLI tốt nếu nó không phản ánh trực tiếp chất lượng dịch vụ với người dùng.

Một SLI tốt cần có dữ liệu đo được từ hệ thống monitoring, log, metrics hoặc observability platform. Nếu không có nguồn dữ liệu đáng tin cậy, SLI sẽ khó dùng để đánh giá hoặc ra quyết định.
Ví dụ chưa tốt:
Ví dụ tốt hơn:
SLI cần được đo trong một khoảng thời gian cụ thể. Khoảng thời gian có thể là 7 ngày, 30 ngày hoặc theo chu kỳ tháng/quý tùy loại dịch vụ.
| SLI | Ngưỡng đo | Time window |
| API latency | 95% request dưới 300ms | 30 ngày |
| Uptime | Tối thiểu 99,95% | Theo tháng |
| Error rate | Dưới 0,1% | 7 ngày |
| Transaction success rate | Tối thiểu 99,9% | 30 ngày |
Trong hệ thống IT, có rất nhiều metric có thể theo dõi như CPU usage, RAM usage, disk I/O, số lượng request, thời gian phản hồi, tỷ lệ lỗi hoặc lượng truy cập. Tuy nhiên, không phải metric nào cũng nên được chọn làm SLI.
Một metric chỉ nên trở thành SLI khi nó phản ánh trực tiếp chất lượng dịch vụ hoặc trải nghiệm của người dùng. Nếu theo dõi quá nhiều chỉ số không quan trọng, đội kỹ thuật có thể bị quá tải bởi dữ liệu nhưng lại không biết đâu là vấn đề cần ưu tiên.
Vì vậy, khi chọn SLI, doanh nghiệp nên ưu tiên các chỉ số gắn với hành vi quan trọng của người dùng như truy cập website, gọi API, thanh toán, tải file, đăng nhập hoặc gửi dữ liệu.
Khi SLI thấp hơn SLO, điều đó cho thấy dịch vụ chưa đạt mục tiêu vận hành đã đặt ra. Đây là tín hiệu để đội kỹ thuật kiểm tra hệ thống, xác định nguyên nhân và triển khai hành động khắc phục.
Quy trình xử lý có thể gồm:
Ví dụ, nếu SLO yêu cầu 95% request API phản hồi dưới 300ms nhưng SLI thực tế chỉ đạt 88%, đội vận hành cần kiểm tra các nguyên nhân như quá tải server, truy vấn database chậm, lỗi network hoặc cấu hình autoscaling chưa phù hợp.
Doanh nghiệp cần sử dụng SLI khi muốn đo lường chất lượng dịch vụ bằng dữ liệu thực tế thay vì cảm tính. SLI đặc biệt cần thiết trong các trường hợp:

SLI là viết tắt của Service Level Indicator, nghĩa là chỉ số mức dịch vụ. Đây là chỉ số dùng để đo chất lượng thực tế của một dịch vụ công nghệ thông tin.
SLI là chỉ số đo lường thực tế, còn SLO là mục tiêu cần đạt. Ví dụ, SLO đặt mục tiêu 99,95% uptime, còn SLI là uptime thực tế đo được trong tháng.
SLI là dữ liệu đo lường thực tế, còn SLA là cam kết dịch vụ giữa nhà cung cấp và khách hàng. Nếu SLI không đạt mức cam kết trong SLA, doanh nghiệp có thể phải xử lý khiếu nại, bồi hoàn hoặc chịu ảnh hưởng uy tín.
Không có con số cố định cho mọi hệ thống. Tuy nhiên, nên chọn ít nhưng đúng trọng tâm. Với nhiều dịch vụ, các SLI quan trọng thường gồm availability, latency, error rate và success rate.
CPU usage có thể là metric vận hành quan trọng, nhưng không phải lúc nào cũng là SLI tốt. Một chỉ số chỉ nên được xem là SLI nếu nó phản ánh trực tiếp chất lượng dịch vụ hoặc trải nghiệm người dùng.
Có. Trong môi trường cloud, SLI thường được dùng để đo uptime, độ trễ, tỷ lệ request thành công, độ bền dữ liệu, tốc độ xử lý và khả năng truy cập dịch vụ. Đây là nền tảng quan trọng để quản lý SLO và SLA của các dịch vụ cloud.
Tóm lại hiểu rõ SLI là gì giúp đội kỹ thuật biết dịch vụ có đang đáp ứng mục tiêu SLO và cam kết SLA hay không. Một SLI tốt cần đo được, rõ ràng, có ngưỡng cụ thể và phản ánh trực tiếp trải nghiệm người dùng. Khi được xây dựng đúng cách, SLI không chỉ hỗ trợ monitoring mà còn giúp doanh nghiệp cải thiện độ tin cậy, tối ưu vận hành và nâng cao chất lượng dịch vụ.
