Thứ Hai, 18/05/2026, 17:00 (GMT+0)

SLI là gì? Phân biệt SLI, SLA và SLO

Quay lại Trang chủ Blog
Trên trang này

SLI là gì là câu hỏi thường gặp khi tìm hiểu về SRE, DevOps, Cloud Monitoring hoặc SLA/SLO trong vận hành hệ thống. Trong công nghệ thông tin, SLI là chỉ số dùng để đo chất lượng thực tế của một dịch vụ, chẳng hạn như uptime, độ trễ, tỷ lệ lỗi hoặc tỷ lệ request thành công. Hiểu đúng SLI giúp đội kỹ thuật đánh giá hệ thống bằng dữ liệu thay vì cảm tính. 

SLI là gì?

SLI là viết tắt của Service Level Indicator, có nghĩa là chỉ số mức dịch vụ. Đây là chỉ số định lượng dùng để đo một khía cạnh cụ thể của chất lượng dịch vụ trong hệ thống công nghệ thông tin.

Nói cách khác, SLI cần đo được bằng số liệu cụ thể, không phải nhận định chung chung như “hệ thống nhanh” hay “dịch vụ ổn định”. 

Ví dụ: Nếu một hệ thống đặt mục tiêu uptime là 99,9%, thì SLI chính là con số uptime thực tế đo được, ví dụ 99,95% trong tháng. Nhờ SLI, đội kỹ thuật biết hệ thống đang đạt, vượt hay chưa đạt mục tiêu vận hành.

SLI.jpg
SLI là chỉ số đo chất lượng thực tế của dịch vụ

SLI hoạt động như thế nào?

SLI hoạt động bằng cách thu thập dữ liệu thực tế từ hệ thống, sau đó tính toán thành các chỉ số có thể đo lường được. Dữ liệu này thường đến từ log, metrics, hệ thống monitoring, công cụ observability, APM hoặc phản hồi từ người dùng.

Quy trình cơ bản thường gồm:

  1. Xác định chỉ số cần đo: Ví dụ: uptime, latency, error rate hoặc tỷ lệ request thành công.
  2. Thu thập dữ liệu từ hệ thống: Dữ liệu có thể đến từ log máy chủ, network metrics, APM, monitoring tool hoặc phản hồi người dùng.
  3. Tính toán SLI theo thời gian cụ thể: Ví dụ: 95% request API phản hồi dưới 300ms trong 30 ngày.
  4. So sánh với SLO đã đặt ra: Nếu SLI đạt hoặc vượt SLO, dịch vụ đang vận hành đúng kỳ vọng. Nếu SLI thấp hơn SLO, hệ thống cần được kiểm tra và cải thiện.
  5. Kích hoạt cảnh báo khi có sai lệch: Khi SLI giảm dưới ngưỡng cho phép, hệ thống có thể gửi cảnh báo để đội vận hành xử lý kịp thời.

Ví dụ, nếu SLO của hệ thống là 95% request phản hồi dưới 300ms, thì SLI sẽ là số liệu thực tế đo được từ hệ thống, chẳng hạn 96,2% request phản hồi dưới 300ms trong 30 ngày. Trường hợp này cho thấy hệ thống đang đạt mục tiêu vận hành.

sli-6.jpg
SLI giúp đo lường và so sánh hiệu năng với mục tiêu SLO

Mối quan hệ giữa SLI, SLO và SLA

SLI thường được nhắc cùng với SLO và SLA. Đây là ba khái niệm có liên quan chặt chẽ trong quản trị dịch vụ, nhưng không giống nhau. Có thể hiểu đơn giản:

  • SLA là điều doanh nghiệp cam kết với khách hàng.
  • SLO là mục tiêu nội bộ để đảm bảo dịch vụ đạt cam kết đó.
  • SLI là dữ liệu thực tế dùng để đo xem hệ thống có đạt mục tiêu hay không
Tiêu chíSLISLOSLA
Viết tắt củaService Level IndicatorService Level ObjectiveService Level Agreement
Bản chấtChỉ số đo lường thực tếMục tiêu chất lượng dịch vụCam kết/thỏa thuận dịch vụ
Đối tượng sử dụngĐội kỹ thuật, SRE, DevOpsNội bộ doanh nghiệp, đội vận hànhNhà cung cấp và khách hàng
Vai tròĐo hệ thống thực tế đạt bao nhiêuĐặt mục tiêu cần đạtQuy định mức dịch vụ đã cam kết
Ví dụUptime thực tế 99,96%Mục tiêu uptime 99,95%Cam kết uptime 99,9%
Hậu quả khi không đạtCần kiểm tra và cải thiệnCảnh báo nội bộ, tiêu hao error budgetCó thể ảnh hưởng hợp đồng hoặc bồi hoàn

Ví dụ: Một nhà cung cấp dịch vụ cloud cam kết SLA uptime 99,9% mỗi tháng. Để đảm bảo cam kết này, đội vận hành có thể đặt SLO nội bộ là 99,95%. Trong tháng đó, hệ thống đo được SLI uptime thực tế là 99,96%. Như vậy, dịch vụ đã đạt SLO nội bộ và vẫn đảm bảo SLA với khách hàng.

Các loại SLI phổ biến trong công nghệ thông tin

SLI có thể khác nhau tùy loại hệ thống, nhưng thường xoay quanh độ sẵn sàng, tốc độ phản hồi, tỷ lệ lỗi và khả năng xử lý.

Loại SLIÝ nghĩaVí dụ
AvailabilityĐo mức độ sẵn sàng của dịch vụUptime đạt 99,95% trong 30 ngày
LatencyĐo thời gian phản hồi95% request phản hồi dưới 300ms
Error rateĐo tỷ lệ lỗiHTTP 5xx dưới 0,1% tổng request
ThroughputĐo lưu lượng xử lýHệ thống xử lý 5.000 request/giây
Success rateĐo tỷ lệ xử lý thành công99,9% giao dịch thanh toán thành công
DurabilityĐo độ bền dữ liệuDữ liệu lưu trữ không bị mất hoặc hỏng
FreshnessĐo độ mới của dữ liệuDashboard cập nhật dữ liệu trong vòng 1 phút
Response TimeĐo thời gian dịch vụ phản hồi một yêu cầu của người dùngTrang web phản hồi trong dưới 2 giây
ScalabilityĐo khả năng dịch vụ xử lý khi workload hoặc lượng người dùng tăngHệ thống vẫn giữ latency ổn định khi traffic tăng gấp đôi
ComplianceĐo mức độ đáp ứng tiêu chuẩn bảo mật, pháp lý hoặc quy định ngànhDịch vụ đáp ứng yêu cầu bảo mật dữ liệu theo chính sách nội bộ
CorrectnessĐo độ chính xác của kết quảKết quả truy vấn trả về đúng theo dữ liệu gốc

Cách xác định SLI phù hợp

Để chọn SLI hiệu quả, doanh nghiệp không nên bắt đầu từ thông số kỹ thuật nội bộ, mà nên bắt đầu từ trải nghiệm người dùng.

Xác định hành vi quan trọng của người dùng

Trước tiên, cần xác định người dùng kỳ vọng điều gì ở dịch vụ. Với website bán hàng, hành vi quan trọng có thể là xem sản phẩm, thêm vào giỏ hàng và thanh toán. Với dịch vụ cloud storage, hành vi quan trọng có thể là upload, download và truy xuất dữ liệu.

Chọn chỉ số phản ánh trực tiếp trải nghiệm

SLI nên gắn với trải nghiệm thực tế. Ví dụ, thời gian phản hồi API, tỷ lệ request thành công hoặc tỷ lệ giao dịch lỗi thường có giá trị hơn việc chỉ theo dõi CPU, RAM đơn lẻ.

CPU usage có thể hữu ích cho vận hành nội bộ, nhưng không phải lúc nào cũng là SLI tốt nếu nó không phản ánh trực tiếp chất lượng dịch vụ với người dùng.

sli-3.jpg
SLI phù hợp cần phản ánh trực tiếp trải nghiệm người dùng

Đảm bảo có thể đo lường được

Một SLI tốt cần có dữ liệu đo được từ hệ thống monitoring, log, metrics hoặc observability platform. Nếu không có nguồn dữ liệu đáng tin cậy, SLI sẽ khó dùng để đánh giá hoặc ra quyết định.

Ví dụ chưa tốt:

  • Website phải chạy nhanh.
  • API phải ổn định.
  • Dịch vụ phải ít lỗi.

Ví dụ tốt hơn:

  • 95% request API phản hồi dưới 300ms trong 30 ngày.
  • Tỷ lệ request lỗi HTTP 5xx thấp hơn 0,1% mỗi tháng.
  • Uptime dịch vụ đạt tối thiểu 99,95% trong tháng.

Xác định ngưỡng và khoảng thời gian đo

SLI cần được đo trong một khoảng thời gian cụ thể. Khoảng thời gian có thể là 7 ngày, 30 ngày hoặc theo chu kỳ tháng/quý tùy loại dịch vụ.

SLINgưỡng đoTime window
API latency95% request dưới 300ms30 ngày
UptimeTối thiểu 99,95%Theo tháng
Error rateDưới 0,1%7 ngày
Transaction success rateTối thiểu 99,9%30 ngày

Không phải metric nào cũng nên trở thành SLI

Trong hệ thống IT, có rất nhiều metric có thể theo dõi như CPU usage, RAM usage, disk I/O, số lượng request, thời gian phản hồi, tỷ lệ lỗi hoặc lượng truy cập. Tuy nhiên, không phải metric nào cũng nên được chọn làm SLI.

Một metric chỉ nên trở thành SLI khi nó phản ánh trực tiếp chất lượng dịch vụ hoặc trải nghiệm của người dùng. Nếu theo dõi quá nhiều chỉ số không quan trọng, đội kỹ thuật có thể bị quá tải bởi dữ liệu nhưng lại không biết đâu là vấn đề cần ưu tiên.

Vì vậy, khi chọn SLI, doanh nghiệp nên ưu tiên các chỉ số gắn với hành vi quan trọng của người dùng như truy cập website, gọi API, thanh toán, tải file, đăng nhập hoặc gửi dữ liệu. 

Cần làm gì khi SLI thấp hơn SLO?

Khi SLI thấp hơn SLO, điều đó cho thấy dịch vụ chưa đạt mục tiêu vận hành đã đặt ra. Đây là tín hiệu để đội kỹ thuật kiểm tra hệ thống, xác định nguyên nhân và triển khai hành động khắc phục.

Quy trình xử lý có thể gồm:

  • Xác định SLI nào đang bị ảnh hưởng
    Ví dụ: uptime giảm, latency tăng, error rate tăng hoặc tỷ lệ request thành công giảm.
  • Đánh giá mức độ ảnh hưởng đến người dùng
    Cần xác định sự cố ảnh hưởng đến một nhóm nhỏ người dùng hay toàn bộ dịch vụ.
  • Kiểm tra dữ liệu từ monitoring, log và metrics
    Đội kỹ thuật cần đối chiếu dữ liệu từ hệ thống giám sát, log ứng dụng, log hạ tầng và các cảnh báo liên quan.
  • Ưu tiên xử lý theo mức độ nghiêm trọng
    Những lỗi ảnh hưởng trực tiếp đến truy cập, thanh toán, dữ liệu hoặc dịch vụ cốt lõi cần được ưu tiên trước.
  • Rút kinh nghiệm và cải thiện hệ thống
    Sau khi xử lý, doanh nghiệp nên phân tích nguyên nhân gốc rễ, cập nhật cảnh báo, tối ưu hạ tầng hoặc điều chỉnh SLO nếu mục tiêu hiện tại chưa thực tế.

Ví dụ, nếu SLO yêu cầu 95% request API phản hồi dưới 300ms nhưng SLI thực tế chỉ đạt 88%, đội vận hành cần kiểm tra các nguyên nhân như quá tải server, truy vấn database chậm, lỗi network hoặc cấu hình autoscaling chưa phù hợp.

Trường hợp sử dụng SLI 

Doanh nghiệp cần sử dụng SLI khi muốn đo lường chất lượng dịch vụ bằng dữ liệu thực tế thay vì cảm tính. SLI đặc biệt cần thiết trong các trường hợp:

  • Vận hành website hoặc ứng dụng có nhiều người dùng: cần biết dịch vụ có ổn định, phản hồi nhanh và ít lỗi hay không.
  • Cung cấp dịch vụ cloud, hosting hoặc SaaS: cần theo dõi mức độ sẵn sàng, tốc độ xử lý và tỷ lệ request thành công.
  • Quản lý API hoặc microservices: cần đo thời gian phản hồi, tỷ lệ lỗi và khả năng xử lý request giữa các dịch vụ.
  • Có cam kết SLA với khách hàng: cần dữ liệu thực tế để kiểm tra dịch vụ có đạt mức cam kết hay không.
  • Áp dụng SRE hoặc DevOps: cần SLI làm cơ sở để xây dựng SLO, thiết lập cảnh báo và cải thiện độ tin cậy hệ thống.
  • Hệ thống thường xuyên phát sinh sự cố: cần xác định chỉ số nào đang suy giảm và mức độ ảnh hưởng đến người dùng.
  • Muốn cải thiện trải nghiệm người dùng: cần đo các chỉ số phản ánh trực tiếp tốc độ, độ ổn định và khả năng truy cập dịch vụ.
sli-5.jpg
SLI giúp doanh nghiệp theo dõi độ ổn định của hệ thống

Câu hỏi thường gặp về SLI

SLI là viết tắt của gì?

SLI là viết tắt của Service Level Indicator, nghĩa là chỉ số mức dịch vụ. Đây là chỉ số dùng để đo chất lượng thực tế của một dịch vụ công nghệ thông tin.

SLI khác gì SLO?

SLI là chỉ số đo lường thực tế, còn SLO là mục tiêu cần đạt. Ví dụ, SLO đặt mục tiêu 99,95% uptime, còn SLI là uptime thực tế đo được trong tháng.

SLI khác gì SLA?

SLI là dữ liệu đo lường thực tế, còn SLA là cam kết dịch vụ giữa nhà cung cấp và khách hàng. Nếu SLI không đạt mức cam kết trong SLA, doanh nghiệp có thể phải xử lý khiếu nại, bồi hoàn hoặc chịu ảnh hưởng uy tín.

Một hệ thống nên có bao nhiêu SLI?

Không có con số cố định cho mọi hệ thống. Tuy nhiên, nên chọn ít nhưng đúng trọng tâm. Với nhiều dịch vụ, các SLI quan trọng thường gồm availability, latency, error rate và success rate.

CPU usage có phải là SLI không?

CPU usage có thể là metric vận hành quan trọng, nhưng không phải lúc nào cũng là SLI tốt. Một chỉ số chỉ nên được xem là SLI nếu nó phản ánh trực tiếp chất lượng dịch vụ hoặc trải nghiệm người dùng.

SLI có dùng trong Cloud không?

Có. Trong môi trường cloud, SLI thường được dùng để đo uptime, độ trễ, tỷ lệ request thành công, độ bền dữ liệu, tốc độ xử lý và khả năng truy cập dịch vụ. Đây là nền tảng quan trọng để quản lý SLO và SLA của các dịch vụ cloud.

Tóm lại hiểu rõ SLI là gì giúp đội kỹ thuật biết dịch vụ có đang đáp ứng mục tiêu SLO và cam kết SLA hay không. Một SLI tốt cần đo được, rõ ràng, có ngưỡng cụ thể và phản ánh trực tiếp trải nghiệm người dùng. Khi được xây dựng đúng cách, SLI không chỉ hỗ trợ monitoring mà còn giúp doanh nghiệp cải thiện độ tin cậy, tối ưu vận hành và nâng cao chất lượng dịch vụ.

#Cloud Server
#Cloud Server
Sovereign Cloud không chỉ là đặt máy chủ trong nước. Với bối cảnh pháp lý dữ liệu mới tại Việt Nam, đây đang trở thành bài toán hạ tầng quan trọng cho doanh nghiệp Việt và doanh nghiệp nước ngoài hoạt động tại Việt Nam
Sovereign Cloud - Đám mây chủ quyền là gì? Và vì sao doanh nghiệp hoạt động tại Việt Nam nên quan tâm từ bây giờ?
Tiếp tục đọc