Vấn đề số một trong quản lý dữ liệu hiện nay là làm sao đối phó với 80% dữ liệu phi cấu trúc. Đã đến lúc bộ phận CNTT cần xác định một phương pháp tiếp cận rõ ràng.
Trên toàn cầu, dữ liệu đang được tạo ra với tốc độ khổng lồ, trung bình mỗi ngày có tới 402,7 triệu terabyte dữ liệu được sinh ra, và khoảng 80% trong số đó là dữ liệu phi cấu trúc.
Dữ liệu phi cấu trúc (Unstructured Data) là loại dữ liệu không được tổ chức thành định dạng cố định hoặc không có cấu trúc rõ ràng như trong cơ sở dữ liệu. Ví dụ: video, âm thanh, hình ảnh, bản vẽ CAD, email, tài liệu quét, kết quả chụp X-quang/MRI, bài đăng trên mạng xã hội, hay các chuỗi ký tự hỗn hợp từ thiết bị mạng và viễn thông.
Các doanh nghiệp đang vật lộn để kiểm soát và khai thác dữ liệu phi cấu trúc này. Theo một báo cáo từ Splunk: “Hơn 1.300 lãnh đạo doanh nghiệp và CNTT ở bảy nền kinh tế hàng đầu cho biết họ không thể tìm thấy toàn bộ dữ liệu mà họ có — hơn một nửa trong số đó được gọi là ‘dữ liệu tối’ (dark data): chưa được khai thác, thậm chí không ai biết tới.”
Điều này rất đáng quan ngại, bởi nếu doanh nghiệp muốn tận dụng trí tuệ nhân tạo (AI), thì AI cần phải khai thác được toàn bộ dữ liệu, không chỉ là 20% dữ liệu có cấu trúc.
Để làm được điều đó, doanh nghiệp cần kiểm soát được dữ liệu phi cấu trúc của mình và điều đó bắt đầu bằng việc phân loại, tổ chức và xử lý dữ liệu đúng cách.
Đây là những câu hỏi cơ bản cần được trả lời cho từng loại dữ liệu phi cấu trúc trong doanh nghiệp.
Data silo là tình trạng dữ liệu bị cô lập trong một phòng ban, hệ thống hoặc nền tảng, không thể truy cập hoặc chia sẻ giữa các đơn vị khác trong tổ chức.
Dữ liệu phi cấu trúc thường bị “giam giữ” trong các phòng ban cụ thể — như marketing, vận hành hoặc sản xuất — khiến các bộ phận khác không thể tận dụng chúng cho mục đích kinh doanh. Điều này dẫn tới lãng phí tài nguyên, mâu thuẫn trong quyết định và mất cơ hội khai thác giá trị từ dữ liệu.
Mục tiêu ở bước này là xác định nơi nào đang chứa dữ liệu silo và dữ liệu trong đó là loại nào.
IT cần phối hợp với các phòng ban và bộ phận lưu trữ để xác định dữ liệu nào cần giữ lại, dữ liệu nào nên loại bỏ.
Ngoài ra, cũng cần đánh giá lợi ích tài chính: xóa bỏ dữ liệu không cần thiết sẽ giải phóng bao nhiêu dung lượng, tiết kiệm chi phí lưu trữ được bao nhiêu mỗi năm?
Sau khi loại bỏ dữ liệu không còn hữu ích, bước tiếp theo là phân loại và gắn thẻ (tag) dữ liệu còn lại.
Tag dữ liệu là các nhãn hoặc thông tin mô tả (metadata) được gắn vào từng đối tượng dữ liệu để dễ dàng tìm kiếm và tổ chức.
Việc gắn thẻ dữ liệu thường phải thực hiện thủ công, yêu cầu người dùng hiểu rõ nội dung để gắn đúng nhãn. Ví dụ, các bản vẽ CAD hoặc video sản phẩm cần được gắn thẻ là "product".
Các thẻ nên được chuẩn hóa trên toàn tổ chức để đảm bảo dễ dàng truy xuất và dùng chung giữa các bộ phận.
Hiện nay, một số phần mềm gắn thẻ tự động đã bắt đầu xuất hiện. Trong tương lai, các công cụ AI sẽ hỗ trợ phân loại dữ liệu phi cấu trúc thông minh hơn.
Giả sử doanh nghiệp đang chuẩn bị hồ sơ dự thầu một dự án điện lực. Dữ liệu có thể bao gồm:
Các loại dữ liệu này (phi cấu trúc và có cấu trúc) cần được làm sạch, chuẩn hóa và tích hợp vào một kho dữ liệu chung để phục vụ ra quyết định.
ETL (Extract – Transform – Load) là quy trình tự động hóa thu thập, xử lý và tải dữ liệu vào hệ thống phân tích, rất quan trọng trong bước này.
Mục tiêu của bước này là làm cho dữ liệu tương tác được với nhau, để hỗ trợ chiến lược, định giá, lập kế hoạch hoặc phản ứng nhanh với biến động thị trường.
Thực tế, ít doanh nghiệp có thể xử lý 100% dữ liệu phi cấu trúc mà họ tiếp nhận mỗi ngày. Nhưng họ hoàn toàn có thể bắt đầu bằng việc xác định nguồn dữ liệu, vị trí lưu trữ, mục đích sử dụng, giá trị sử dụng, và thời hạn lưu trữ.
Sau đó, cần phá bỏ silo dữ liệu và hướng tới xây dựng kho dữ liệu tổng hợp (data repository) kết hợp cả dữ liệu có cấu trúc và phi cấu trúc.
Mục tiêu cuối cùng là xây dựng hệ sinh thái dữ liệu toàn diện, giàu thông tin, có khả năng phục vụ cho các hệ thống thông minh như AI. Mặc dù điều này còn phụ thuộc vào sự trưởng thành của công nghệ, nhưng IT hoàn toàn có thể chuẩn bị ngay từ hôm nay.
Hướng đến tương lai dữ liệu thông minh cùng VNPT Cloud
Tại VNPT Cloud, chúng tôi hiểu rằng dữ liệu phi cấu trúc không chỉ là thách thức mà còn là tài sản chiến lược. Với nền tảng VNPT Cloud Database, hệ sinh thái phân tích dữ liệu thời gian thực, và dịch vụ AI tích hợp, chúng tôi giúp doanh nghiệp:
Đừng để dữ liệu quý giá rơi vào bóng tối.
Hãy để lại thông tin để cùng VNPT Cloud xây dựng hệ thống dữ liệu hiệu quả. Sẵn sàng cho chuyển đổi số, bảo mật và phát triển bền vững.