Thứ Tư, 29/04/2026, 08:00 (GMT+0)

[Bách Khoa Machine Learning] Tìm hiểu các loạI thuật toán Machine Learning vớI những trường hợp ứng dụng tiêu biểu

Quay lại Trang chủ Blog
Trên trang này

Chúng ta sẽ tìm hiểu cách Baidu đang sử dụng supervised learning cho nhận diện khuôn mặt nhằm phục vụ check-in thông minh tại sân bay và cách Google đang tận dụng Reinforcement Learning để phát triển một nền tảng thông minh có thể trả lời các truy vấn của bạn.

Machine Learning là một lĩnh vực rộng lớn, nhưng nó được phân loại thành ba nhóm: supervised learning, unsupervised learning và reinforcement learning. Cả ba mô hình này đều được sử dụng rộng rãi để vận hành các ứng dụng thông minh.

Chúng ta sẽ xem xét các trường hợp ứng dụng quan trọng của các mô hình này và cách chúng đang cách mạng hóa thế giới ngày nay.

Machine Learning là gì?

Machine Learning cho phép các hệ thống đưa ra quyết định một cách tự động mà không cần bất kỳ sự hỗ trợ bên ngoài nào.

Các quyết định này được đưa ra khi máy có khả năng học từ dữ liệu và hiểu được các mẫu (patterns) tiềm ẩn bên trong dữ liệu đó.

Sau đó, thông qua việc so khớp mẫu và phân tích sâu hơn, chúng trả về kết quả có thể là một phân loại hoặc một dự đoán.

Các Loại Machine Learning

Có ba loại thuật toán Machine Learning quan trọng mà chúng ta sẽ thảo luận trong hướng dẫn này:

• Supervised Learning (học có giám sát)
• Unsupervised Learning (học không giám sát)
• Reinforcement Learning (học tăng cường)

Supervised Learning (Học có giám sát)

Supervised Learning là mô hình phổ biến nhất để thực hiện các tác vụ machine learning. Nó được sử dụng rộng rãi cho các dữ liệu mà tồn tại một sự ánh xạ chính xác giữa dữ liệu đầu vào và đầu ra.

Trong trường hợp này, tập dữ liệu được gắn nhãn (labeled), nghĩa là thuật toán xác định rõ ràng các đặc trưng (features) và thực hiện dự đoán hoặc phân loại tương ứng.

Khi quá trình huấn luyện diễn ra, thuật toán có khả năng xác định mối quan hệ giữa hai biến để chúng ta có thể dự đoán một kết quả mới.

Các thuật toán supervised learning mang tính định hướng theo nhiệm vụ (task-oriented).

Khi chúng ta cung cấp ngày càng nhiều ví dụ, nó có thể học tốt hơn để thực hiện nhiệm vụ và mang lại kết quả chính xác hơn.

Một số thuật toán thuộc supervised learning như sau:

Linear Regression

Linear Regression có thể là một thuật toán machine learning có giám sát trong đó đầu ra dự kiến là liên tục và có độ dốc không đổi. Nó được sử dụng để dự đoán các giá trị trong một phạm vi vô hạn (ví dụ: doanh số, giá cả) thay vì phân loại chúng vào các danh mục (ví dụ: mèo, chó). Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến dựa trên giá trị của một biến khác.

Biến mà chúng ta muốn dự đoán được gọi là biến (hoặc đôi khi là biến kết quả).

Trong hồi quy tuyến tính, chúng ta đo lường mối quan hệ tuyến tính giữa hai hoặc nhiều hơn hai biến. Dựa trên mối quan hệ này, chúng ta thực hiện các dự đoán theo mô hình tuyến tính.

Random Forest

Random Forest có thể là một thuật toán machine learning linh hoạt, dễ sử dụng, tạo ra kết quả xuất sắc trong hầu hết các trường hợp, ngay cả khi không tinh chỉnh siêu tham số.

Đây cũng là một trong những thuật toán được sử dụng nhiều nhất nhờ sự đơn giản và tính đa dạng của nó (thường được dùng cho cả bài toán phân loại và hồi quy).

Random Forest là một phương pháp học tập theo tổ hợp (ensemble learning) dùng cho phân loại, hồi quy và các nhiệm vụ khác thông qua việc xây dựng các cây quyết định và cung cấp đầu ra là lớp chiếm đa số (mode) hoặc giá trị trung bình (mean) của các cây riêng lẻ bên trong.

Gradient Boosting

Gradient Boosting có thể là một kỹ thuật machine learning cho các bài toán hồi quy và phân loại, tạo ra một mô hình dự đoán dưới dạng một tập hợp các mô hình dự đoán yếu (weak prediction models), thường là các cây quyết định. Đây là một phương pháp ensemble learning bao gồm nhiều cây quyết định yếu và kết quả là một bộ phân loại mạnh mẽ.

Support Vector Machine

SVM là các bộ phân loại mạnh mẽ được sử dụng để phân loại bộ dữ liệu nhị phân thành hai lớp với sự hỗ trợ của các siêu phẳng (hyperplanes).

Lợi ích của support vector machines là hiệu quả trong các không gian có số chiều cao. Vẫn hiệu quả trong các trường hợp mà số chiều lớn hơn số lượng mẫu.

Logistic Regression

Logistic regression có thể là một mô hình thống kê mà ở dạng cơ bản sử dụng hàm logistic để mô hình hóa một biến nhị phân, mặc dù tồn tại các mở rộng phức tạp hơn.

Trong phân tích đa biến, logistic regression (hay logit regression) là việc ước lượng các tham số của một mô hình logistic (một dạng hồi quy nhị phân).

Nó sử dụng một đường cong hình chữ S (bell-shaped S curve) được tạo ra với sự hỗ trợ của hàm logit để phân loại dữ liệu vào các lớp tương ứng.

Artificial Neural Networks

Artificial Neural Networks được mô phỏng theo bộ não con người và chúng học từ dữ liệu theo thời gian. Chúng tạo thành một phần lớn hơn của machine learning được gọi là Deep Learning.

thuật toán ML.png

Các trường hợp ứng dụng của học có giám sát 

Nhận diện khuôn mặt là một trong những ứng dụng phổ biến nhất của Supervised Learning và cụ thể hơn là Artificial Neural Networks.

Convolutional Neural Networks (CNN) là một loại ANN được sử dụng để xác định khuôn mặt của con người. Các mô hình này có khả năng trích xuất đặc trưng từ hình ảnh thông qua nhiều bộ lọc khác nhau. Cuối cùng, nếu tồn tại một điểm tương đồng cao giữa hình ảnh đầu vào và hình ảnh trong cơ sở dữ liệu, một kết quả khớp tích cực sẽ được cung cấp.

Baidu, công ty công cụ tìm kiếm hàng đầu của Trung Quốc, đã đầu tư vào công nghệ nhận diện khuôn mặt. Trong khi đã triển khai hệ thống nhận diện khuôn mặt trong các hệ thống an ninh của mình, hiện nay công ty đang mở rộng công nghệ này đến các sân bay lớn của Trung Quốc. Baidu sẽ cung cấp cho các sân bay công nghệ nhận diện khuôn mặt cho phép cấp quyền truy cập cho đội ngũ mặt đất và nhân viên.

Do đó, hành khách không phải chờ đợi trong các hàng dài để làm thủ tục chuyến bay khi họ chỉ cần quét khuôn mặt để lên máy bay.

Unsupervised Learning (Học không giám sát)

Trong trường hợp của một thuật toán unsupervised learning, dữ liệu không được gắn nhãn một cách rõ ràng thành các lớp khác nhau, tức là không có nhãn. Mô hình có thể học từ dữ liệu bằng cách tìm ra các mẫu ẩn.

Các thuật toán Unsupervised Learning xác định dữ liệu dựa trên mật độ, cấu trúc, các phân đoạn tương đồng và các đặc trưng tương tự khác. Các thuật toán Unsupervised Learning dựa trên Hebbian Learning.

Cluster analysis là một trong những kỹ thuật được sử dụng rộng rãi nhất trong supervised learning.

Hãy cùng xem một số thuật toán quan trọng thuộc Unsupervised Learning.

Clustering

Clustering, còn được gọi là cluster analysis, là một kỹ thuật nhóm các tập đối tượng tương tự vào cùng một nhóm và khác biệt với các đối tượng ở nhóm khác.

Một số kỹ thuật clustering cơ bản như sau:

a. K-means

Mục tiêu của thuật toán k-means clustering là phân chia n quan sát trong dữ liệu thành k cụm sao cho mỗi quan sát thuộc về cụm có giá trị trung bình gần nhất.

Điều này đóng vai trò là nguyên mẫu (prototype) của cụm.

b. DBSCAN

Đây là một phương pháp clustering nhóm dữ liệu dựa trên mật độ. Nó nhóm các điểm được cho trong không gian lại với nhau và đánh dấu các điểm ngoại lai trong vùng mật độ thấp.

c. Hierarchical clustering

Trong dạng clustering này, một hệ phân cấp các cụm được xây dựng.

Anomaly Detection

Các kỹ thuật Anomaly Detection phát hiện các điểm ngoại lai trong dữ liệu không gắn nhãn dựa trên giả định rằng phần lớn các ví dụ dữ liệu là bình thường bằng cách quan sát các trường hợp phù hợp với phần còn lại của tập dữ liệu.

Autoencoders

Autoencoders là một loại Neural Networks được sử dụng trong Unsupervised Learning cho học biểu diễn (representation learning). Chúng được sử dụng trong khử nhiễu (denoising) và giảm chiều (dimensionality reduction).

Deep Belief Network

Đây là một mô hình đồ họa sinh (generative graphical model), cũng là một lớp của neural network được thiết kế cho unsupervised learning. Nó khác với loại neural network có giám sát ở chỗ nó tái cấu trúc đầu vào của mình một cách xác suất để hoạt động như các bộ phát hiện đặc trưng.

Principal Component Analysis

Đây là một lớp của mô hình unsupervised learning được sử dụng để giảm số chiều của dữ liệu.

Các trường hợp ứng dụng của học không giám sát 

Một trong những kỹ thuật unsupervised learning phổ biến nhất là clustering. Bằng cách sử dụng clustering, các doanh nghiệp có thể nắm bắt các phân khúc khách hàng tiềm năng để bán sản phẩm của mình.

Các công ty bán hàng có thể xác định các phân khúc khách hàng có khả năng sử dụng dịch vụ của họ cao nhất. Các công ty có thể đánh giá các phân khúc khách hàng và sau đó quyết định bán sản phẩm của mình để tối đa hóa lợi nhuận.

Một công ty như vậy đang thực hiện phân tích marketing thương hiệu bằng Machine Learning là một startup có trụ sở tại Israel - Optimove. Mục tiêu của công ty này là thu thập và xử lý dữ liệu khách hàng để làm cho nó có thể tiếp cận được đối với các marketer.

Họ tiến thêm một bước bằng cách cung cấp các insight thông minh cho đội ngũ marketing. Điều này cho phép họ thu được lợi nhuận tối đa từ hoạt động marketing sản phẩm.

thuật toán ML (1).png

Reinforcement Learning (Học tăng cường)

Reinforcement Learning bao phủ nhiều lĩnh vực của Artificial Intelligence. Điều này cho phép máy móc tương tác với môi trường động của chúng để đạt được mục tiêu. Với điều này, máy móc và các tác nhân phần mềm có thể đánh giá hành vi lý tưởng trong một bối cảnh cụ thể.

Với sự hỗ trợ của phản hồi phần thưởng này, các tác nhân có thể học hành vi và cải thiện nó trong dài hạn. Phần thưởng phản hồi đơn giản này được gọi là tín hiệu reinforcement.

Tác nhân trong môi trường được yêu cầu thực hiện các hành động dựa trên trạng thái hiện tại. Loại học này khác với Supervised Learning. Dữ liệu huấn luyện trong trường hợp trước có cung cấp ánh xạ đầu ra để mô hình có khả năng học câu trả lời chính xác.

Trong khi đó, trong trường hợp reinforcement learning, không có đáp án mẫu (answer key) nào được cung cấp cho tác nhân khi họ phải thực hiện một nhiệm vụ cụ thể. Khi không có tập dữ liệu huấn luyện, nó học từ chính kinh nghiệm của mình.

Các trường hợp ứng dụng của học tăng cường

Hệ thống Google’s Active Query Answering (AQA) sử dụng reinforcement learning. Nó cải tiến lại (reformulate) các câu hỏi do người dùng đặt ra.

Ví dụ, nếu bạn hỏi bot AQA câu hỏi “Ngày sinh của Nikola Tesla là gì” thì bot sẽ cải tiến lại thành các câu hỏi khác như “Năm sinh của Nikola Tesla là gì”, “Tesla sinh năm nào?” và “Sinh nhật của Tesla là khi nào”.

Quá trình cải tiến này sử dụng mô hình sequence2sequence truyền thống, nhưng Google đã tích hợp reinforcement learning vào hệ thống của mình để tương tác tốt hơn với hệ thống môi trường dựa trên truy vấn.

Đây là một sự lệch khỏi mô hình seq2seq truyền thống. Tất cả các nhiệm vụ được thực hiện bằng reinforcement learning và các phương pháp policy gradient. Tức là, với một câu hỏi q0 cho trước, chúng ta muốn đạt được câu trả lời tốt nhất a*.

Mục tiêu là tối đa hóa phần thưởng a* = argmaxa R(ajq0).

Kết luận

Kết thúc bài viết, chúng ta đã xem xét các loại mô hình machine learning khác nhau. Chúng ta đã đi qua supervised, unsupervised và reinforcement learning. Chúng ta cũng đã thảo luận các thuật toán thuộc ba nhóm này. Sau đó, chúng ta đã xem xét các ứng dụng thực tế của các thuật toán này.

Với sự tiến bộ trong thực hành machine learning, ngày càng có nhiều thuật toán và phương pháp được phát triển để cải thiện năng lực phân tích và diễn giải dữ liệu. Khi tích hợp các kỹ thuật tinh vi này vào các kịch bản thực tế và quá trình ra quyết định, các nhà quản lý, nhà phân tích và nhà khoa học có thể hưởng lợi từ các ước lượng chính xác hơn, hiểu biết sâu sắc hơn về khách hàng và các giải pháp hiệu quả cho những vấn đề thách thức.

 

#Bách Khoa Toàn Diện
#Machine Learning
#Bách Khoa Toàn Diện
#Machine Learning
Sovereign Cloud không chỉ là đặt máy chủ trong nước. Với bối cảnh pháp lý dữ liệu mới tại Việt Nam, đây đang trở thành bài toán hạ tầng quan trọng cho doanh nghiệp Việt và doanh nghiệp nước ngoài hoạt động tại Việt Nam
Sovereign Cloud - Đám mây chủ quyền là gì? Và vì sao doanh nghiệp hoạt động tại Việt Nam nên quan tâm từ bây giờ?
Tiếp tục đọc