Thứ Tư, 06/05/2026, 08:00 (GMT+0)

[Bách Khoa Machine Learning] Phân loạI Machine Learning - 8 thuật toán dành cho ngườI học khoa học dữ liệu

Quay lại Trang chủ Blog
Trên trang này

Trong bài viết này, chúng ta sẽ xem xét một số thuật toán phân loại trong học máy quan trọng.

Chúng ta sẽ thảo luận các thuật toán khác nhau dựa trên cách chúng xử lý dữ liệu, tức là các thuật toán phân loại có thể xử lý dữ liệu đầu vào lớn và những thuật toán không thể xử lý lượng dữ liệu đầu vào lớn.

Các Thuật Toán Phân Loại Trong Học Máy

Phân loại là một trong những khía cạnh quan trọng nhất của học có giám sát.

Trong bài viết này, chúng ta sẽ thảo luận các thuật toán phân loại như hồi quy logistic, Naive Bayes, cây quyết định, rừng ngẫu nhiên và nhiều thuật toán khác. Chúng ta sẽ đi qua các thuộc tính phân loại của từng thuật toán và cách chúng hoạt động.

1. Logistic Regression Algorithm

Hồi quy logistic (Logistic Regression) là một thuật toán phân loại thuộc học có giám sát dùng để dự đoán xác suất của một biến mục tiêu. Đây là một trong những thuật toán học máy được sử dụng cho nhiều bài toán phân loại như phát hiện thư rác, dự đoán bệnh tiểu đường, phát hiện ung thư, v.v.

Hồi quy logistic đơn giản để triển khai, diễn giải và rất hiệu quả để huấn luyện.

Nếu số lượng quan sát nhỏ hơn số lượng đặc trưng, thì không nên sử dụng Hồi quy Logistic, nếu không sẽ gây ra hiện tượng quá khớp.

Chúng ta sử dụng hồi quy logistic cho phân loại nhị phân của các điểm dữ liệu. Ta thực hiện phân loại danh mục sao cho đầu ra thuộc một trong hai lớp (1 hoặc 0).

Ví dụ chúng ta có thể dự đoán hôm nay có mưa hay không dựa trên điều kiện thời tiết hiện tại.

Hai phần quan trọng của hồi quy logistic là Giả thuyết và Đường cong Sigmoid. Với sự trợ giúp của giả thuyết này, chúng ta có thể suy ra khả năng xảy ra của sự kiện.

Dữ liệu tạo ra từ giả thuyết này có thể đưa vào hàm log tạo ra đường cong hình chữ S được gọi là “sigmoid”. Sử dụng hàm log này, chúng ta có thể tiếp tục dự đoán loại lớp.

Chúng ta có thể biểu diễn sigmoid như sau:

Đồ thị được tạo ra thông qua hàm logistic sau:

1 / (1 + e^-x)

Chữ ‘e’ trong phương trình trên biểu diễn đường cong hình chữ S có giá trị nằm giữa 0 và 1.

Chúng ta viết phương trình của hồi quy logistic như sau:

y = e^(b0 + b1x) / (1 + e^(b0 + b1x))

Trong phương trình trên, b0 và b1 là hai hệ số của đầu vào x.

Chúng ta ước lượng hai hệ số này bằng “phương pháp ước lượng hợp lý tối đa”.

2. Naive Bayes Algorithm

Thuật toán Naive Bayes là một thuật toán học có giám sát, dựa trên định lý Bayes và được sử dụng để giải quyết các bài toán phân loại. Đây không phải là một thuật toán duy nhất mà là một họ các thuật toán có chung một nguyên lý chuẩn, tức là mỗi cặp đặc trưng được phân loại là độc lập với nhau.

Bộ phân loại Naive Bayes là một trong những thuật toán phân loại đơn giản và tốt nhất, giúp xây dựng các mô hình học máy nhanh, tạo ra các dự đoán nhanh chóng.

Naive Bayes là một trong những thuật toán học máy mạnh mẽ được sử dụng cho phân loại. Nó là một phần mở rộng của định lý Bayes trong đó mỗi đặc trưng giả định tính độc lập. Nó được sử dụng cho nhiều tác vụ như lọc thư rác và các lĩnh vực phân loại văn bản khác.

Thuật toán Naive Bayes được sử dụng để:

• Đây là một cách dễ dàng và nhanh chóng để dự đoán lớp của tập dữ liệu. Sử dụng phương pháp này, ta có thể thực hiện dự đoán đa lớp.
• Khi giả định tính độc lập là hợp lệ, Naive Bayes có khả năng tốt hơn các thuật toán khác như hồi quy logistic.
• Hơn nữa, bạn sẽ cần ít dữ liệu huấn luyện hơn.

Tuy nhiên, thuật toán Naive Bayes vẫn có những hạn chế:

• Nếu biến phân loại thuộc một danh mục không xuất hiện trong tập huấn luyện, thì mô hình sẽ gán cho nó xác suất bằng 0, điều này sẽ ngăn cản việc đưa ra bất kỳ dự đoán nào.
• Naive Bayes giả định tính độc lập giữa các đặc trưng. Trong thực tế, rất khó để thu thập dữ liệu có các đặc trưng hoàn toàn độc lập.

Nó vẫn còn một số hạn chế. Nếu biến phân loại thuộc bất kỳ danh mục nào mà mô hình chưa được huấn luyện, thì nó sẽ gán cho đặc trưng này xác suất bằng 0, điều này sẽ hạn chế khả năng dự đoán của mô hình. Hơn nữa, Naive Bayes hoạt động dựa trên tiền đề rằng các đặc trưng độc lập với nhau, điều hiếm khi đúng trong các tập dữ liệu thực tế.

3. Decision Tree Algorithm

Các thuật toán cây quyết (Decision Tree) định được sử dụng cho cả dự đoán lẫn phân loại trong học máy.

Sử dụng cây quyết định với một tập đầu vào nhất định, ta có thể ánh xạ các kết quả khác nhau là kết quả của các hệ quả hoặc quyết định.

Chúng ta có thể hiểu cây quyết định thông qua ví dụ sau:

Giả sử bạn phải ra chợ để mua một số sản phẩm. Trước tiên, bạn sẽ đánh giá xem bạn có thực sự cần sản phẩm đó hay không.

Giả sử bạn chỉ mua dầu gội nếu bạn đã hết. Nếu bạn không có dầu gội, bạn sẽ đánh giá thời tiết bên ngoài và xem có mưa hay không. Nếu không mưa, bạn sẽ đi, nếu không thì bạn sẽ không đi.

Chúng ta có thể hình dung điều này dưới dạng cây quyết định như sau:

Cây quyết định này là kết quả của các bước phân cấp khác nhau sẽ giúp bạn đưa ra các quyết định nhất định. Để xây dựng cây này, có hai bước: Quy nạp và Cắt tỉa. Trong quy nạp, chúng ta xây dựng cây, còn trong cắt tỉa, chúng ta loại bỏ một số phức tạp của cây.

Cây quyết định rất linh hoạt vì chúng hoạt động với các biến liên tục và danh nghĩa. Chúng cũng dễ biểu diễn bằng đồ họa, điều này làm cho chúng có giá trị trong việc phân tích các quá trình ra quyết định. Tuy nhiên, chúng có thể tốn nhiều tài nguyên tính toán và dễ bị quá khớp khi sử dụng với tập dữ liệu lớn. Những vấn đề này được giảm thiểu bằng các kỹ thuật như cắt tỉa và các phương pháp tổ hợp khác bao gồm Random Forest.

phân loại ML.png

4. K-Nearest Neighbors Algorithm

K-nearest neighbors là một trong những thuật toán phân loại cơ bản nhưng quan trọng nhất trong học máy.

KNN thuộc lĩnh vực học có giám sát và có nhiều ứng dụng trong nhận dạng mẫu, khai phá dữ liệu và phát hiện xâm nhập. Các KNN được sử dụng trong các tình huống thực tế nơi yêu cầu các thuật toán phi tham số. Các thuật toán này không đưa ra bất kỳ giả định nào về cách dữ liệu được phân phối.

Khi được cung cấp dữ liệu trước đó, KNN phân loại các tọa độ thành các nhóm được xác định bởi một thuộc tính cụ thể.

5. Support Vector Machine Algorithm

Support Vector Machines là một loại thuật toán học máy có giám sát cung cấp phân tích dữ liệu cho phân loại và phân tích hồi quy.

Mặc dù có thể được sử dụng cho hồi quy, SVM chủ yếu được sử dụng cho phân loại. Chúng ta thực hiện việc biểu diễn trong không gian n chiều. Giá trị của mỗi đặc trưng cũng chính là giá trị của tọa độ xác định. Sau đó, chúng ta tìm siêu phẳng lý tưởng phân tách giữa hai lớp.

Các vector hỗ trợ này là các biểu diễn tọa độ của từng quan sát riêng lẻ. Đây là một phương pháp biên để tách hai lớp.

6. Random Forest Algorithm

Bộ phân loại Random Forest là một loại phương pháp học tổ hợp được sử dụng cho phân loại, hồi quy và các tác vụ khác có thể thực hiện với sự trợ giúp của cây quyết định. Các cây quyết định này có thể được xây dựng tại thời điểm huấn luyện và đầu ra của lớp có thể là phân loại hoặc hồi quy.

Với sự trợ giúp của các rừng ngẫu nhiên này, ta có thể khắc phục xu hướng quá khớp với tập huấn luyện.

Một số ưu điểm và nhược điểm của bộ phân loại rừng ngẫu nhiên như sau:

Ưu điểm: Bộ phân loại Rừng Ngẫu Nhiên giúp giảm hiện tượng quá khớp của mô hình và trong nhiều trường hợp chính xác hơn cây quyết định.

Nhược điểm: Rừng ngẫu nhiên có khả năng dự đoán theo thời gian thực nhưng có tốc độ chậm. Chúng cũng khó triển khai và có thuật toán phức tạp.

7. Stochastic Gradient Descent Algorithm

Gradient Ngẫu Nhiên (SGD) là một lớp thuật toán học máy phù hợp cho học quy mô lớn. Đây là một phương pháp hiệu quả cho học phân biệt của các bộ phân loại tuyến tính dưới hàm mất mát lồi, bao gồm SVM tuyến tính và hồi quy logistic.

Chúng ta áp dụng SGD cho các bài toán học máy quy mô lớn xuất hiện trong phân loại văn bản và các lĩnh vực khác của Xử lý Ngôn ngữ Tự nhiên. Nó có thể mở rộng hiệu quả cho các bài toán có hơn 10^5 ví dụ huấn luyện với hơn 10^5 đặc trưng.

Dưới đây là những ưu điểm của SGD:

• Các thuật toán này có hiệu quả.
• Chúng ta có thể triển khai các thuật toán này khá dễ dàng.

Tuy nhiên, SGD cũng có những nhược điểm:

• Thuật toán SGD yêu cầu một số siêu tham số như điều chuẩn và số vòng lặp.
• Nó cũng khá nhạy cảm với việc chuẩn hóa đặc trưng, đây là một trong những bước quan trọng nhất trong tiền xử lý dữ liệu.

8. Kernel Approximation Algorithm

Trong phân hệ này, có nhiều hàm thực hiện xấp xỉ các ánh xạ đặc trưng tương ứng với một số kernel được sử dụng trong Support Vector Machines. Các hàm đặc trưng này thực hiện nhiều phép biến đổi phi tuyến của đầu vào, đóng vai trò là cơ sở cho các phân loại tuyến tính hoặc các thuật toán khác.

Một lợi thế của việc sử dụng các đặc trưng xấp xỉ, vốn cũng mang tính tường minh so với thủ thuật kernel, là các ánh xạ tường minh tốt hơn cho học trực tuyến và có thể giảm đáng kể chi phí học trên các tập dữ liệu rất lớn.

Các SVM được kernel hóa tiêu chuẩn không thể mở rộng tốt cho các tập dữ liệu lớn, nhưng với ánh xạ kernel xấp xỉ, ta có thể sử dụng nhiều SVM tuyến tính hiệu quả.

Tóm Tắt

Phân loại trong Học Máy được sử dụng để sắp xếp dữ liệu vào các danh mục. Ví dụ, bộ lọc thư rác sử dụng phân loại để quyết định một email có phải là spam hay không. Một mô hình được huấn luyện trên các ví dụ email được đánh dấu là spam hoặc không spam. Sau đó, nó học cách dự đoán nhãn cho các email mới. Đây được gọi là phân loại nhị phân - hai lớp.

Cũng có phân loại đa lớp, như nhận diện xem một bức ảnh có mèo, chó hoặc chim. Mô hình được huấn luyện với các hình ảnh và nhãn khác nhau. Khi một hình ảnh mới được đưa ra, nó dự đoán nhãn chính xác. Các thuật toán phổ biến cho phân loại bao gồm Logistic Regression, Decision Trees, Random Forest và Naive Bayes.

Các mô hình phân loại có mặt ở khắp nơi:  trong ngân hàng (gian lận hay không gian lận), trong chăm sóc sức khỏe (bệnh hay không bệnh), và trong mạng xã hội (nội dung an toàn hay có hại). Với huấn luyện rõ ràng và dữ liệu tốt, các mô hình phân loại có thể trở nên rất chính xác và tiết kiệm thời gian cho doanh nghiệp.

 

Sovereign Cloud không chỉ là đặt máy chủ trong nước. Với bối cảnh pháp lý dữ liệu mới tại Việt Nam, đây đang trở thành bài toán hạ tầng quan trọng cho doanh nghiệp Việt và doanh nghiệp nước ngoài hoạt động tại Việt Nam
Sovereign Cloud - Đám mây chủ quyền là gì? Và vì sao doanh nghiệp hoạt động tại Việt Nam nên quan tâm từ bây giờ?