Clustering- Những kiến thức mở đầu¶
Giới thiệu¶
Clustering là phương pháp nhóm một tập các đối tượng(object) theo
một cách mà các đối tượng được đặt trong cùng một nhóm (cluster) sẽ
mang trong mình những đặc điểm tương tự nhau hơn những đối tượng nằm
trong nhóm khác. Đây là một nhiệm vụ cốt lõi của data mining hay
dịch ra là đào mỏ dữ liệu, một phương pháp được dùng phổ biến trong
phân tích dữ liệu thống kê (statistical data analysis), được dùng
trong rất nhiều lĩnh vực như: machine learning, pattern recognition
(nhận dạng nguyên mẫu), image analysis (thống kê hình ảnh),
information retrieval (khôi phục thông tin), bioinformatics (phân tích
dữ liệu di truyền - gene), data compression (nén dữ liệu), và computer
graphics (đồ họa máy tính).
Clustering không phải là một thuật toán, mà là một nhiệm vụ cần
được giải quyết. Nhiệm vụ này có thể được thực hiện bằng những thuật
toán đã được xây dựng và phát triển trong khoảng 50 năm đổ lại.
Clustering là một bài toán tối ưu nhiều mục tiêu (multi-objective
optimization problem)
Các thuật toán của Clustering¶
Các thuật toán của clustering có thể được phân loại dựa trên mô hình của các cluster. Hiện nay có khoảng hơn 100 ấn phẩm đã công bố về thuật toán clustering, nhưng nhìn chung tất cả đều dựa trên một số đặc điểm chính, điểm khác biệt cốt lõi nằm trong phương pháp tiếp cận dựa trên nền tàng toán học.