Clustering- Những kiến thức mở đầu

Giới thiệu

Clustering là phương pháp nhóm một tập các đối tượng(object) theo một cách mà các đối tượng được đặt trong cùng một nhóm (cluster) sẽ mang trong mình những đặc điểm tương tự nhau hơn những đối tượng nằm trong nhóm khác. Đây là một nhiệm vụ cốt lõi của data mining hay dịch ra là đào mỏ dữ liệu, một phương pháp được dùng phổ biến trong phân tích dữ liệu thống kê (statistical data analysis), được dùng trong rất nhiều lĩnh vực như: machine learning, pattern recognition (nhận dạng nguyên mẫu), image analysis (thống kê hình ảnh), information retrieval (khôi phục thông tin), bioinformatics (phân tích dữ liệu di truyền - gene), data compression (nén dữ liệu), và computer graphics (đồ họa máy tính).
Clustering không phải là một thuật toán, mà là một nhiệm vụ cần được giải quyết. Nhiệm vụ này có thể được thực hiện bằng những thuật toán đã được xây dựng và phát triển trong khoảng 50 năm đổ lại.
Clustering là một bài toán tối ưu nhiều mục tiêu (multi-objective optimization problem)

Các thuật toán của Clustering

Các thuật toán của clustering có thể được phân loại dựa trên mô hình của các cluster. Hiện nay có khoảng hơn 100 ấn phẩm đã công bố về thuật toán clustering, nhưng nhìn chung tất cả đều dựa trên một số đặc điểm chính, điểm khác biệt cốt lõi nằm trong phương pháp tiếp cận dựa trên nền tàng toán học.

Clustering dựa trên tôn ti (hierarchical)