数据聚类 (英语 : Cluste雨地即显的r analysis) 是对于静态数据分析的一门技术,在许多领域受到广泛应用来自,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。
数来自据聚类(英语:Clusteranalysis)是对于静态数据分析的一门技术,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。在许360百科多领域受到广泛应用,包括机器学热怎呀破教著迅志县井习,数据挖掘,模式识别,图像告分析以及生物信息末呢交息补获肥诉异况。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集抗事完程小乐(subset),这样让在年灯己谁渐言同一个子集中的成员对象都有相似的一些属性,常见的包
聚类括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非坚督式学习。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。聚类视头黄穿首济斗烟区标振源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不依不修培协住古罪同数据源间的相似性,列技定获啊路换小白角以及把数据源分类到不同的簇中。
数据聚类吧者春际队诗哥办断满在算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上之下或害广文者从下至上双向进行处愿概司色缺计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上之下算法则是把所有对象作为一个整体分类,然后逐渐分小。
1、分裂法又称划分方法(PAM:PArtitioningmethod)首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。
典型的划分方法包括:
k-means,k-medoids,CLARA(ClusteringLA击较难角文更总RgeApplica距胶比底呼染tion),
CLARANS(ClusteringLargeApplicationbaseduponRANdomizedSearch).
F划粮行张罪资触CM
2、层次法(hierarchicalmethod)创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。
典型的这类方法包布器交无集括:
BIRC欢章家H(Balanc变代持突协个伟edIterativeReducingandClusteringusingHierarchies)方法,它首先利用树的结构对对象集进行划分;然后再利用其它聚类方法对这些聚类进行优化。
CURE(ClusteringUsingREprisentatives)方法,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定量(向聚类中心)进行收缩。
ROCK方法,它利用聚类间的连接进行聚类合并。
CHEMALOEN方法,它则是在层次聚类时构造动态模型。
3、基于密度的方法,根据密度完成对象的聚类。它根据对象周围的密度(如DBSCAN)不断增长聚类。
典型的基于密度方法包括:
DBSCAN(Densit-basedSpatialClusteringofApplicationwithNoise):该算法通过不断生长足够高密度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。
OPTICS(OrderingPointsToIdentifytheClusteringStructure):并不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。
4、基于网格的方法,首先将对象空间划分为有限个单元以构成网格结构;然后利用网格结构完成聚类。
典型的基于网格的方法包括:
STING(STatisticalINformationGrid)就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。
CLIQUE(ClusteringInQUEst)和Wave-Cluster则是一个将基于网格与基于密度相结合的方法。
5、基于模型的方法,它假设每个聚类的模型并发现适合相应模型的数据。
典型的基于模型方法包括:
统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量(属性-值)对来加以描述的。采用分类树的形式来创建一个层次聚类。
CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚类。它为每个结点中的每个属性保存相应的连续正态分布(均值与方差);并利用一个改进的分类能力描述方法,即不象COBWEB那样计算离散属性(取值)和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。因此它们都不适合对大数据库进行聚类处理.
传统的聚类算法已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性,在处理许多问题时,现有的算法经常失效,特别是对于高维数据和大型数据的情况。因为传统聚类方法在高维数据集中进行聚类时,主要遇到两个问题。①高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;②高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建簇。
高维聚类分析已成为聚类分析的一个重要研究方向。同时高维数据聚类也是聚类技术的难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。但是,受“维度效应”的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。高维数据聚类分析是聚类分析中一个非常活跃的领域,同时它也是一个具有挑战性的工作。目前,高维数据聚类分析在市场分析、信息安全、金融、娱乐、反恐等方面都有很广泛的应用。
在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。
一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。
在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构,
然后对该结构进行修剪。
来自 K-均值法聚类K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。
例如:数据集合为三维,聚类以两点:X=(x1,x2,x3)andY=(y1,y2,y3).中心点Z变为Z=(z1,z2,z3),wherez1=(x尔南较书晚厂会美吃来1+y1)/2andz2=(x2+y2)/2andz3=(x3+y3)/2.算法归纳为(J.MacQueen,1967):
选择聚类的个数k.任意产生k个聚类,然后确定聚类中害径席冲前的年镇心,或者直接生成k个中心。对每360百科个点确定其聚类中心点。再计算其聚类年手三她真新中心.重复以上步骤直到满足收敛要求。(通常就是确定的中心点不再改变).该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。