一、概述
(1)聚类分析
目标是,分组数据使得,组内的对象是相似的(相关的),不同组是不同的(不相关的)。
(2)聚类类型
1、层次、划分
层次聚类(嵌套聚类,hierarchial clustering):聚类簇组织成一棵树,每一个结点是其子女的并。
划分聚类(非嵌套聚类,partional clustering):简单的将数据对象划分为不重叠的子集。
目标是,分组数据使得,组内的对象是相似的(相关的),不同组是不同的(不相关的)。
层次聚类(嵌套聚类,hierarchial clustering):聚类簇组织成一棵树,每一个结点是其子女的并。
划分聚类(非嵌套聚类,partional clustering):简单的将数据对象划分为不重叠的子集。
对于购物篮数据,使用二元变量表示。1表示购买,0表示没有购买。
事务:一行数据。
k-项集:一个事务中,出现项。如:3-项集,{啤酒,尿布,牛奶}
支持度计数:
$$\sigma (X)=|\left \{ t_{i}|X\subseteq t_{i},t_{i}\in T \right \}|$$
如,上式中,项集{啤酒,尿布,牛奶}的支持度计数为2,因为只有2个事务同时包含3个项。
例如:一个产品生产的不合格产品数量会远低于合格产品数量。信用卡欺诈的检测中,合法交易远远多于欺诈交易。
这时候,准确率的度量会出现一些问题,因为她把每个类都看得同等重要。
例如,1%的信用卡交易是欺诈行为,则预测每个交易都是合法的模型有99%的准确率,它也可能检测不到任何欺诈交易。
在不平衡数据中,稀有类比较有意义,对于二元分类,稀有类通常记为正类,而多数类被认为是负类。下面显示了混淆矩阵:
考虑25个二元分类器,每一个分类误差a=0.35。组合分类器通过多数投票,如果基分类器是独立的,则仅当超过一半的基分类器都预测错误时,组合才会错误,则:
$$ e_{ensemble}=\sum_{i=1}^{25}C_{25}^{i}a^{i}(1-a)^{25-i}=0.06$$
可以看出,其远低于0.35。